Цитата(Green @ 28.12.2009 - 20:36)

Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей"
Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт веских оснований предполагать нелинейность отклика, а выполнить соответствующую статистическую проверку не позволяет тип исходных данных, когда для каждого случая X
известно только одно единственное значение Y, а не несколько."
Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) )
О каких соответствующих проверках идет речь?
Если для каждого х имеется несколько значений у, то сумму квадратов остатков (ошибки) можно разложить на 2 части: отклонения групповых средних от линейной регрессии и отклонения внутригрупповых значений от своего среднего (как в дисперсионном анализе), которые теперь выступят статистикой для проверки линейности. Если Вы этого не умеете - создайте другую тему, можно разобрать на к/л примере, хотя и в доступной литературе всё это должно быть. Другое дело что пакеты в результатах регрессионного анализа такой проверки не выдают.
Цитата(Green @ 28.12.2009 - 20:36)

... Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3?
тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y.
Если бы речь шла не о скорости рассасывания шоколадки и ириски, а о совсем непонятных мне процессах, скажем о скоростях к/л процессов в адронном коллайдере - однозначно использовал бы преобразование к более линейному виду (если бы физики меня не отговорили). Однако мой исключительно субъективный опыт сосания конфеток и ирисок не даёт оснований предполагать что скорость этих процессов связывает величина, обратная корню степени 2,7:). Хотя если углубиться в физико-химические свойства - кто его знает? Да и субъективизм - штука ненадёжная: читал когда-то в "Знание-Сила", что когда испытуемым предлагали отсортировать монетки с наклеенными случайным образом двумя бусинками они делили их в пропорции золотого сечения. Хотя весь мой жизненный опыт не позволяет даже помыслить о том, что доля субъективно негармоничных для меня сочетаний среди случайных комбинаций составит (sqrt(5)-1)/2.
Если серьёзно - для меня часто большая трудность решить с чем работать и что показывать: исходные данные или преобразованные значения, особенно когда отклонения от требований модели невелико. Скажем так: если бы я считал
именно эти данные себе, то преобразовал бы их по Боксу-Коксу, а после всех анализов построил графики средних с ДИ, рассчитанными после обратного преобразования средних и симметричных ДИ из анализа. Такие ДИ были бы несимметричными, а все графические построения и расчёты для них пришлось бы делать вручную. Но
если бы с этими данными ко мне пришёл аспирант от научного руководителя также не разбирающегося в статистике (а таких почему-то большинство) - стал бы искать компромисс между требованиями модели и простотой восприятия материала сначала аспирантом и его руководителем, а в последующем - учёным советом. В данном конкретном случае - оставил бы линейность (на практике часто спасает логарифмирование, т.к. пакеты позволяют представлять оси в логарифмическом масштабе, но только приходится делать 2 анализа: один для оценки значимости, другой - для построения графика).
Цитата(Green @ 28.12.2009 - 20:36)

nokh, спасибо, поищите.
Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ (техника выметания матриц и проч) основывается именно на нормальности зависимой переменной.
Ну с вашими докторами мне не тягаться... (да и речь исходно шла не о регрессии, а об anova и ancova). Я понимаю так: если данные
y исходно распределены нормально на каждом уровне
х - ошибки также будут распределены нормально. Математический аппарат регрессионного анализа выводится из этого. Однако почему невозможна ситуация, когда данные распределены ненормально, а ошибка - нормально? Часто при описании моделей выдаётся именно требование нормального распределения ошибки. Посмотрите ковариац. анализ того-же Афифи, книгу Монтгомери. В регрессии также акцентируют внимание на ошибке, например:
(1)... In the univariate linear regression model, we assume that y=E(Y|x)+ε, where E denotes the mathematical expectation of Y given x and could be any deterministic function of x in which the parameters appear in linear form; ε, the error term; stands for all the other unaccounted for factors that make up the observed value y. How accurate our estimates are and how consistent they will be from sample to sample will depend on the nature of the error terms. If none of the many factors that contribute to the value of ε makes more than a small contribution to the total, then ε will have a Gaussian distribution.
If the {εi} are independent and normally distributed (Gaussian), then the ordinary least-squares estimates of the coefficients produced by most statistical software will be unbiased and have minimum variance (выделение - моё. Из:
Phillip I. Good, James W. Hardin. Common Errors in Statistics (and How to Avoid Them) Или это:
(2) 5.3.8 Assumptions of regression analysis
The assumptions of the linear regression model
strictly concern the error terms (εi) in the model, as described in Section 5.3.2. Since these error terms are the only random ones in the model, then the assumptions also apply to observations of the response variable yi. Note that these
assumptions are not required for the OLS estimation of model parameters but are necessary for reliable confidence intervals and hypothesis tests based on t distributions or F distributions... (выделение - моё. Из: GerryP.Quinn, Michael J.Keough. Experimental Designand Data Analysis for Biologists)
Так что поспрашивайте докторов поподробнее, возможно ли нормальное распределение ошибки при ненормальных данных, и чем нам грозит нарушение нормальности данных - я здесь некомпетентен и просто цитирую людей компетентных.
Цитата(Green @ 29.12.2009 - 18:00)

DrgLena,
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.
Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль. Что это значит? это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов.
В рассуждениях есть ошибка. И растения, и животные развиваются из одной клетки, поэтому если исходный размер организма если и не ноль (диаметр зиготы), то очень близок к нему по сравнению с размером взрослого организма. Просто в силу нашей безграмотности мы не знаем дату нашего зачатия, а захватившей нас паразитической цивилизации выгодно считать неродившихся людей "плодом", в т.ч. чтобы использовать в своих целях абортивный материал. Если же считать размеры человека от зачатия или сдвинуть ноль на 3/4 года (9 месяцев) назад, то все кажущиеся отличия между началом роста человека и растения снимаются. Принципиальное же различие заключается в другом - рост растений замедляется, но не прекращается, тогда как рост человека выходит на плато, а если человек собой не занимается - то и снижается к старости.
PS. Ниже - таблица из книги INTRODUCING ANOVA AND ANCOVA A GLM APPROACH (лень уже авторов искать) со сравнением требований anova и GLM.