Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Параметрические критерии при малых выборках
yes_asp
сообщение 27.08.2009 - 16:43
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 20.08.2009
Пользователь №: 6256



Уважаемые форумчане!
Во учебниках по биостатистике написано, что обязательными условиями для применения дисперсионного анализа являются нормальное распределение признака в генеральной совокупности и равенство дисперсий сравниваемых выборок. В то же время такие журналы, как Nature, Science и другие не менее солидные издания публикуют статьи, авторы которых используют различные варианты ANOVA для оценки значимости различий средних в группах из 4-6-8 наблюдений (мыши, крысы, культуры клеток и т.п.). Таких работ множество, они легко доступны, поэтому ссылки не привожу. Понятно, что проверить условия, позволяющие использовать дисперсионный анализ, на таких выборках нельзя. Однако редакторов это почему-то не смущает. Поверить в то, что редакторы столь уважаемых в научном мире журналов ничего не смыслят в биостатистике, не могу. Как тогда объяснить подобные допущения???
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.08.2009 - 19:14
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(yes_asp @ 27.08.2009 - 19:43) *
Уважаемые форумчане!
Во учебниках по биостатистике написано, что обязательными условиями для применения дисперсионного анализа являются нормальное распределение признака в генеральной совокупности и равенство дисперсий сравниваемых выборок. В то же время такие журналы, как Nature, Science и другие не менее солидные издания публикуют статьи, авторы которых используют различные варианты ANOVA для оценки значимости различий средних в группах из 4-6-8 наблюдений (мыши, крысы, культуры клеток и т.п.). Таких работ множество, они легко доступны, поэтому ссылки не привожу. Понятно, что проверить условия, позволяющие использовать дисперсионный анализ, на таких выборках нельзя. Однако редакторов это почему-то не смущает. Поверить в то, что редакторы столь уважаемых в научном мире журналов ничего не смыслят в биостатистике, не могу. Как тогда объяснить подобные допущения???

Особых проблем здесь нет по целому ряду причин.
(1). Для многих признаков уже известно, что они распределены приблизительно нормально. Это не нужно каждый раз проверять. Про другие уже известно, как они распределены и как это распределение преобразовать в нормальное. Например, масса признаков в естественных науках (скорости, концентрации и мн. другие) распределена приблизительно логнормально - их перед анализом логарифмируют, из площадей - извлекают корень, для долей и процентов - используют угловые преобразования и т.д. Даже если нужное преобразование точно не известно, можно использовать преобразования типа Бокса-Кокса и снять эту проблему.
(2) Дисперсии в случае асимметричных распределений связаны со средними значениями и "нестабильны" - появление наблюдения в хвосте распределения смещает к нему среднее и ещё резче увеличивает дисперсию. Часто неоднородность дисперсии (гетеросцедастичность) в серии выборок вызвана именно этим. Симметризация распределения преобразованием "развязывает" средние и дисперсии, уменьшает дисперсии и как правило делает их однородными. Также есть специальные преобразования, ведущие к однородности дисперсий.
(3) Известно, что многофакторный дисперсионный анализ устойчив к небольшим отклонениям от требований модели (робастен).
(4). Для установления характера распределения признака действительно нужно большое число наблюдений, но ведь задача дисперсионного анализа (ДА) в другом. Формально для него достаточно и двух наблюдений на ячейку дисперсионного комплекса (чтобы можно было посчитать среднее и дисперсию), а есть алгоритмы, позволяющие обрабатывать и ячейки с единственным значением, и даже с пропущенными ячейками.
(5). Самым примитивным экспериментальным планом (experimental design) или, как сейчас модно говорить, дизайном исследования является полный факторный эксперимент. Примитивным, т.к. он проще всего организуется и обсчитывается. Хотя он позволяет выразить и оценить все эффекты и их взаимодействия, это не всегда нужно исследователю. С этой т.з. полный факторный эксперимент является излишне расточительным. Поэтому существуют специальные экспериментальные планы с ограничениями на рандомизацию (типа латинских квадратов и пр.). Они не позволяют разобраться во всех деталях, но позволяют ответить на интересующие исследователя вопросы и сэкономить на материале. Если в процессе эксперимента не происходит разрушения образца/гибели животного одну и ту же единицу в ряде задач можно использовать многократно. Организация зависимых выборок и проведение повторных измерений - еще один способ увеличения рациональности дизайна.
(6). Большие выборки увеличивают мощность исследования - способность обнаружить различия там где они есть. Если на малой выборке различия не обнаруживаются это ещё не значит что их нет на самом деле, нулевая гипотеза пока просто остаётся в силе. Такую работу нет смысла публиковать. Но если и на малой выборке нулевую гипотезу удается отклонить - уже есть о чем заявить: "я нашел, а вы теперь давайте проверяйте. Выборки маловаты, но ведь нашёл!" Такие статьи публикуют и это создает известный в мета-анализе перекос.

Т.о. если кратко, то наличие большого числа публикаций с использованием в ДА малых выборок с кажущимися нарушениями допущений можно объяснить: особенностями самой модели ДА, использованием преобразований данных, использованием экономных экспериментальных планов и эффективных алгоритмов анализа, а также психологическими/социальными причинами. И всегда есть некоторая доля статей с действительно некорректным анализом.

Сообщение отредактировал nokh - 27.08.2009 - 19:21
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 27.08.2009 - 20:46
Сообщение #3





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Цитата(yes_asp @ 27.08.2009 - 16:43) *
Уважаемые форумчане!
Во учебниках по биостатистике написано, что обязательными условиями для применения дисперсионного анализа являются нормальное распределение признака в генеральной совокупности и равенство дисперсий сравниваемых выборок. В то же время такие журналы, как Nature, Science и другие не менее солидные издания публикуют статьи, авторы которых используют различные варианты ANOVA для оценки значимости различий средних в группах из 4-6-8 наблюдений (мыши, крысы, культуры клеток и т.п.). Таких работ множество, они легко доступны, поэтому ссылки не привожу. Понятно, что проверить условия, позволяющие использовать дисперсионный анализ, на таких выборках нельзя. Однако редакторов это почему-то не смущает. Поверить в то, что редакторы столь уважаемых в научном мире журналов ничего не смыслят в биостатистике, не могу. Как тогда объяснить подобные допущения???



В любом случае, несмотря на небольшое количество данных, перед использованием метода линейной регрессии или АNOVA проводится проверка основных предположений. Для этого, в основном, используются графические методы: boxplot (указывает на асимметрию и outliers), QQ-plot (отклонения от нормального распределения), residuals vs. fitted values (негомогенность дисперсии). Если наблюдаются отклонения от основных предположений, то можно попытаться преобразовать данные. Если же трансформация не дает желаемого результата, то лучше использовать непараметрический подход (критерий Фридмана или Даны Квейд (для 2-х факторного ANOVA) и Крускаль ?Уолис (для однофакторного ANOVA).

В отношении робастности ANOVA хорошо сказано в книге ?Biostatistics: A Methodology for the Health Sciences? (Gerald van Belle и соавторы):

?Finally, appeal is made to the ?robustness? of the anova and the analysis is carried out anyway. This is a little bit like riding a bicycle without holding onto the handle bars; it takes experience and courage. If you arrive safely, everyone is impressed, if not, they told you so.?

Всего Вам наилучшего


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
pifagor
сообщение 1.09.2012 - 11:12
Сообщение #4





Группа: Пользователи
Сообщений: 33
Регистрация: 29.08.2012
Пользователь №: 24130



Цитата(yes_asp @ 27.08.2009 - 17:43) *
Уважаемые форумчане!
Во учебниках по биостатистике написано, что обязательными условиями для применения дисперсионного анализа являются нормальное распределение признака в генеральной совокупности и равенство дисперсий сравниваемых выборок. В то же время такие журналы, как Nature, Science и другие не менее солидные издания публикуют статьи, авторы которых используют различные варианты ANOVA для оценки значимости различий средних в группах из 4-6-8 наблюдений (мыши, крысы, культуры клеток и т.п.). Таких работ множество, они легко доступны, поэтому ссылки не привожу. Понятно, что проверить условия, позволяющие использовать дисперсионный анализ, на таких выборках нельзя. Однако редакторов это почему-то не смущает. Поверить в то, что редакторы столь уважаемых в научном мире журналов ничего не смыслят в биостатистике, не могу. Как тогда объяснить подобные допущения???

Критерий Фишера устойчив к отклонениям от нормальности. Это доказано. Проблема описана в книге Шеффе Дисперсионный анализ. Но критерий Фишера довольно чувствителен к неравенству дисперсий. Применять преобразование данных, логарифм.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему