Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> ANOVA и преобразование данных, Вопросы по результатам анализа данных в ANOVA
Cules2013
сообщение 10.07.2019 - 01:29
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Работая с ANOVA возник ряд занимательных вопросов:
1. Вычитал, что если данные не соответствую ни нормальному распределению остатков, ни равенству дисперсий (стандартных отклонений), то лучше их преобразовать каким-то методом, т.к. большая разница в дисперсия также проблема и для непараметрических критериев. Могу ли я просто вручную сделать это преобразование: например, 1/х, ln (x) или x^n и просто выбрать наиболее подходящее, проверяя итоговые данные по Шапиро-Уилку? Я вот методом тыка вручную нашёл, что возведение данных в 6 степень наиболее оптимально для получения нормального распределения.
2. Уж ранее и в моих темах, и в других, был целый диспут по поводу того, что является условием для ANOVA - нормальное распределение исходных данных либо их остатков. Вроде как все разобрались, что остатков. Однако, я для интереса сравнил результаты по Шапиро-Уилку для сырых чисел и для их остатков - и не нашёл в уровне р никакой разницы, он идентичен. Отсюда вопрос - либо я что-то не понимаю и делаю не так, либо зачем делать больше работы, чтобы получить такой же исход?
3. При попарном сравнении в ANOVA есть пункт - "эффективность сопоставления", которая, в идеале, должна быть p<0,05. В мануале к ГрафПэду написано, что если р - большое, то как бы эффективность нашего сравнения низкая, и надо бы выбрать ANOVA для несвязанных выборок. Однако, ещё нужно учесть нашу задумку по эксперименту и то, как принято вообще обрабатывать наш тип данных в лит-ре. У меня какой-то диссонанс возник по этому поводу:
а) а какое мы вообще имеем право брать ANOVA для несвязанных выборок, если у нас они по-факту связанные? Не важно какая там при этом эффективность попарного сравнения .
б) а какой тогда смысл вообще учитывать эту эффективность, если многое решает протокол и принятые нормы в обработке данных такого типа?
в) но если мы пренебрежём высоким р для эффективности сравнения, то рискуем получить неадекватные результаты. И что делать?
4. Опять же в попарных сравнениях ANOVA есть поправка Гайссера-Гринхауза для сферичности. Изначально нам рекомендуют её брать, предполагая, что сферичность данных скорее всего нарушена. Однако, потом в результатах мы видим уровень р для неё и можем сказать, нарушена она всё-таки или нет. Если нет, мы же можем/должны переделать ANOVA уже без этой поправки, т.к. она же снижает мощность критерия?
5. Почему в Граф Пэде Критерий Бартлетта и Брайна-Форсайта для сравнения равенства дисперсий рассчитывается только для несвязанных выборок? Это же условие для любого вида ANOVA, для связанных выборок тоже?
6. Я уже касался когда-то этого вопроса, но так и не получил того ответа, который ожидал. Как просто и адекватно визуализировать данные, если я их преобразовал, допустим, возведением в степень? Графически суть особо не меняется, но там уже другие количественные значения. Могу ли я график оставить по нативным данным, а звёздочки различий между ними поставить уже по преобразованным данным? Или лучше тогда "нормализовать" как-то данные, допустим, перевести их в проценты?

Сообщение отредактировал Cules2013 - 10.07.2019 - 01:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.07.2019 - 08:39
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 1108
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 10.07.2019 - 03:29) *
1. Вычитал, что если данные не соответствую ни нормальному распределению остатков, ни равенству дисперсий (стандартных отклонений), то лучше их преобразовать каким-то методом, т.к. большая разница в дисперсия также проблема и для непараметрических критериев. Могу ли я просто вручную сделать это преобразование: например, 1/х, ln (x) или x^n и просто выбрать наиболее подходящее, проверяя итоговые данные по Шапиро-Уилку? Я вот методом тыка вручную нашёл, что возведение данных в 6 степень наиболее оптимально для получения нормального распределения.

6. Я уже касался когда-то этого вопроса, но так и не получил того ответа, который ожидал. Как просто и адекватно визуализировать данные, если я их преобразовал, допустим, возведением в степень? Графически суть особо не меняется, но там уже другие количественные значения. Могу ли я график оставить по нативным данным, а звёздочки различий между ними поставить уже по преобразованным данным? Или лучше тогда "нормализовать" как-то данные, допустим, перевести их в проценты?

Пока времени почти нет; отвечу только на эти вопросы.
1) Идеально, если нужное преобразование получается из теоретического анализа явления. Например, зная что размер листовой пластинки имеет генетически обусловленную форму и не может варьировать свободно и по дине и по ширине, глупо ждать нормального распределения площади листа. Если и длина листа, и ширина варьируют по нормальному закону, площадь будет изменяться пропорционально произведению длины и ширины. Маленький листик 3х3 имеет площадь 9, крупнее 4х4=16, крупный 5х5=25. Т.е. несмотря на то, что и длина и ширина увеличивались в этом ряду на единицу, разности площадей 9 и 16 - 7, а 16 и 25 - 9. Т.е. В распределении площадей появляется положительная асимметрия и в силу этого площадь как таковая является априори ненормально распределённой. Но если работать с квадратными корнями из площадей, которые распределены нормально, смещения оценок, привносимых асимметрией распределения не будет и дисперсия станет независимой от среднего. Аналогично выводится логарифмическое преобразование для показателей связанных со временем (скорость, численность, и т.п.). Раньше и подбирали вручную (не совсем, делались расчёты и строились графики, есть у Хальда "Математическая статистика"). Сейчас делают или как обычно принято в вашей области или используют адаптивное к данным преобразование Бокса - Кокса. 1/х, ln (x) или x^n - частные случаи преобразования Бокса- Кокса.

6) Если "по-студенчески" то можно по нативным со звёздочками. Если более серьёзно, то нужно рассчитать по преобразованным средние с 95% ДИ, а на графике пересчитать (ретрансформировать) их в нативную шкалу. Т.е. для примера выше квадратные корни из площадей возвести в квадрат. ДИ на графике получатся в этом случае немного асимметричными - как и само исходное распределение. В некоторых случаях удобнее оставить данные на графиках в шкале преобразования, например - логарифмической (большинство пакетов позволяют изменить тип шкалы на логарифмический).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему