Цитата(psychologist @ 9.03.2014 - 19:07)

Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисп.анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный.
1. Если читать учебники, а не методички низкого качества, то можно узнать, что распределение должно быть нормальным
не в выборке, а в генеральной совокупности (популяции), откуда эта выборка извлекается. На практике объём выборки часто вообще не позволяет проверить показатель на нормальность распределения.
2. Если читать не все учебники, а только хорошие, то можно узнать, что модель дисперсионного анализа, строго говоря, не требует нормального распределения даже в популяции. Нормально должна быть распределена
ошибка дисперсионного комплекса, т.е. остатки, полученные после вычитания из наблюдаемых значений общего среднего, главных эффектов и эффектов взаимодействий. Если распределение в популяции нормальное, то и ошибка скорее всего будет распределена нормально. Все пакеты предоставляют возможность проверить на нормальность именно ошибку: каким-нибудь критерием или несколькими + строят гистограмму распределения ошибки для визуальной оценки его однородности, асимметрии и эксцесса. Посмотрите несколько учебников и найдите понятный конкретно вам, но такой где дисперсионный анализ изложен:
- с формулами моделей,
- с понятным + графическим изложением концепции взаимодействия факторов,
- с разбором проблемы множественных сравнений средних + хотя бы 3 варианта таких сравнений,
-
с изложением концепции преобразования данных.
Так случилось, что мне сразу попался такой учебник, но на английском, который я и взял когда-то для себя за основу (и по которому переучивался с французского:). Поэтому просто не помню что есть хорошего по ДА на русском. Отличная книга - Монтгомери Д. Планирование эксперимента и анализ данных, но она сложновата. Не следует использовать Гланца и старые учебники типа Плохинского.
3. Программно реализованных непараметрических аналогов двух- и многофакторного ДА нет. Самое близкое - критерий Фридмана для рандомизированных блоков (обсуждался на форуме). Его можно рассматривать в том числе и как непараметрический (ранговый) аналог двухфакторного ДА с единственным наблюдением на ячейку комплекса. Транспонируя матрицу данных можно получить оценки статистической значимости поочерёдно для обоих главных эффектов. Но эффекта взаимодействия вы не получите, а в биологии и медицине зачастую именно взаимодействие и представляет интерес.
4. Поэтому в вашем и более сложных случаях единственным классическим методом является предварительное преобразование данных. Почитайте про них, в том числе на форуме. Одно из лучших и универсальных преобразований - преобразование Бокса-Кокса (Box-Cox transformation). Оно подробно обсуждалось на форуме. На практике часто удобнее использовать предварительное логарифмирование данных перед анализом, т.е логарифмическое преобразование. Это оправдано тем, что часто асимметрично распределённые данные распределены приблизительно логнормально.
Попробуйте на своих данных и убедитесь по распределению остатков, что Бокс-Кокс или логарифмирование хорошо устраняют асимметрию в распределении ошибки.
5. При использовании преобразований в ходе ДА встаёт вопрос, что давать в качестве описательной статистики. Проще всего в пакетах получить средние и 95%-ные ДИ для нужных групп/подгрупп и
ретрансформировать их в исходную шкалу с помощью обратного преобразования. Т.е. если использовалось преобразование квадратного корня - возвести в квадрат, если логарифмирование - потенцировать и т.п. Такая ретрансформация называется "наивной" и чаще всего используется на практике. Если строго, то эти оценки для популяции получаются немного смещёнными и в самых-самых крутых учебниках или специальных статьях можно прочитать про проблему ретранформационного смещения (retransformation bias), про которую лично я узнал в прошлом году:) Пока не забивайте этим голову, а лет через 5 практики погуглите на эту тему.