Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> И снова дисперсионный анализ (двухфакторный)
psychologist
сообщение 9.03.2014 - 16:07
Сообщение #1





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисперсионный анализ. Т.е. 2 группирующие переменные.
Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае?
Крускаль не подойдет, он только однофакторный.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 10.03.2014 - 11:39
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(psychologist @ 9.03.2014 - 19:07) *
Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисп.анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный.

1. Если читать учебники, а не методички низкого качества, то можно узнать, что распределение должно быть нормальным не в выборке, а в генеральной совокупности (популяции), откуда эта выборка извлекается. На практике объём выборки часто вообще не позволяет проверить показатель на нормальность распределения.
2. Если читать не все учебники, а только хорошие, то можно узнать, что модель дисперсионного анализа, строго говоря, не требует нормального распределения даже в популяции. Нормально должна быть распределена ошибка дисперсионного комплекса, т.е. остатки, полученные после вычитания из наблюдаемых значений общего среднего, главных эффектов и эффектов взаимодействий. Если распределение в популяции нормальное, то и ошибка скорее всего будет распределена нормально. Все пакеты предоставляют возможность проверить на нормальность именно ошибку: каким-нибудь критерием или несколькими + строят гистограмму распределения ошибки для визуальной оценки его однородности, асимметрии и эксцесса. Посмотрите несколько учебников и найдите понятный конкретно вам, но такой где дисперсионный анализ изложен:
- с формулами моделей,
- с понятным + графическим изложением концепции взаимодействия факторов,
- с разбором проблемы множественных сравнений средних + хотя бы 3 варианта таких сравнений,
- с изложением концепции преобразования данных.
Так случилось, что мне сразу попался такой учебник, но на английском, который я и взял когда-то для себя за основу (и по которому переучивался с французского:). Поэтому просто не помню что есть хорошего по ДА на русском. Отличная книга - Монтгомери Д. Планирование эксперимента и анализ данных, но она сложновата. Не следует использовать Гланца и старые учебники типа Плохинского.
3. Программно реализованных непараметрических аналогов двух- и многофакторного ДА нет. Самое близкое - критерий Фридмана для рандомизированных блоков (обсуждался на форуме). Его можно рассматривать в том числе и как непараметрический (ранговый) аналог двухфакторного ДА с единственным наблюдением на ячейку комплекса. Транспонируя матрицу данных можно получить оценки статистической значимости поочерёдно для обоих главных эффектов. Но эффекта взаимодействия вы не получите, а в биологии и медицине зачастую именно взаимодействие и представляет интерес.
4. Поэтому в вашем и более сложных случаях единственным классическим методом является предварительное преобразование данных. Почитайте про них, в том числе на форуме. Одно из лучших и универсальных преобразований - преобразование Бокса-Кокса (Box-Cox transformation). Оно подробно обсуждалось на форуме. На практике часто удобнее использовать предварительное логарифмирование данных перед анализом, т.е логарифмическое преобразование. Это оправдано тем, что часто асимметрично распределённые данные распределены приблизительно логнормально. Попробуйте на своих данных и убедитесь по распределению остатков, что Бокс-Кокс или логарифмирование хорошо устраняют асимметрию в распределении ошибки.
5. При использовании преобразований в ходе ДА встаёт вопрос, что давать в качестве описательной статистики. Проще всего в пакетах получить средние и 95%-ные ДИ для нужных групп/подгрупп и ретрансформировать их в исходную шкалу с помощью обратного преобразования. Т.е. если использовалось преобразование квадратного корня - возвести в квадрат, если логарифмирование - потенцировать и т.п. Такая ретрансформация называется "наивной" и чаще всего используется на практике. Если строго, то эти оценки для популяции получаются немного смещёнными и в самых-самых крутых учебниках или специальных статьях можно прочитать про проблему ретранформационного смещения (retransformation bias), про которую лично я узнал в прошлом году:) Пока не забивайте этим голову, а лет через 5 практики погуглите на эту тему.

Сообщение отредактировал nokh - 10.03.2014 - 11:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 29.09.2017 - 23:35
Сообщение #3





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Добрый день,

подхватываю эту тему, т.к. задача аналогичная.

Имеется:

1) независимые переменные:
(А) Пол (женский, мужской)
(Б) Диета (д1, д2, д3)

2) зависимая переменная:
Концентрация (мг/мл)


Как указал nokh, чтобы оценить распределение ошибки дисперсионного комплекса, проделал следующие шаги:
(1) вычислил остатки для исходных данных, исходя из присутствия факторов А, Б и их взаимодеиствия (А*Б)
(2) построил гистограмму частот остатков
(3) увидел:
-- сильную скошенность вправо,
-- коэффициенты ассиметрии и эксцесса (совсем) отличны от 0,
-- вероятности для критериев согласия < 0.05.
(4) преобразовал исходные данные по Боксу-Коксу (получил БК-трансформированные данные)
(5) вычислил остатки для трансформированных данных, исходя из (А Б А*Б)
(6) построил гистограмму частот остатков
(7) увидел:
-- распределение стало (идеально) симметричным smile.gif,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия >0.05 (за некоторыми исключениями)
(4а) преобразовал исходные данные логарифмированием (получил Ln-трансформированные данные)
(5а) ---
(6а) построил гистограмму частот Ln-трансформированные данных
(7а) увидел:
-- распределение стало симметричным, но чуть хуже, чем в случае Бокса-Кокса,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия <0.05 (за некоторыми исключениями)

Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Сообщение отредактировал bubnilkin - 29.09.2017 - 23:36
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.10.2017 - 23:04
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(bubnilkin @ 30.09.2017 - 01:35) *
Добрый день,

подхватываю эту тему, т.к. задача аналогичная.
...
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Быстрый совет - найти факторы, которые объясняют вариабельность лучше smile.gif ну или ставить точку. Ведь никто не отменял отрицательные результаты в науке; могло получиться, что вообще ничего не значимо. У вас же значимы оба главных эффекта, т.е. ваши факторы ВЛИЯЮТ на признак. Если вы даже увеличите объём выборки в эксперименте, то, возможно, докажете ещё и взаимодействие факторов. Однако это никак не повлияет на соотношение дисперсий: слабые эффекты останутся слабыми, детерминация не изменится. Поскольку с технико-статистической точки зрения вы постарались максимально приблизить данные к требованиям модели - к самому анализу претензий быть не может, все претензии - только к самим данным. Если данные говорят, что пол и диета влияют значимо, но слабо, значит так оно и есть. Полагаю, что применительно к данному фрагменту работы можно фиксировать и публиковать результат.
Единственное, что я бы ещё добавил к ДА с Боксом-Коксом, так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов. Т.е. рассчитал бы типа компоненты дисперсии. "Типа", т.к. оба фактора фиксированные, а не случайные (программы могут отказаться считать компоненты для фиксированных экспериментов). Тем не менее и по фиксированным можно расчитать дисперсии всех эффектов, сложить их вместе (100%) и затем расчитать вклады. Я когда-то делал такое по книге Монтгомери Д. Анализ данных и планирование эксперимента - см. раздел по математическим ожидаемым средних квадратов. Т.е. дисперсии (MS) в таблице результатов ANOVA, это ещё не дисперсии связанных с эффектом воздействий, последние нужно рассчитать и выразить в %.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 29.10.2017 - 01:39
Сообщение #5





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Цитата(nokh @ 4.10.2017 - 00:04) *
...Единственное, что я бы ещё добавил..., так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов.
Уважаемый nokh, спасибо за наводку с компонентами дисперсии. Bот что всё-таки вышло. Для простоты я использовал пример (dataset.txt) в Монтгомери с батарейками (8th ed., p.192-194, прикрепил).

E(MS(Material)) = E(SS(Material)/(a-1)) = σ2 + SS(Material)/(a-1) = 6017.074074 (20.1%),
E(MS(Temperature)) = E(SS(Temperature)/(b-1)) = σ2 + SS(Temperature)/(b-1) = 20234.57407 (67.4%),
E(MS(Material*Temperature)) = E(SS(Material*Temperature)/((a-1)(b-1))) = σ2 + SS(Material*Temperature)/((a-1)(b-1)) = 3078.657407 (10.3%),
E(MS(Error)) = E(SS(E)/(ab(n-1))) = σ2 = 675.212963 (2.3%),
E(MS(Total)) = 30005.51852 (100.0%).
[a = 3, b = 3, n = 4; SS(Material) = 10683.72, SS(Temperature) = 39118.72, SS(Material*Temperature) = 9613.78, SS(Error) = 18230.75.]

Но вот, что получилось (sas_output.pdf) в SAS (понимаю, что надо в R...), так это скорее всего то, о чём вы упомянули: "программы могут отказаться считать компоненты для фиксированных [факторов]...". В таблице EMS только "Q" (refers to a quadratic form in parameters of the parenthesized effect). Если рассматривать факторы как случайные, то SAS считает (sas_output2.pdf).

Bозникла путаница с тем, что ещё рассчитывают (lecture.pdf) η2 -- силу влияния факторов... Я так их рассчитал:

η2(A) = SS(A)/SS(T) = 13.76%, η2(B) = SS(B)/SS(T) = 50.38%, η2(AB) = SS(AB)/SS(T) = 12.38%, η2(E) = SS(E)/SS(T) = 23.48%.
[SS(T) = 77646.97222.]

С другой стороны, формулы для EMS на стр.191 (Montgomery), если я правильно понимаю, приведены для случая сбалансированных планов. В моём же эксперименте количество значений в ячейках дисперсионного компекса очень сильно разнится. Как быть ?

Сообщение отредактировал bubnilkin - 29.10.2017 - 01:41
Прикрепленные файлы
Прикрепленный файл  dataset.txt ( 1,22 килобайт ) Кол-во скачиваний: 683
Прикрепленный файл  Montgomery.pdf ( 3,47 мегабайт ) Кол-во скачиваний: 456
Прикрепленный файл  sas_code.txt ( 2,25 килобайт ) Кол-во скачиваний: 677
Прикрепленный файл  sas_output.pdf ( 98,48 килобайт ) Кол-во скачиваний: 183
Прикрепленный файл  sas_output2.pdf ( 84,81 килобайт ) Кол-во скачиваний: 179
Прикрепленный файл  lecture7.pdf ( 336,63 килобайт ) Кол-во скачиваний: 536
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- psychologist   И снова дисперсионный анализ (двухфакторный)   9.03.2014 - 16:07
- - nokh   Цитата(psychologist @ 9.03.2014 - 19...   10.03.2014 - 11:39
|- - bubnilkin   Добрый день, подхватываю эту тему, т.к. задача ан...   29.09.2017 - 23:35
|- - 100$   Цитата(bubnilkin @ 29.09.2017 - 23:3...   30.09.2017 - 01:07
||- - bubnilkin   100$, простите, не понимаю фразу: Цитата(100...   30.09.2017 - 12:34
||- - 100$   Цитата(bubnilkin @ 30.09.2017 - 12:3...   30.09.2017 - 17:21
|- - nokh   Цитата(bubnilkin @ 30.09.2017 - 01:3...   3.10.2017 - 23:04
|- - bubnilkin   Цитата(nokh @ 4.10.2017 - 00:04) ......   29.10.2017 - 01:39
|- - nokh   Цитата(bubnilkin @ 29.10.2017 - 03:3...   31.10.2017 - 01:50
- - psychologist   Вас понял, предстоит большая работа. Я вообще таки...   10.03.2014 - 14:31
|- - nokh   Цитата(psychologist @ 10.03.2014 - 17...   10.03.2014 - 16:56
- - anserovtv   Все у вас какие-то проблемы, psychologist! Но ...   10.03.2014 - 21:59
- - psychologist   с однородностью впорядке. Для оценки взаимодейств...   20.03.2014 - 23:45
- - anserovtv   Большое спасибо за своевременные вопросы. Здесь д...   21.03.2014 - 07:07
- - psychologist   anserovtv правда извините в Statistica , где эта п...   24.03.2014 - 13:08
- - anserovtv   Во многих пакетах.   24.03.2014 - 19:18
- - psychologist   можете дать скрин где именно, в каком меню это дел...   25.03.2014 - 19:59
- - anserovtv   Читайте руководство пользователя и другие книги.   26.03.2014 - 06:17


Добавить ответ в эту темуОткрыть тему