Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: И снова дисперсионный анализ (двухфакторный)
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
psychologist
Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисперсионный анализ. Т.е. 2 группирующие переменные.
Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае?
Крускаль не подойдет, он только однофакторный.
nokh
Цитата(psychologist @ 9.03.2014 - 19:07) *
Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисп.анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный.

1. Если читать учебники, а не методички низкого качества, то можно узнать, что распределение должно быть нормальным не в выборке, а в генеральной совокупности (популяции), откуда эта выборка извлекается. На практике объём выборки часто вообще не позволяет проверить показатель на нормальность распределения.
2. Если читать не все учебники, а только хорошие, то можно узнать, что модель дисперсионного анализа, строго говоря, не требует нормального распределения даже в популяции. Нормально должна быть распределена ошибка дисперсионного комплекса, т.е. остатки, полученные после вычитания из наблюдаемых значений общего среднего, главных эффектов и эффектов взаимодействий. Если распределение в популяции нормальное, то и ошибка скорее всего будет распределена нормально. Все пакеты предоставляют возможность проверить на нормальность именно ошибку: каким-нибудь критерием или несколькими + строят гистограмму распределения ошибки для визуальной оценки его однородности, асимметрии и эксцесса. Посмотрите несколько учебников и найдите понятный конкретно вам, но такой где дисперсионный анализ изложен:
- с формулами моделей,
- с понятным + графическим изложением концепции взаимодействия факторов,
- с разбором проблемы множественных сравнений средних + хотя бы 3 варианта таких сравнений,
- с изложением концепции преобразования данных.
Так случилось, что мне сразу попался такой учебник, но на английском, который я и взял когда-то для себя за основу (и по которому переучивался с французского:). Поэтому просто не помню что есть хорошего по ДА на русском. Отличная книга - Монтгомери Д. Планирование эксперимента и анализ данных, но она сложновата. Не следует использовать Гланца и старые учебники типа Плохинского.
3. Программно реализованных непараметрических аналогов двух- и многофакторного ДА нет. Самое близкое - критерий Фридмана для рандомизированных блоков (обсуждался на форуме). Его можно рассматривать в том числе и как непараметрический (ранговый) аналог двухфакторного ДА с единственным наблюдением на ячейку комплекса. Транспонируя матрицу данных можно получить оценки статистической значимости поочерёдно для обоих главных эффектов. Но эффекта взаимодействия вы не получите, а в биологии и медицине зачастую именно взаимодействие и представляет интерес.
4. Поэтому в вашем и более сложных случаях единственным классическим методом является предварительное преобразование данных. Почитайте про них, в том числе на форуме. Одно из лучших и универсальных преобразований - преобразование Бокса-Кокса (Box-Cox transformation). Оно подробно обсуждалось на форуме. На практике часто удобнее использовать предварительное логарифмирование данных перед анализом, т.е логарифмическое преобразование. Это оправдано тем, что часто асимметрично распределённые данные распределены приблизительно логнормально. Попробуйте на своих данных и убедитесь по распределению остатков, что Бокс-Кокс или логарифмирование хорошо устраняют асимметрию в распределении ошибки.
5. При использовании преобразований в ходе ДА встаёт вопрос, что давать в качестве описательной статистики. Проще всего в пакетах получить средние и 95%-ные ДИ для нужных групп/подгрупп и ретрансформировать их в исходную шкалу с помощью обратного преобразования. Т.е. если использовалось преобразование квадратного корня - возвести в квадрат, если логарифмирование - потенцировать и т.п. Такая ретрансформация называется "наивной" и чаще всего используется на практике. Если строго, то эти оценки для популяции получаются немного смещёнными и в самых-самых крутых учебниках или специальных статьях можно прочитать про проблему ретранформационного смещения (retransformation bias), про которую лично я узнал в прошлом году:) Пока не забивайте этим голову, а лет через 5 практики погуглите на эту тему.
psychologist
Вас понял, предстоит большая работа. Я вообще таких тонкостей не знал.
А разве фридман это не для повторных измерений?
nokh
Цитата(psychologist @ 10.03.2014 - 17:31) *
А разве фридман это не для повторных измерений?

А разве вы не нашли ответ в архиве этого форума или хотя бы в википедии:
http://en.wikipedia.org/wiki/Friedman_test
http://en.wikipedia.org/wiki/Complete_block_design
http://translate.google.ru/
anserovtv
Все у вас какие-то проблемы, psychologist!
Но не надо плакать, утрите слезы!
Не все так плохо. Ведь факторов немного- всего два !!!
И где вы такие данные берете?
В некоторых случаях это может говорить и о неисправности измерительного прибора.
1) Для применения параметрического ДА нужна еще и однородность дисперсии по всем ячейкам комплекса. Как с этим?
2) Если уж суждено использовать непараметрический аналог ДА, то можно попробовать сделать вычисления " почти вручную"
(если хватит объема выборки):
а)провести анализ Краскала-Уоллеса по каждому фактору отдельно (т. е. без учета другого) с попарными сравнениями.
Так мы оценим влияние каждого фактора отдельно.
б) Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора.
Для этого нужен большой объем данных.
Если результаты по уровням другого фактора будут различаться , то это будет говорить о взаимодействии факторов./ не очень сложный анализ/.
3) В любом случае взаимодействие факторов легко и увидеть и интерпретировать, если построить графики средних для уровней одного фактора с отдельными линиями для уровней второго фактора:
если линии "параллельны", то взаимодействия нет. Если линии пересекаются , взаимодействие есть.
psychologist
с однородностью впорядке.
Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора.
Для этого нужен большой объем данных.

эту фразу плохо понимаю. Как это сделать?
anserovtv
Большое спасибо за своевременные вопросы.
Здесь две фразы.
1) Фиксируете уровень одного из факторов с помощью процедуры Отобрать наблюдения , например фактор 2=a и выполняете ДА только для фактора 1 и далее аналогично (перебираете все уровни фактора 2, затем делаете тоже самое для фактора 2 по каждому уровню фактора 1).
2) Так как выполняется отбор (фильтрация) данных , то их объем резко уменьшается.
Предлагаю сначала построить графики средних.
psychologist
anserovtv
правда извините
в Statistica , где эта процедура реализована? или в SPSS?
anserovtv
Во многих пакетах.
psychologist
можете дать скрин где именно, в каком меню это делаете?
anserovtv
Читайте руководство пользователя и другие книги.
bubnilkin
Добрый день,

подхватываю эту тему, т.к. задача аналогичная.

Имеется:

1) независимые переменные:
(А) Пол (женский, мужской)
(Б) Диета (д1, д2, д3)

2) зависимая переменная:
Концентрация (мг/мл)


Как указал nokh, чтобы оценить распределение ошибки дисперсионного комплекса, проделал следующие шаги:
(1) вычислил остатки для исходных данных, исходя из присутствия факторов А, Б и их взаимодеиствия (А*Б)
(2) построил гистограмму частот остатков
(3) увидел:
-- сильную скошенность вправо,
-- коэффициенты ассиметрии и эксцесса (совсем) отличны от 0,
-- вероятности для критериев согласия < 0.05.
(4) преобразовал исходные данные по Боксу-Коксу (получил БК-трансформированные данные)
(5) вычислил остатки для трансформированных данных, исходя из (А Б А*Б)
(6) построил гистограмму частот остатков
(7) увидел:
-- распределение стало (идеально) симметричным smile.gif,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия >0.05 (за некоторыми исключениями)
(4а) преобразовал исходные данные логарифмированием (получил Ln-трансформированные данные)
(5а) ---
(6а) построил гистограмму частот Ln-трансформированные данных
(7а) увидел:
-- распределение стало симметричным, но чуть хуже, чем в случае Бокса-Кокса,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия <0.05 (за некоторыми исключениями)

Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?
100$
Цитата(bubnilkin @ 29.09.2017 - 23:35) *
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?


1. Ну, если это до такой степени действует на нервы, то усреднить наблюдения в каждой ячейке дисперсионного комплекса и переоценить модель без взаимодействий. Посмотреть, как отреагирует R-квадрат.

2. А вообще-то в природе года этак с 1976 существует непараметрический аналог двухфакторного ДА, описанный в работах Шайрера, Рея и Хейра. Подробности с формулами у Сокала и Рольфа, а также в мануале к AtteStat'у И.Гайдышева.
bubnilkin
100$, простите, не понимаю фразу:
Цитата(100$ @ 30.09.2017 - 01:07) *
усреднить наблюдения в каждой ячейке дисперсионного комплекса
Это означает, чтобы в каждой группе было одинаковое количество наблюдений?
100$
Цитата(bubnilkin @ 30.09.2017 - 12:34) *
100$, простите, не понимаю фразу: Это означает, чтобы в каждой группе было одинаковое количество наблюдений?


Madre de Dios! Как все запущено.

Базовый шаблон двухфакторного ДА можно представить как таблицу умножения, где на пересечении уровня "5" первого фактора и уровня "5" второго фактора находится либо значение "25" (одно наблюдение на ячейку дисперсионного комплекса, при котором невозможно оценить взаимодействие факторов), либо куча чисел (н-р, десяток), позволяющая оценить упомянутое взаимодействие. По умолчанию предполагается, что количество измерений зависимой величины ("повторностей") неизменно при любых сочетаниях факторов. В этом случае принято говорить о т.н. сбалансированном плане эксперимента. Вот эти повторности я и предлагаю усреднить, раз уж предварительный анализ оценивает взаимодействие ваших факторов как статистически незначимое.
nokh
Цитата(bubnilkin @ 30.09.2017 - 01:35) *
Добрый день,

подхватываю эту тему, т.к. задача аналогичная.
...
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Быстрый совет - найти факторы, которые объясняют вариабельность лучше smile.gif ну или ставить точку. Ведь никто не отменял отрицательные результаты в науке; могло получиться, что вообще ничего не значимо. У вас же значимы оба главных эффекта, т.е. ваши факторы ВЛИЯЮТ на признак. Если вы даже увеличите объём выборки в эксперименте, то, возможно, докажете ещё и взаимодействие факторов. Однако это никак не повлияет на соотношение дисперсий: слабые эффекты останутся слабыми, детерминация не изменится. Поскольку с технико-статистической точки зрения вы постарались максимально приблизить данные к требованиям модели - к самому анализу претензий быть не может, все претензии - только к самим данным. Если данные говорят, что пол и диета влияют значимо, но слабо, значит так оно и есть. Полагаю, что применительно к данному фрагменту работы можно фиксировать и публиковать результат.
Единственное, что я бы ещё добавил к ДА с Боксом-Коксом, так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов. Т.е. рассчитал бы типа компоненты дисперсии. "Типа", т.к. оба фактора фиксированные, а не случайные (программы могут отказаться считать компоненты для фиксированных экспериментов). Тем не менее и по фиксированным можно расчитать дисперсии всех эффектов, сложить их вместе (100%) и затем расчитать вклады. Я когда-то делал такое по книге Монтгомери Д. Анализ данных и планирование эксперимента - см. раздел по математическим ожидаемым средних квадратов. Т.е. дисперсии (MS) в таблице результатов ANOVA, это ещё не дисперсии связанных с эффектом воздействий, последние нужно рассчитать и выразить в %.
bubnilkin
Цитата(nokh @ 4.10.2017 - 00:04) *
...Единственное, что я бы ещё добавил..., так это вычислил бы в %, сколько всё-таки изменчивости (дисперсии) показателя определяется полом, сколько - диетой и сколько - спецификой сочетания (взаимодействием) этих факторов.
Уважаемый nokh, спасибо за наводку с компонентами дисперсии. Bот что всё-таки вышло. Для простоты я использовал пример (dataset.txt) в Монтгомери с батарейками (8th ed., p.192-194, прикрепил).

E(MS(Material)) = E(SS(Material)/(a-1)) = σ2 + SS(Material)/(a-1) = 6017.074074 (20.1%),
E(MS(Temperature)) = E(SS(Temperature)/(b-1)) = σ2 + SS(Temperature)/(b-1) = 20234.57407 (67.4%),
E(MS(Material*Temperature)) = E(SS(Material*Temperature)/((a-1)(b-1))) = σ2 + SS(Material*Temperature)/((a-1)(b-1)) = 3078.657407 (10.3%),
E(MS(Error)) = E(SS(E)/(ab(n-1))) = σ2 = 675.212963 (2.3%),
E(MS(Total)) = 30005.51852 (100.0%).
[a = 3, b = 3, n = 4; SS(Material) = 10683.72, SS(Temperature) = 39118.72, SS(Material*Temperature) = 9613.78, SS(Error) = 18230.75.]

Но вот, что получилось (sas_output.pdf) в SAS (понимаю, что надо в R...), так это скорее всего то, о чём вы упомянули: "программы могут отказаться считать компоненты для фиксированных [факторов]...". В таблице EMS только "Q" (refers to a quadratic form in parameters of the parenthesized effect). Если рассматривать факторы как случайные, то SAS считает (sas_output2.pdf).

Bозникла путаница с тем, что ещё рассчитывают (lecture.pdf) η2 -- силу влияния факторов... Я так их рассчитал:

η2(A) = SS(A)/SS(T) = 13.76%, η2(B) = SS(B)/SS(T) = 50.38%, η2(AB) = SS(AB)/SS(T) = 12.38%, η2(E) = SS(E)/SS(T) = 23.48%.
[SS(T) = 77646.97222.]

С другой стороны, формулы для EMS на стр.191 (Montgomery), если я правильно понимаю, приведены для случая сбалансированных планов. В моём же эксперименте количество значений в ячейках дисперсионного компекса очень сильно разнится. Как быть ?
nokh
Цитата(bubnilkin @ 29.10.2017 - 03:39) *
Уважаемый nokh, спасибо за наводку с компонентами дисперсии. Bот что всё-таки вышло. Для простоты я использовал пример (dataset.txt) в Монтгомери с батарейками (8th ed., p.192-194, прикрепил).
...
С другой стороны, формулы для EMS на стр.191 (Montgomery), если я правильно понимаю, приведены для случая сбалансированных планов. В моём же эксперименте количество значений в ячейках дисперсионного компекса очень сильно разнится. Как быть ?

Пока нет возможности вникать sad.gif , может ближе к концу недели... Но вообще с неравномерными комплексами - засада, там нужно типа взвешенное среднее n вычислять. Для однофакторного ДА это- не проблема, описано у Sokal, Rohlf (Biometry, 1995) на стр. 214 (Box 9.2). Но в сложном ДА неравномерность может вылиться в то, что в математических ожидаемых для разных эффектов окажутся по-разному взвешенные n, и как это всё раскручивать вручную я не знаю. Если не получится подобрать софт для этого, то может типа смоделировать? Сделать из своих данных несколько случайных равномерных комплексов, их обсчитать, вычислить без проблем компоненты дисперсии и усреднить по вариантам? В R это можно пробовать автоматизировать...
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.