И снова дисперсионный анализ (двухфакторный)

И снова дисперсионный анализ (двухфакторный)

psychologist Просмотр профиля	9.03.2014 - 16:07 Сообщение #1
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616	Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисперсионный анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный.

nokh Просмотр профиля	10.03.2014 - 11:39 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(psychologist @ 9.03.2014 - 19:07) Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисп.анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный. 1. Если читать учебники, а не методички низкого качества, то можно узнать, что распределение должно быть нормальным не в выборке, а в генеральной совокупности (популяции), откуда эта выборка извлекается. На практике объём выборки часто вообще не позволяет проверить показатель на нормальность распределения. 2. Если читать не все учебники, а только хорошие, то можно узнать, что модель дисперсионного анализа, строго говоря, не требует нормального распределения даже в популяции. Нормально должна быть распределена ошибка дисперсионного комплекса, т.е. остатки, полученные после вычитания из наблюдаемых значений общего среднего, главных эффектов и эффектов взаимодействий. Если распределение в популяции нормальное, то и ошибка скорее всего будет распределена нормально. Все пакеты предоставляют возможность проверить на нормальность именно ошибку: каким-нибудь критерием или несколькими + строят гистограмму распределения ошибки для визуальной оценки его однородности, асимметрии и эксцесса. Посмотрите несколько учебников и найдите понятный конкретно вам, но такой где дисперсионный анализ изложен: - с формулами моделей, - с понятным + графическим изложением концепции взаимодействия факторов, - с разбором проблемы множественных сравнений средних + хотя бы 3 варианта таких сравнений, - с изложением концепции преобразования данных. Так случилось, что мне сразу попался такой учебник, но на английском, который я и взял когда-то для себя за основу (и по которому переучивался с французского:). Поэтому просто не помню что есть хорошего по ДА на русском. Отличная книга - Монтгомери Д. Планирование эксперимента и анализ данных, но она сложновата. Не следует использовать Гланца и старые учебники типа Плохинского. 3. Программно реализованных непараметрических аналогов двух- и многофакторного ДА нет. Самое близкое - критерий Фридмана для рандомизированных блоков (обсуждался на форуме). Его можно рассматривать в том числе и как непараметрический (ранговый) аналог двухфакторного ДА с единственным наблюдением на ячейку комплекса. Транспонируя матрицу данных можно получить оценки статистической значимости поочерёдно для обоих главных эффектов. Но эффекта взаимодействия вы не получите, а в биологии и медицине зачастую именно взаимодействие и представляет интерес. 4. Поэтому в вашем и более сложных случаях единственным классическим методом является предварительное преобразование данных. Почитайте про них, в том числе на форуме. Одно из лучших и универсальных преобразований - преобразование Бокса-Кокса (Box-Cox transformation). Оно подробно обсуждалось на форуме. На практике часто удобнее использовать предварительное логарифмирование данных перед анализом, т.е логарифмическое преобразование. Это оправдано тем, что часто асимметрично распределённые данные распределены приблизительно логнормально. Попробуйте на своих данных и убедитесь по распределению остатков, что Бокс-Кокс или логарифмирование хорошо устраняют асимметрию в распределении ошибки. 5. При использовании преобразований в ходе ДА встаёт вопрос, что давать в качестве описательной статистики. Проще всего в пакетах получить средние и 95%-ные ДИ для нужных групп/подгрупп и ретрансформировать их в исходную шкалу с помощью обратного преобразования. Т.е. если использовалось преобразование квадратного корня - возвести в квадрат, если логарифмирование - потенцировать и т.п. Такая ретрансформация называется "наивной" и чаще всего используется на практике. Если строго, то эти оценки для популяции получаются немного смещёнными и в самых-самых крутых учебниках или специальных статьях можно прочитать про проблему ретранформационного смещения (retransformation bias), про которую лично я узнал в прошлом году:) Пока не забивайте этим голову, а лет через 5 практики погуглите на эту тему. Сообщение отредактировал nokh - 10.03.2014 - 11:48

psychologist Просмотр профиля	10.03.2014 - 14:31 Сообщение #3
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616	Вас понял, предстоит большая работа. Я вообще таких тонкостей не знал. А разве фридман это не для повторных измерений?

nokh Просмотр профиля	10.03.2014 - 16:56 Сообщение #4
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(psychologist @ 10.03.2014 - 17:31) А разве фридман это не для повторных измерений? А разве вы не нашли ответ в архиве этого форума или хотя бы в википедии: http://en.wikipedia.org/wiki/Friedman_test http://en.wikipedia.org/wiki/Complete_block_design http://translate.google.ru/

anserovtv Просмотр профиля	10.03.2014 - 21:59 Сообщение #5
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Все у вас какие-то проблемы, psychologist! Но не надо плакать, утрите слезы! Не все так плохо. Ведь факторов немного- всего два !!! И где вы такие данные берете? В некоторых случаях это может говорить и о неисправности измерительного прибора. 1) Для применения параметрического ДА нужна еще и однородность дисперсии по всем ячейкам комплекса. Как с этим? 2) Если уж суждено использовать непараметрический аналог ДА, то можно попробовать сделать вычисления " почти вручную" (если хватит объема выборки): а)провести анализ Краскала-Уоллеса по каждому фактору отдельно (т. е. без учета другого) с попарными сравнениями. Так мы оценим влияние каждого фактора отдельно. б) Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора. Для этого нужен большой объем данных. Если результаты по уровням другого фактора будут различаться , то это будет говорить о взаимодействии факторов./ не очень сложный анализ/. 3) В любом случае взаимодействие факторов легко и увидеть и интерпретировать, если построить графики средних для уровней одного фактора с отдельными линиями для уровней второго фактора: если линии "параллельны", то взаимодействия нет. Если линии пересекаются , взаимодействие есть. Сообщение отредактировал anserovtv - 21.04.2014 - 20:41 Прикрепленные файлы зав2.bmp ( 155,65 килобайт ) Кол-во скачиваний: 840

psychologist Просмотр профиля	20.03.2014 - 23:45 Сообщение #6
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616	с однородностью впорядке. Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора. Для этого нужен большой объем данных. эту фразу плохо понимаю. Как это сделать?

anserovtv Просмотр профиля	21.03.2014 - 07:07 Сообщение #7
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Большое спасибо за своевременные вопросы. Здесь две фразы. 1) Фиксируете уровень одного из факторов с помощью процедуры Отобрать наблюдения , например фактор 2=a и выполняете ДА только для фактора 1 и далее аналогично (перебираете все уровни фактора 2, затем делаете тоже самое для фактора 2 по каждому уровню фактора 1). 2) Так как выполняется отбор (фильтрация) данных , то их объем резко уменьшается. Предлагаю сначала построить графики средних. Сообщение отредактировал anserovtv - 21.03.2014 - 07:29

psychologist Просмотр профиля	24.03.2014 - 13:08 Сообщение #8
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616	anserovtv правда извините в Statistica , где эта процедура реализована? или в SPSS?

anserovtv Просмотр профиля	24.03.2014 - 19:18 Сообщение #9
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Во многих пакетах. Сообщение отредактировал anserovtv - 31.03.2014 - 16:40

psychologist Просмотр профиля	25.03.2014 - 19:59 Сообщение #10
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616	можете дать скрин где именно, в каком меню это делаете?

anserovtv Просмотр профиля	26.03.2014 - 06:17 Сообщение #11
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Читайте руководство пользователя и другие книги. Сообщение отредактировал anserovtv - 31.03.2014 - 16:41

bubnilkin

29.09.2017 - 23:35

Сообщение #12

Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836

Добрый день,

подхватываю эту тему, т.к. задача аналогичная.

Имеется:

1) независимые переменные:
(А) Пол (женский, мужской)
(Б) Диета (д1, д2, д3)

2) зависимая переменная:
Концентрация (мг/мл)

Как указал nokh, чтобы оценить распределение ошибки дисперсионного комплекса, проделал следующие шаги:
(1) вычислил остатки для исходных данных, исходя из присутствия факторов А, Б и их взаимодеиствия (А*Б)
(2) построил гистограмму частот остатков
(3) увидел:
-- сильную скошенность вправо,
-- коэффициенты ассиметрии и эксцесса (совсем) отличны от 0,
-- вероятности для критериев согласия < 0.05.
(4) преобразовал исходные данные по Боксу-Коксу (получил БК-трансформированные данные)
(5) вычислил остатки для трансформированных данных, исходя из (А Б А*Б)
(6) построил гистограмму частот остатков
(7) увидел:
-- распределение стало (идеально) симметричным

,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия >0.05 (за некоторыми исключениями)
(4а) преобразовал исходные данные логарифмированием (получил Ln-трансформированные данные)
(5а) ---
(6а) построил гистограмму частот Ln-трансформированные данных
(7а) увидел:
-- распределение стало симметричным, но чуть хуже, чем в случае Бокса-Кокса,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия <0.05 (за некоторыми исключениями)

Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Сообщение отредактировал bubnilkin - 29.09.2017 - 23:36

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

100$ Просмотр профиля	30.09.2017 - 01:07 Сообщение #13
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(bubnilkin @ 29.09.2017 - 23:35) Начал тестировать собственно влияние (А Б АБ) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1) Подскажите, пожалуйста, как с этим бороться? 1. Ну, если это до такой степени действует на нервы, то усреднить наблюдения в каждой ячейке дисперсионного комплекса и переоценить модель без взаимодействий. Посмотреть, как отреагирует R-квадрат. 2. А вообще-то в природе года этак с 1976 существует непараметрический аналог двухфакторного ДА, описанный в работах Шайрера, Рея и Хейра. Подробности с формулами у Сокала и Рольфа, а также в мануале к AtteStat'у И.Гайдышева. Сообщение отредактировал 100$* - 30.09.2017 - 01:16

bubnilkin Просмотр профиля	30.09.2017 - 12:34 Сообщение #14
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836	100$, простите, не понимаю фразу: Цитата(100$ @ 30.09.2017 - 01:07) усреднить наблюдения в каждой ячейке дисперсионного комплекса Это означает, чтобы в каждой группе было одинаковое количество наблюдений?

100$ Просмотр профиля	30.09.2017 - 17:21 Сообщение #15
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(bubnilkin @ 30.09.2017 - 12:34) 100$, простите, не понимаю фразу: Это означает, чтобы в каждой группе было одинаковое количество наблюдений? ~~Madre de Dios! Как все запущено.~~ Базовый шаблон двухфакторного ДА можно представить как таблицу умножения, где на пересечении уровня "5" первого фактора и уровня "5" второго фактора находится либо значение "25" (одно наблюдение на ячейку дисперсионного комплекса, при котором невозможно оценить взаимодействие факторов), либо куча чисел (н-р, десяток), позволяющая оценить упомянутое взаимодействие. По умолчанию предполагается, что количество измерений зависимой величины ("повторностей") неизменно при любых сочетаниях факторов. В этом случае принято говорить о т.н. сбалансированном плане эксперимента. Вот эти повторности я и предлагаю усреднить, раз уж предварительный анализ оценивает взаимодействие ваших факторов как статистически незначимое.

« Предыдущая тема · Медицинская статистика · Следующая тема »