Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> И снова дисперсионный анализ (двухфакторный)
psychologist
сообщение 9.03.2014 - 16:07
Сообщение #1





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисперсионный анализ. Т.е. 2 группирующие переменные.
Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае?
Крускаль не подойдет, он только однофакторный.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.03.2014 - 11:39
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(psychologist @ 9.03.2014 - 19:07) *
Добрый день) Вопрос к опытным коллегам. Необходимо произвести 2-х факторный дисп.анализ. Т.е. 2 группирующие переменные. Но распредление выборки жутко ассиметричное в таких случаях непараметрические методы применять надо, но какой в моем случае? Крускаль не подойдет, он только однофакторный.

1. Если читать учебники, а не методички низкого качества, то можно узнать, что распределение должно быть нормальным не в выборке, а в генеральной совокупности (популяции), откуда эта выборка извлекается. На практике объём выборки часто вообще не позволяет проверить показатель на нормальность распределения.
2. Если читать не все учебники, а только хорошие, то можно узнать, что модель дисперсионного анализа, строго говоря, не требует нормального распределения даже в популяции. Нормально должна быть распределена ошибка дисперсионного комплекса, т.е. остатки, полученные после вычитания из наблюдаемых значений общего среднего, главных эффектов и эффектов взаимодействий. Если распределение в популяции нормальное, то и ошибка скорее всего будет распределена нормально. Все пакеты предоставляют возможность проверить на нормальность именно ошибку: каким-нибудь критерием или несколькими + строят гистограмму распределения ошибки для визуальной оценки его однородности, асимметрии и эксцесса. Посмотрите несколько учебников и найдите понятный конкретно вам, но такой где дисперсионный анализ изложен:
- с формулами моделей,
- с понятным + графическим изложением концепции взаимодействия факторов,
- с разбором проблемы множественных сравнений средних + хотя бы 3 варианта таких сравнений,
- с изложением концепции преобразования данных.
Так случилось, что мне сразу попался такой учебник, но на английском, который я и взял когда-то для себя за основу (и по которому переучивался с французского:). Поэтому просто не помню что есть хорошего по ДА на русском. Отличная книга - Монтгомери Д. Планирование эксперимента и анализ данных, но она сложновата. Не следует использовать Гланца и старые учебники типа Плохинского.
3. Программно реализованных непараметрических аналогов двух- и многофакторного ДА нет. Самое близкое - критерий Фридмана для рандомизированных блоков (обсуждался на форуме). Его можно рассматривать в том числе и как непараметрический (ранговый) аналог двухфакторного ДА с единственным наблюдением на ячейку комплекса. Транспонируя матрицу данных можно получить оценки статистической значимости поочерёдно для обоих главных эффектов. Но эффекта взаимодействия вы не получите, а в биологии и медицине зачастую именно взаимодействие и представляет интерес.
4. Поэтому в вашем и более сложных случаях единственным классическим методом является предварительное преобразование данных. Почитайте про них, в том числе на форуме. Одно из лучших и универсальных преобразований - преобразование Бокса-Кокса (Box-Cox transformation). Оно подробно обсуждалось на форуме. На практике часто удобнее использовать предварительное логарифмирование данных перед анализом, т.е логарифмическое преобразование. Это оправдано тем, что часто асимметрично распределённые данные распределены приблизительно логнормально. Попробуйте на своих данных и убедитесь по распределению остатков, что Бокс-Кокс или логарифмирование хорошо устраняют асимметрию в распределении ошибки.
5. При использовании преобразований в ходе ДА встаёт вопрос, что давать в качестве описательной статистики. Проще всего в пакетах получить средние и 95%-ные ДИ для нужных групп/подгрупп и ретрансформировать их в исходную шкалу с помощью обратного преобразования. Т.е. если использовалось преобразование квадратного корня - возвести в квадрат, если логарифмирование - потенцировать и т.п. Такая ретрансформация называется "наивной" и чаще всего используется на практике. Если строго, то эти оценки для популяции получаются немного смещёнными и в самых-самых крутых учебниках или специальных статьях можно прочитать про проблему ретранформационного смещения (retransformation bias), про которую лично я узнал в прошлом году:) Пока не забивайте этим голову, а лет через 5 практики погуглите на эту тему.

Сообщение отредактировал nokh - 10.03.2014 - 11:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
psychologist
сообщение 10.03.2014 - 14:31
Сообщение #3





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



Вас понял, предстоит большая работа. Я вообще таких тонкостей не знал.
А разве фридман это не для повторных измерений?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.03.2014 - 16:56
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(psychologist @ 10.03.2014 - 17:31) *
А разве фридман это не для повторных измерений?

А разве вы не нашли ответ в архиве этого форума или хотя бы в википедии:
http://en.wikipedia.org/wiki/Friedman_test
http://en.wikipedia.org/wiki/Complete_block_design
http://translate.google.ru/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 10.03.2014 - 21:59
Сообщение #5





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Все у вас какие-то проблемы, psychologist!
Но не надо плакать, утрите слезы!
Не все так плохо. Ведь факторов немного- всего два !!!
И где вы такие данные берете?
В некоторых случаях это может говорить и о неисправности измерительного прибора.
1) Для применения параметрического ДА нужна еще и однородность дисперсии по всем ячейкам комплекса. Как с этим?
2) Если уж суждено использовать непараметрический аналог ДА, то можно попробовать сделать вычисления " почти вручную"
(если хватит объема выборки):
а)провести анализ Краскала-Уоллеса по каждому фактору отдельно (т. е. без учета другого) с попарными сравнениями.
Так мы оценим влияние каждого фактора отдельно.
б) Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора.
Для этого нужен большой объем данных.
Если результаты по уровням другого фактора будут различаться , то это будет говорить о взаимодействии факторов./ не очень сложный анализ/.
3) В любом случае взаимодействие факторов легко и увидеть и интерпретировать, если построить графики средних для уровней одного фактора с отдельными линиями для уровней второго фактора:
если линии "параллельны", то взаимодействия нет. Если линии пересекаются , взаимодействие есть.

Сообщение отредактировал anserovtv - 21.04.2014 - 20:41
Прикрепленные файлы
Прикрепленный файл  зав2.bmp ( 155,65 килобайт ) Кол-во скачиваний: 839
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
psychologist
сообщение 20.03.2014 - 23:45
Сообщение #6





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



с однородностью впорядке.
Для оценки взаимодействия факторов нужно провести непараметрический ДА Краскала-Уоллеса по каждому фактору для всех фиксированных уровней другого фактора.
Для этого нужен большой объем данных.

эту фразу плохо понимаю. Как это сделать?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 21.03.2014 - 07:07
Сообщение #7





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Большое спасибо за своевременные вопросы.
Здесь две фразы.
1) Фиксируете уровень одного из факторов с помощью процедуры Отобрать наблюдения , например фактор 2=a и выполняете ДА только для фактора 1 и далее аналогично (перебираете все уровни фактора 2, затем делаете тоже самое для фактора 2 по каждому уровню фактора 1).
2) Так как выполняется отбор (фильтрация) данных , то их объем резко уменьшается.
Предлагаю сначала построить графики средних.

Сообщение отредактировал anserovtv - 21.03.2014 - 07:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
psychologist
сообщение 24.03.2014 - 13:08
Сообщение #8





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



anserovtv
правда извините
в Statistica , где эта процедура реализована? или в SPSS?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 24.03.2014 - 19:18
Сообщение #9





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Во многих пакетах.


Сообщение отредактировал anserovtv - 31.03.2014 - 16:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
psychologist
сообщение 25.03.2014 - 19:59
Сообщение #10





Группа: Пользователи
Сообщений: 125
Регистрация: 2.04.2012
Пользователь №: 23616



можете дать скрин где именно, в каком меню это делаете?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 26.03.2014 - 06:17
Сообщение #11





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Читайте руководство пользователя и другие книги.


Сообщение отредактировал anserovtv - 31.03.2014 - 16:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 29.09.2017 - 23:35
Сообщение #12





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Добрый день,

подхватываю эту тему, т.к. задача аналогичная.

Имеется:

1) независимые переменные:
(А) Пол (женский, мужской)
(Б) Диета (д1, д2, д3)

2) зависимая переменная:
Концентрация (мг/мл)


Как указал nokh, чтобы оценить распределение ошибки дисперсионного комплекса, проделал следующие шаги:
(1) вычислил остатки для исходных данных, исходя из присутствия факторов А, Б и их взаимодеиствия (А*Б)
(2) построил гистограмму частот остатков
(3) увидел:
-- сильную скошенность вправо,
-- коэффициенты ассиметрии и эксцесса (совсем) отличны от 0,
-- вероятности для критериев согласия < 0.05.
(4) преобразовал исходные данные по Боксу-Коксу (получил БК-трансформированные данные)
(5) вычислил остатки для трансформированных данных, исходя из (А Б А*Б)
(6) построил гистограмму частот остатков
(7) увидел:
-- распределение стало (идеально) симметричным smile.gif,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия >0.05 (за некоторыми исключениями)
(4а) преобразовал исходные данные логарифмированием (получил Ln-трансформированные данные)
(5а) ---
(6а) построил гистограмму частот Ln-трансформированные данных
(7а) увидел:
-- распределение стало симметричным, но чуть хуже, чем в случае Бокса-Кокса,
-- коэффициенты ассиметрии и эксцесса (почти) равны 0,
-- вероятности для критериев согласия <0.05 (за некоторыми исключениями)

Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?

Сообщение отредактировал bubnilkin - 29.09.2017 - 23:36
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 30.09.2017 - 01:07
Сообщение #13





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(bubnilkin @ 29.09.2017 - 23:35) *
Начал тестировать собственно влияние (А Б А*Б) (приложил итоговую таблицу), но вижу, что тестируемая модель практически не обьясняет вариабельность в данных (дисперсия ошибки в 10 раз превышает дисперсию, которая обьясняется моделью, и R^2 ~ 0.1)

Подскажите, пожалуйста, как с этим бороться?


1. Ну, если это до такой степени действует на нервы, то усреднить наблюдения в каждой ячейке дисперсионного комплекса и переоценить модель без взаимодействий. Посмотреть, как отреагирует R-квадрат.

2. А вообще-то в природе года этак с 1976 существует непараметрический аналог двухфакторного ДА, описанный в работах Шайрера, Рея и Хейра. Подробности с формулами у Сокала и Рольфа, а также в мануале к AtteStat'у И.Гайдышева.

Сообщение отредактировал 100$ - 30.09.2017 - 01:16
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 30.09.2017 - 12:34
Сообщение #14





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



100$, простите, не понимаю фразу:
Цитата(100$ @ 30.09.2017 - 01:07) *
усреднить наблюдения в каждой ячейке дисперсионного комплекса
Это означает, чтобы в каждой группе было одинаковое количество наблюдений?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 30.09.2017 - 17:21
Сообщение #15





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(bubnilkin @ 30.09.2017 - 12:34) *
100$, простите, не понимаю фразу: Это означает, чтобы в каждой группе было одинаковое количество наблюдений?


Madre de Dios! Как все запущено.

Базовый шаблон двухфакторного ДА можно представить как таблицу умножения, где на пересечении уровня "5" первого фактора и уровня "5" второго фактора находится либо значение "25" (одно наблюдение на ячейку дисперсионного комплекса, при котором невозможно оценить взаимодействие факторов), либо куча чисел (н-р, десяток), позволяющая оценить упомянутое взаимодействие. По умолчанию предполагается, что количество измерений зависимой величины ("повторностей") неизменно при любых сочетаниях факторов. В этом случае принято говорить о т.н. сбалансированном плане эксперимента. Вот эти повторности я и предлагаю усреднить, раз уж предварительный анализ оценивает взаимодействие ваших факторов как статистически незначимое.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему