Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Необходимость нормального распределения при дисперсионном анализе, Совсем запутался?!?!
Doktor.86
сообщение 5.12.2014 - 10:43
Сообщение #1





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Здравствуйте!

Я запутался в дисперсионном анализе, а именно в необходимости нормального распределения совокупности из которой сделана выборка insane.gif
На форуме упоминалось о том, что нормальность распределения не всегда обязательна при ДА, однако по всем источникам говорится о том, что распределение должно быть нормальным...
У Гланца, так же необходимо нормальное распределение, он говорит, что оно может быть определено при помощи стандартного отклонения, то есть если стандартное отклонение умножить на два и вычесть из среднего, не должно получиться отрицательного значения.
Однако потом приводит задачу для решения (3.8 стр. 80-81) где стандартное отклонение укладывается в не нормальное распределение и в ответах задача решена при помощи F критерия, то есть на сколько я понимаю, дисперсионного анализа...

Как это можно понять? insane.gif

Я понимаю, что гипотетически (в задаче рассматривается вопрос про тромбоциты у здоровых людей) можно представить, применительно к данной задаче, присутствие нормального распределения, однако, как поступать при решении других задач, приведу свой пример:

Длительность стояния дренажей после операции: 1 группа - 28 человек среднее 5,6 стандартное отклонение 2,7 дня, 2 группа 25 человек среднее 5 стандартное отклонение 3,1 день и 3 группа 38 человек среднее 7,4 стандартное отклонение 4,3 дня. При ДА р<0,05.

Правильно ли применять здесь ДА?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.12.2014 - 20:17
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Doktor.86 @ 5.12.2014 - 12:43) *
Здравствуйте!

Я запутался в дисперсионном анализе, а именно в необходимости нормального распределения совокупности из которой сделана выборка insane.gif
На форуме упоминалось о том, что нормальность распределения не всегда обязательна при ДА, однако по всем источникам говорится о том, что распределение должно быть нормальным...
У Гланца, так же необходимо нормальное распределение, он говорит, что оно может быть определено при помощи стандартного отклонения, то есть если стандартное отклонение умножить на два и вычесть из среднего, не должно получиться отрицательного значения.
Однако потом приводит задачу для решения (3.8 стр. 80-81) где стандартное отклонение укладывается в не нормальное распределение и в ответах задача решена при помощи F критерия, то есть на сколько я понимаю, дисперсионного анализа...

Как это можно понять? insane.gif

Я понимаю, что гипотетически (в задаче рассматривается вопрос про тромбоциты у здоровых людей) можно представить, применительно к данной задаче, присутствие нормального распределения, однако, как поступать при решении других задач, приведу свой пример:

Длительность стояния дренажей после операции: 1 группа - 28 человек среднее 5,6 стандартное отклонение 2,7 дня, 2 группа 25 человек среднее 5 стандартное отклонение 3,1 день и 3 группа 38 человек среднее 7,4 стандартное отклонение 4,3 дня. При ДА р<0,05.

Правильно ли применять здесь ДА?

Да зашвырните вы этого Гланца куда-нибудь на Плутон, или где там у него марсиане курят... На самокрутки... Требований ДА два:
(1) нормальное распределение ошибки. Не набора данных, не выборок в наборе, а ошибки (остатков). Эту проверку делают все мало-мальски нормальные пакеты. И гистограмму распределения остатков строят (residual plot) и каким-нибудь критерием типа Шапиро-Уилка нормальность проверяют. Если нормальности нет и нет желания уходить в непараметрику - делают нормализующее преобразование данных (в лучшем случае преобразование Бокса-Кокса).
(2) однородность дисперсий в группах. Проверяется с худшем случае критерием Бартлетта, в лучшем - критерием Левне, или какими-нибудь ресэмлинг-техниками. Если однородности нет и нет желания уходить в непараметрику - преобразуют данные или используют подход аналогичный подходу Уэлча для t-критерия.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 6.12.2014 - 17:13
Сообщение #3





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(nokh @ 5.12.2014 - 20:17) *
Да зашвырните вы этого Гланца куда-нибудь на Плутон, или где там у него марсиане курят... На самокрутки... Требований ДА два:
(1) нормальное распределение ошибки. Не набора данных, не выборок в наборе, а ошибки (остатков). Эту проверку делают все мало-мальски нормальные пакеты. И гистограмму распределения остатков строят (residual plot) и каким-нибудь критерием типа Шапиро-Уилка нормальность проверяют. Если нормальности нет и нет желания уходить в непараметрику - делают нормализующее преобразование данных (в лучшем случае преобразование Бокса-Кокса).
(2) однородность дисперсий в группах. Проверяется с худшем случае критерием Бартлетта, в лучшем - критерием Левне, или какими-нибудь ресэмлинг-техниками. Если однородности нет и нет желания уходить в непараметрику - преобразуют данные или используют подход аналогичный подходу Уэлча для t-критерия.


Спасибо, за разъяснения, к сожалению не статистикам тяжело разбираться в статистических критериях и прочих программах, поэтому многие читают Гланца как наиболее понятного.
Я например врач и мне зачастую необходимо много времени, что бы разобраться во всех этих моментах и хочется какой-то точности, например точный критерий Фишера можно применять при оценке качественных признаков нескольких групп и все, в нем я более менее разобрался и могу его применить, а различные наборы которые Вы описали для меня вообще являются загадкой...(к сожалению).
И в итоге я не понял главного, ДА можно применять при стандартном отклонении не укладывающемся в нормальные значения, или необходимо проводить полный анализ как написали Вы так как это правильно...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.12.2014 - 17:25
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Doktor.86 @ 6.12.2014 - 19:13) *
Спасибо, за разъяснения, к сожалению не статистикам тяжело разбираться в статистических критериях и прочих программах, поэтому многие читают Гланца как наиболее понятного.
Я например врач и мне зачастую необходимо много времени, что бы разобраться во всех этих моментах и хочется какой-то точности, например точный критерий Фишера можно применять при оценке качественных признаков нескольких групп и все, в нем я более менее разобрался и могу его применить, а различные наборы которые Вы описали для меня вообще являются загадкой...(к сожалению).
И в итоге я не понял главного, ДА можно применять при стандартном отклонении не укладывающемся в нормальные значения, или необходимо проводить полный анализ как написали Вы так как это правильно...

Ну и что, я тоже не статистик, а эколог. При желании всегда можно разобраться... И хотя специфика работы врача, действительно, оставляет меньше времени, на этом форуме было и есть достаточно грамотных людей работающих именно в медицине. А проверять нужно как написал я - смотреть остатки и однородность дисперсий. Если назовёте пакет(ы) где считаете - могу подсказать более конкретно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 6.12.2014 - 18:07
Сообщение #5





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(nokh @ 6.12.2014 - 17:25) *
Ну и что, я тоже не статистик, а эколог. При желании всегда можно разобраться... И хотя специфика работы врача, действительно, оставляет меньше времени, на этом форуме было и есть достаточно грамотных людей работающих именно в медицине. А проверять нужно как написал я - смотреть остатки и однородность дисперсий. Если назовёте пакет(ы) где считаете - могу подсказать более конкретно.

Спасибо за понимание и согласен если есть желание...но желание действительно есть, но...
Если честно считаю практически все в ручную и через ексел, использую калькуляторы только для точного критерия фишера.
Согласен можно скачать статистику на 30 дней, но что бы разобраться как в ней пользоваться уйдет больше времени (ну мне так кажется)...
Просто до Вашего ответа думал, что все необходимое я узнал из Гланца, для оценки количественных показателей ДА, для качественных точный Фишера, для двойных Макнемар ну и все laugh.gif
Если у Вас есть хоть малейшее желание мне помочь, буду Вам очень благодарен и признателен!!!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.12.2014 - 21:29
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Доктор, рискну чуть подкорректиовать вашу картину мира.

Глава 1. О Гланце

Сначала человечество подбрасывало монетку, и пыталось удадать, что выпадет: аверс или реверс монеты.
Потом подобная интеллектуальная активность оформилась в виде теории вероятностей.
Затем теорию вероятностей на новом уровне знаний начали применять в практической деятельности. Так родилась (прикладная) статистика.
Все это я к тому, что статистике лучше всего учиться у вероятностников, а не у вольных писателей вроде Гланца. Который не самом деле не математик, а медик.

Глава 2. О нормальном распределении

Весь дисперсионный анализ представляет собой линейную модель, которая сводится к тому, что из наблюдаемых данных все время вычитают какие-нибудь средние: в случае однофакторного ДА (One -way ANOVA) - генеральное среднее и среднее по столбцам. Однако, центрирование данных (т.е. вычитание средних) само по себе не является нормализующим преобразованием. Это означает, что если исходные данные ненормальны - то и остатки не будут нормальными ( иначе с чего бы это?). Если остатки ненормальны - то и исходные данные не были нормальными.

Обращаю ваше внимание на то, что при использовании упомянутой линейной модели (в статпакетах обохначенной как GLM - General Linear Model)
остатки имеют нулевое среднее и (естественно) ненулевую дисперсию. Поэтому проверить нормальность остатков методом Гланца у вас точно не получится.

Глава 3. О дисперсионном анализе

3.1. Отцы-основатели жанра считали, что множественная проверка средних (в чем заключается ДА) уместна только при равенстве дисперсий в изучаемых группах.
3.2. Они же считали, что отношение дисперсий (Дисперсия бОльшая/Дисперсия Меньшая) очень чувствительно к отклонению от нормальности: чуть в сторону - и это отношение уже не имеет F-распределения.

Сообщение отредактировал 100$ - 6.12.2014 - 21:38
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 6.12.2014 - 21:53
Сообщение #7





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(100$ @ 6.12.2014 - 21:29) *
Доктор, рискну чуть подкорректиовать вашу картину мира.

Глава 1. О Гланце

Сначала человечество подбрасывало монетку, и пыталось удадать, что выпадет: аверс или реверс монеты.
Потом подобная интеллектуальная активность оформилась в виде теории вероятностей.
Затем теорию вероятностей на новом уровне знаний начали применять в практической деятельности. Так родилась (прикладная) статистика.
Все это я к тому, что статистике лучше всего учиться у вероятностников, а не у вольных писателей вроде Гланца. Который не самом деле не математик, а медик.

Глава 2. О нормальном распределении

Весь дисперсионный анализ представляет собой линейную модель, которая сводится к тому, что из наблюдаемых данных все время вычитают какие-нибудь средние: в случае однофакторного ДА (One -way ANOVA) - генеральное среднее и среднее по столбцам. Однако, центрирование данных (т.е. вычитание средних) само по себе не является нормализующим преобразованием. Это означает, что если исходные данные ненормальны - то и остатки не будут нормальными ( иначе с чего бы это?). Если остатки ненормальны - то и исходные данные не были нормальными.

Обращаю ваше внимание на то, что при использовании упомянутой линейной модели (в статпакетах обохначенной как GLM - General Linear Model)
остатки имеют нулевое среднее и (естественно) ненулевую дисперсию. Поэтому проверить нормальность остатков методом Гланца у вас точно не получится.

Глава 3. О дисперсионном анализе

3.1. Отцы-основатели жанра считали, что множественная проверка средних (в чем заключается ДА) уместна только при равенстве дисперсий в изучаемых группах.
3.2. Они же считали, что отношение дисперсий (Дисперсия бОльшая/Дисперсия Меньшая) очень чувствительно к отклонению от нормальности: чуть в сторону - и это отношение уже не имеет F-распределения.

Уважаемые 100$ подскажите, что сделать, что бы данные (указанные в 1 сообщении) можно было статистически обработать, есть пациенты и есть количество дней...
Если конечно Вас не затруднит, на пальцах smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.12.2014 - 22:41
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Доктор, вся прикладная статистика стоит на двух выносливых китах:

1. Необходимости внятно сформулировать вероятностно-статистическую модель происхождения данных;
2. Необходимости внятно сформулировать проверяемую гипотезу: нулевую против альтернативной.

Первый пункт формулируется в вероятностно-статистических терминах, в виде уверенности, что наблюдаемые данные представляют собой набор статистически независимых, одинаково распределенных случайных величин.

Чуть проще: если выборка формировалась с нарушением принципов отбора (т.е. данные изначально имели неодинаковую вероятность попадания в выборку), то тут и статистика не нужна.

Второй пункт отвечает на вопрос: вы что хотите проверить?

Все вместе отвечают на вопрос: а для чего вообще собирались данные?



Резюме.
Если вам надо показать, что три изучаемые группы отличаются друг от друга по длительности дренажей, то дисперсионный анализ подойдет.

Сообщение отредактировал 100$ - 6.12.2014 - 22:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 7.12.2014 - 11:50
Сообщение #9





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(100$ @ 6.12.2014 - 22:41) *
Доктор, вся прикладная статистика стоит на двух выносливых китах:

1. Необходимости внятно сформулировать вероятностно-статистическую модель происхождения данных;
2. Необходимости внятно сформулировать проверяемую гипотезу: нулевую против альтернативной.

Первый пункт формулируется в вероятностно-статистических терминах, в виде уверенности, что наблюдаемые данные представляют собой набор статистически независимых, одинаково распределенных случайных величин.

Чуть проще: если выборка формировалась с нарушением принципов отбора (т.е. данные изначально имели неодинаковую вероятность попадания в выборку), то тут и статистика не нужна.

Второй пункт отвечает на вопрос: вы что хотите проверить?

Все вместе отвечают на вопрос: а для чего вообще собирались данные?



Резюме.
Если вам надо показать, что три изучаемые группы отличаются друг от друга по длительности дренажей, то дисперсионный анализ подойдет.

Отлично!! Это уже радует))) на данном этапе моего понимания о том "что мне нужно" этого наверное достаточно)))
Так, в качестве уточнения, как можно объяснить на пальцах человеку о том, что ДА подходит в данном случае, ведь стандартное отклонение или вообще можно о нем не думать...
Попытаюсь сформулировать:
1. В стационаре лечилось 150 человек разными операциями, из них отобрали группу пациентов по виду оперативного вмешательства, получилось 89 человек, их в свою очередь разбили на 3 группы относительно сроков оперативного вмешательства и сравнили по различным показателям (длительность операции, сроки стояния дренажей и прочее)
2. Ну в резюме Вы и так все сформулировали как я и думал laugh.gif.

И немного отвлеченно, насколько я понял на протяжении моего знакомства со статистикой, существует огромная куча методов, критериев и прочих показателей которые можно применять для обработки полученных данных, однако в медицине весь этот объем информации, методов вычисления и прочих, за частую не нужен! При проведении простого исследования, типа "как повлияет это на это" достаточно простых, стандартных способов. Наверное Гланц в книге и хотел это показать...но хочется еще большей простоты в выборе применения методов и критериев. Зачем говорить о нескольких вариантах получения одних и тех же цифр, когда достаточно одного наиболее простого. Для медицины, наиболее часто, требуется самая простая статистическая обработка. Что, зачастую, ведущие европейские журналы со своими статьями и доказывают, применяется один не сложный метод и все...
В то же время сложный и многоуровневый стат анализ необходим при разработке рекомендаций, когда от этого зависит экономическая выгода, больше ничего в голову не пришло...так как все остальное (человеческая жизнь, эффективность лечения, качество жизни) проверяется на практике и при помощи многоцентрового исследования. Потому что понять при помощи статистики какая операция лучше можно (сравнив разные показатели), но непонятно зачем, важен результат выжил или нет, помогло или нет, а все остальное приходит на практике...при помощи статистики невозможно разработать новую операцию, можно только посмотреть на сколько она лучше предыдущей...а лучше она может быть только в экономическом плане и в качестве жизни, но качество жизни это тоже достаточно условное понятие, кому-то отрезают ногу и он продолжает жить, а кто-то умирает через неделю и к сожалению среднего здесь не вывести так как это же человек умер...
Если сказать, что статистика позволяет на меньшем количестве людей понять эффективность метода, то это лукавство, со всеми мощностями исследований и прочими моментами это не поможет на 10 пациентах понять эффективность операции для 10000, а на уровне скорее всего поможет можно обойтись и без статистики...

Хотя может я много еще не знаю...по моему так все это бюрократия и обнаружение финансовой эффективности.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 7.12.2014 - 13:30
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Ну если тхочется изучить будущее как "вариант вселенной устроенной по Эверету", то стройте описание патогенеза из цепочки состояний качественных, классифицируйте аналогично действия, и стройте байесовскую сеть. Если хватает данных конечно. Она, как экспертная система, позволит отвечать на любые вопросы относительно "отрезанных ног", причем как в абстрактных, так и в локальных смыслах.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 7.12.2014 - 15:15
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Doktor.86 @ 7.12.2014 - 12:50) *
1. В стационаре лечилось 150 человек разными операциями, из них отобрали группу пациентов по виду оперативного вмешательства, получилось 89 человек, их в свою очередь разбили на 3 группы относительно сроков оперативного вмешательства и сравнили по различным показателям (длительность операции, сроки стояния дренажей и прочее)
2. Ну в резюме Вы и так все сформулировали как я и думал laugh.gif.


Если вы одновременно изучаете два показателя: длительность операции и срок стояния дренажей (т.е. характеризуете клиента пациента двумя числами), то разумнее не два раза осуществлять одномерный ДА, а один раз многомерный ДА (one-way MANOVA)).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 7.12.2014 - 20:16
Сообщение #12





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(100$ @ 7.12.2014 - 15:15) *
Если вы одновременно изучаете два показателя: длительность операции и срок стояния дренажей (т.е. характеризуете клиента пациента двумя числами), то разумнее не два раза осуществлять одномерный ДА, а один раз многомерный ДА (one-way MANOVA)).

Ага, но можно и простой "одномерный" для каждого параметра, просто вывод получается проще (для меня) типа: "Сроки выполнения операции не влияют на длительность оперативного вмешательства".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Doktor.86
сообщение 7.12.2014 - 20:19
Сообщение #13





Группа: Пользователи
Сообщений: 39
Регистрация: 12.11.2014
Пользователь №: 26808



Цитата(p2004r @ 7.12.2014 - 13:30) *
Ну если тхочется изучить будущее как "вариант вселенной устроенной по Эверету", то стройте описание патогенеза из цепочки состояний качественных, классифицируйте аналогично действия, и стройте байесовскую сеть. Если хватает данных конечно. Она, как экспертная система, позволит отвечать на любые вопросы относительно "отрезанных ног", причем как в абстрактных, так и в локальных смыслах.

Боюсь, если я даже соберу все необходимые данные и проведу все вышеперечисленные исследования и вычисления, меня все равно мало кто поймет и оценит, и не только в России...
Вы бы посмотрели на Российские национальные клинические рекомендации и все стало бы сразу ясно...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему