Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Парадокс Симпсона в многомерном анализе, Как и чем обнаружить? Data mining?
nokh
сообщение 16.02.2009 - 21:27
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).

Сообщение отредактировал nokh - 16.02.2009 - 21:32
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 16.02.2009 - 22:05
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(nokh @ 16.02.2009 - 21:27) *
Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у.
Возражения против законности применения регрессионного (и корреляционного) анализа:
1. Три группы точек визульно сильно отделены друг от друга, поэтому можно говорить о 3-х кластерах точек. Каждый кластер соответствует отдельной группе (популяции). Наличие кластеров нарушает условия применения анализа.
2. При проведении общей линии регрессии для 3-х групп, остатки (отклонения от прямой регрессии) с увеличением значения абсциссы Х не являются постоянными, а монотонно уменьшаются. Следовательно, условия применения линейного параметрического анализа нарушаются.



Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 16.02.2009 - 22:21
Сообщение #3





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 16.02.2009 - 21:27) *
В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).

Пародокс Симпсона не разрешим методами статистического анализа (по одной простой причине - может существовать признк гетерогенности, который НЕ измеряли и, соответственно, он не наблюдаем - соответственно модель с коррекцией на этот фактор не возможна). Борьба с ним только изменение дизайна исседования с испольованием рандомизации (которая обеспечивает гомогенность по наблюдаемым и не наблюдаемым факторам). Собственно, поэтому data mining и называется разведочным, ибо его предположения должны проверяться экспериментом или рассматриваться вкупе с известными экспериментальными данными (для вредоносных факторов, где эксперимент не этичен).
Методики кластеризации позволяют посмотреть гетерогенность, но они не решат основную проблему.
Хотя в данном случае DoctorStat абсолютно прав, четкая гетероскедаксичность данных, соответственно основное допущение линейной модели будет нарушено (и должно заставить задуматься)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему