Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Парадокс Симпсона в многомерном анализе
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
nokh
В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).
DoctorStat
Цитата(nokh @ 16.02.2009 - 21:27) *
Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у.
Возражения против законности применения регрессионного (и корреляционного) анализа:
1. Три группы точек визульно сильно отделены друг от друга, поэтому можно говорить о 3-х кластерах точек. Каждый кластер соответствует отдельной группе (популяции). Наличие кластеров нарушает условия применения анализа.
2. При проведении общей линии регрессии для 3-х групп, остатки (отклонения от прямой регрессии) с увеличением значения абсциссы Х не являются постоянными, а монотонно уменьшаются. Следовательно, условия применения линейного параметрического анализа нарушаются.

плав
Цитата(nokh @ 16.02.2009 - 21:27) *
В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).

Пародокс Симпсона не разрешим методами статистического анализа (по одной простой причине - может существовать признк гетерогенности, который НЕ измеряли и, соответственно, он не наблюдаем - соответственно модель с коррекцией на этот фактор не возможна). Борьба с ним только изменение дизайна исседования с испольованием рандомизации (которая обеспечивает гомогенность по наблюдаемым и не наблюдаемым факторам). Собственно, поэтому data mining и называется разведочным, ибо его предположения должны проверяться экспериментом или рассматриваться вкупе с известными экспериментальными данными (для вредоносных факторов, где эксперимент не этичен).
Методики кластеризации позволяют посмотреть гетерогенность, но они не решат основную проблему.
Хотя в данном случае DoctorStat абсолютно прав, четкая гетероскедаксичность данных, соответственно основное допущение линейной модели будет нарушено (и должно заставить задуматься)
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.