Парадокс Симпсона в многомерном анализе

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Парадокс Симпсона в многомерном анализе, Как и чем обнаружить? Data mining?

Опции

nokh

16.02.2009 - 21:27

Сообщение #1

Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).

Сообщение отредактировал nokh - 16.02.2009 - 21:32

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

DoctorStat Просмотр профиля	16.02.2009 - 22:05 Сообщение #2
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(nokh @ 16.02.2009 - 21:27) Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Возражения против законности применения регрессионного (и корреляционного) анализа: 1. Три группы точек визульно сильно отделены друг от друга, поэтому можно говорить о 3-х кластерах точек. Каждый кластер соответствует отдельной группе (популяции). Наличие кластеров нарушает условия применения анализа. 2. При проведении общей линии регрессии для 3-х групп, остатки (отклонения от прямой регрессии) с увеличением значения абсциссы Х не являются постоянными, а монотонно уменьшаются. Следовательно, условия применения линейного параметрического анализа нарушаются. Просто включи мозги => http://doctorstat.narod.ru

плав Просмотр профиля	16.02.2009 - 22:21 Сообщение #3
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(nokh @ 16.02.2009 - 21:27) В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных). Пародокс Симпсона не разрешим методами статистического анализа (по одной простой причине - может существовать признк гетерогенности, который НЕ измеряли и, соответственно, он не наблюдаем - соответственно модель с коррекцией на этот фактор не возможна). Борьба с ним только изменение дизайна исседования с испольованием рандомизации (которая обеспечивает гомогенность по наблюдаемым и не наблюдаемым факторам). Собственно, поэтому data mining и называется разведочным, ибо его предположения должны проверяться экспериментом или рассматриваться вкупе с известными экспериментальными данными (для вредоносных факторов, где эксперимент не этичен). Методики кластеризации позволяют посмотреть гетерогенность, но они не решат основную проблему. Хотя в данном случае DoctorStat абсолютно прав, четкая гетероскедаксичность данных, соответственно основное допущение линейной модели будет нарушено (и должно заставить задуматься)

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум