Парадокс Симпсона в многомерном анализе, Как и чем обнаружить? Data mining? |
Здравствуйте, гость ( Вход | Регистрация )
Парадокс Симпсона в многомерном анализе, Как и чем обнаружить? Data mining? |
16.02.2009 - 21:27
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).
Сообщение отредактировал nokh - 16.02.2009 - 21:32 |
|
16.02.2009 - 22:05
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Возражения против законности применения регрессионного (и корреляционного) анализа:1. Три группы точек визульно сильно отделены друг от друга, поэтому можно говорить о 3-х кластерах точек. Каждый кластер соответствует отдельной группе (популяции). Наличие кластеров нарушает условия применения анализа. 2. При проведении общей линии регрессии для 3-х групп, остатки (отклонения от прямой регрессии) с увеличением значения абсциссы Х не являются постоянными, а монотонно уменьшаются. Следовательно, условия применения линейного параметрического анализа нарушаются. Просто включи мозги => http://doctorstat.narod.ru
|
|
16.02.2009 - 22:21
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных). Пародокс Симпсона не разрешим методами статистического анализа (по одной простой причине - может существовать признк гетерогенности, который НЕ измеряли и, соответственно, он не наблюдаем - соответственно модель с коррекцией на этот фактор не возможна). Борьба с ним только изменение дизайна исседования с испольованием рандомизации (которая обеспечивает гомогенность по наблюдаемым и не наблюдаемым факторам). Собственно, поэтому data mining и называется разведочным, ибо его предположения должны проверяться экспериментом или рассматриваться вкупе с известными экспериментальными данными (для вредоносных факторов, где эксперимент не этичен). Методики кластеризации позволяют посмотреть гетерогенность, но они не решат основную проблему. Хотя в данном случае DoctorStat абсолютно прав, четкая гетероскедаксичность данных, соответственно основное допущение линейной модели будет нарушено (и должно заставить задуматься) |
|