Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Парадокс Симпсона в многомерном анализе, Как и чем обнаружить? Data mining?
nokh
сообщение 16.02.2009 - 21:27
Сообщение #1





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).

Сообщение отредактировал nokh - 16.02.2009 - 21:32
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему