Цитата(nokh @ 16.02.2009 - 21:27)

В разведочном многомерном анализе далеко не всегда очевидны источники возможной гетерогенности данных, а значит результаты такого анализа могут легко приводить к абсолютно неверным выводам в результате парадокса Симпсона. Так, в искусственном примере на прикрепленном рисунке три группы извлечены из популяций с разными средними значениями x и y, коэффициентом вариации 10% и коэффициентом корреляции 0,9. Однако если не знать, что это 3 разные популяции, то будет обнаружена сильная и статистически значимая отрицательная связь между х и у. Если же это только один из нескольких паттернов в анализе главных компонент или в факторном анализе, то шансы выявить, что это не одна отрицательная, а три положительных связи в разных группах очень мал. Особенно если средние близки, а выборки малы. Существуют ли какие-нибудь отработанные приемы обнаружения таких случаев? Беглый анализ в и-нете дал на удивление мало информации, похоже проблема недооценивается. Не исключено, что какие-то алгоритмы Data mining обходят этот парадокс, а может уже реализованы в программах? (Я нащупал способ, но это скорее длительные археологические раскопки, а не добыча данных).
Пародокс Симпсона не разрешим методами статистического анализа (по одной простой причине - может существовать признк гетерогенности, который НЕ измеряли и, соответственно, он не наблюдаем - соответственно модель с коррекцией на этот фактор не возможна). Борьба с ним только изменение дизайна исседования с испольованием рандомизации (которая обеспечивает гомогенность по наблюдаемым и не наблюдаемым факторам). Собственно, поэтому data mining и называется разведочным, ибо его предположения должны проверяться экспериментом или рассматриваться вкупе с известными экспериментальными данными (для вредоносных факторов, где эксперимент не этичен).
Методики кластеризации позволяют посмотреть гетерогенность, но они не решат основную проблему.
Хотя в данном случае DoctorStat абсолютно прав, четкая гетероскедаксичность данных, соответственно основное допущение линейной модели будет нарушено (и должно заставить задуматься)