![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]() ![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 ![]() |
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.
Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами). По поводу влияющих наблюдений (influential observations). Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана). Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0. Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ... Удачи! ![]() Андрей
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. Андрей, Вы имели ввиду вариационный ряд? В случае многовариантного анализа, определение выбросов очень сложно. Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое? |
|
![]() |
![]() |
![]() ![]() |