![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]() ![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 ![]() |
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.
Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами). По поводу влияющих наблюдений (influential observations). Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана). Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0. Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ... Удачи! ![]() Андрей
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0. Думаю для нахождения критического значения воспользоваться таблицами Большева, Смирнова (процентные точки F-распределения). В них F(Q, v1, v2), где Q задается в процентах. Значит следует брать Q не 0,5, а 50. Я правильно понимаю? В таблице для нахождения значений функции между предложенными градациями предлагается использовать квадратичную гармоническую интерполяцию. Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы? Если не затруднит, из какого источника Вы приводите такое нахождение критического значения статистики Кука? Я не могу в русских книгах по регрессионному анализу найти про критерий Кука совсем ничего. |
|
![]() |
![]() |
![]() ![]() |