![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 ![]() |
Интересный и глубокий вопрос.
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии. Расстояние Кука учитывает 2 фактора leverage (расстояние от цента облака, также иногда его называют расстоянием Махаланобиса) и величину остатка. На практике, выбросы и влияющие наблюдение определяются раздельно, однако, в принципе, можно использовать расстояние Кука для детекции выбросов, хотя это не совсем правильно с концептуальной точки зрения. В отношении Linthurst Data Rick Linthurst (1979) из North Carolina State University использовал эти данные для своей диссертации, то есть эти данные взяты из диссертации Rick Linthurst. ![]() Андрей
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии. Тогда как понимать такую ситуацию: простая линейная регрессия; одно значение, подозреваемое нами как выброс, находится на прямой, проходящей через центр облака и параллельной оси ординат; второе значение, подозреваемое нами как выброс, находится в правой крайней верхней части облака (за пределы облака не выходит); расстояние от центра облака до первого значения меньше, чем расстояние от центра облака до второго значения, но остаток для первого значения в несколько раз больше средней величины всех остатков, а остаток для второго значения от среднего значения остатков сильно не отличается. Если выброс определяется расстоянием до центра облака, а не величиной остатка, то первое значение выбросом не будет, хотя оно находится далеко за ?границей? облака, а второе будет, хотя оно находится внутри облака, но в периферической его части. Разве это так? Наверно правильно будет, что выброс определяется величиной остатка, а влияющее наблюдение совокупностью двух факторов - расстоянием от центра облака и величиной остатка. |
|
![]() |
![]() |
![]() ![]() |