![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти? |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Возникла такая проблема... У меня получилось такое рассуждение. Мы выбрали в качестве уровня значимости 5%-ный уровень. Он оставляет на ошибку первого рода (лжеоткрытие) 5%, т.е. 5% могут лишь показаться нам выбросами в силу выбранного уровня значимости. 10/160=6,25%, что весьма близко к 5%. Удалим их и получим ту же картину снова. Как и Игорь, думаю что многократное применение процедуры проверки на выбросы некорректно и уводит в строну от исходных данных. В качестве решения можно предложить использовать для детекции выбросов более строгий уровень значимости, например 1%-ный. Если рассуждения ошибочны - поправьте. |
|
![]() |
![]() |
![]() ![]() |