![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами. Вот расчеты для нашего примера: Standard Residual (стандартизованные остатки): 0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962 Deleted Residual (исключенные остатки): 0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000 Cook's Distance (дистанция Кука): 0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587 Mahalanobis Distance (дистанция Махаланобиса): 1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981 Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс). Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее: Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение. (Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно; s и σ - стандартное отклонение выборки и генеральной совокупности соответственно; N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание). Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая. И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479). Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже. По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема). Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники. Сообщение отредактировал Pinus - 19.11.2009 - 17:46 |
|
![]() |
![]() |
![]() ![]() |