Выбросы и влияющие наблюдения |
Здравствуйте, гость ( Вход | Регистрация )
Выбросы и влияющие наблюдения |
19.11.2009 - 17:19
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 |
DoctorStat затронул очень интересную тему.
Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д. Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие. Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами. Андрей
|
|
19.11.2009 - 17:36
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами. Вот расчеты для нашего примера: Standard Residual (стандартизованные остатки): 0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962 Deleted Residual (исключенные остатки): 0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000 Cook's Distance (дистанция Кука): 0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587 Mahalanobis Distance (дистанция Махаланобиса): 1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981 Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс). Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее: Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение. (Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно; s и σ - стандартное отклонение выборки и генеральной совокупности соответственно; N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание). Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая. И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479). Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже. По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема). Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники. Сообщение отредактировал Pinus - 19.11.2009 - 17:46 |
|
19.11.2009 - 17:55
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены. |
|
19.11.2009 - 19:05
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 |
Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены. Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно. Андрей
|
|
20.11.2009 - 13:58
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?
|
|
20.11.2009 - 15:50
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Пока не готов ответить, ещё почитаю.
Сообщение отредактировал nokh - 23.11.2009 - 08:08 |
|
23.11.2009 - 08:08
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вот что по этому поводу есть в википедии:
"...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope. The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization." Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю Сообщение отредактировал nokh - 23.11.2009 - 08:09 |
|
23.11.2009 - 12:44
Сообщение
#38
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Но ведь по сути-то нам и не надо их между собой сравнивать. Достаточно определить границы, за которыми с большой долей вероятности остатки можно считать выбросами. Стало быть можно использовать стандартизованные, и, пусть ограниченную, но родную Statistica 6. Ура! Ай да Дрейпер, ай да Смит! |
|
23.11.2009 - 12:48
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k ... Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Кол-во параметров в модели (число k) ? это число коэффициентов уравнения? |
|
25.11.2009 - 05:45
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/l...1/macdonald.pdf Кол-во параметров в модели (число k) ? это число коэффициентов уравнения? Да, включая свободный член. |
|
25.11.2009 - 13:14
Сообщение
#41
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Спасибо!
|
|
29.11.2009 - 19:50
Сообщение
#42
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
По рассматриваемой теме очень рекомендую источник:
Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998. Найти можно на Гигапедии. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
30.11.2009 - 10:13
Сообщение
#43
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток Не получим. Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
30.11.2009 - 16:58
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Это называется Delete Residual? |
|
30.11.2009 - 19:11
Сообщение
#45
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Не получим... Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1). Сообщение отредактировал nokh - 30.11.2009 - 19:13 |
|