Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 > »   
Добавить ответ в эту темуОткрыть тему
> Выбросы и влияющие наблюдения
avorotniak
сообщение 19.11.2009 - 17:19
Сообщение #31





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



DoctorStat затронул очень интересную тему.
Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д.
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие.
Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 19.11.2009 - 17:36
Сообщение #32





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами.

Вот расчеты для нашего примера:
Standard Residual (стандартизованные остатки):
0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962
Deleted Residual (исключенные остатки):
0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000
Cook's Distance (дистанция Кука):
0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587
Mahalanobis Distance (дистанция Махаланобиса):
1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981

Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс).

Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее:
Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение.
(Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно;
s и σ - стандартное отклонение выборки и генеральной совокупности соответственно;
N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание).
Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая.
И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).

Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже.

По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема).
Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники.

Сообщение отредактировал Pinus - 19.11.2009 - 17:46
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 19.11.2009 - 17:55
Сообщение #33





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(avorotniak @ 20.11.2009 - 00:19) *
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь.

Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 19.11.2009 - 19:05
Сообщение #34





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Цитата(Pinus @ 19.11.2009 - 17:55) *
Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.


Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 20.11.2009 - 13:58
Сообщение #35





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 20.11.2009 - 15:50
Сообщение #36





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Пока не готов ответить, ещё почитаю.

Сообщение отредактировал nokh - 23.11.2009 - 08:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 23.11.2009 - 08:08
Сообщение #37





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Вот что по этому поводу есть в википедии:
"...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope.
The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization."

Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю smile.gif

Сообщение отредактировал nokh - 23.11.2009 - 08:09
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 23.11.2009 - 12:44
Сообщение #38





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(nokh @ 23.11.2009 - 15:08) *
Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены.

Но ведь по сути-то нам и не надо их между собой сравнивать. Достаточно определить границы, за которыми с большой долей вероятности остатки можно считать выбросами. Стало быть можно использовать стандартизованные, и, пусть ограниченную, но родную Statistica 6. Ура! Ай да Дрейпер, ай да Смит!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 23.11.2009 - 12:48
Сообщение #39





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(nokh @ 19.11.2009 - 22:06) *
В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k ...

Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.11.2009 - 05:45
Сообщение #40





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pinus @ 23.11.2009 - 15:48) *
Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.

Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/l...1/macdonald.pdf
Цитата(Pinus @ 23.11.2009 - 15:48) *
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?

Да, включая свободный член.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 25.11.2009 - 13:14
Сообщение #41





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 29.11.2009 - 19:50
Сообщение #42





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



По рассматриваемой теме очень рекомендую источник:

Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998.

Найти можно на Гигапедии.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 30.11.2009 - 10:13
Сообщение #43





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 18.11.2009 - 19:15) *
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток

Не получим.

Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 30.11.2009 - 16:58
Сообщение #44





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 30.11.2009 - 17:13) *
Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Это называется Delete Residual?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 30.11.2009 - 19:11
Сообщение #45





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 30.11.2009 - 12:13) *
Не получим...

Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1).

Сообщение отредактировал nokh - 30.11.2009 - 19:13
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  < 1 2 3 4 5 > » 
Добавить ответ в эту темуОткрыть тему