Выбросы и влияющие наблюдения - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

7 страниц

< 1 2 3 4 5 > »

Добавить ответ в эту тему

Открыть тему

Выбросы и влияющие наблюдения

avorotniak Просмотр профиля	19.11.2009 - 17:19 Сообщение #31
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183	DoctorStat затронул очень интересную тему. Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д. Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие. Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами. Андрей

Pinus Просмотр профиля	19.11.2009 - 17:36 Сообщение #32
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Позвольте внести мой скромный вклад. Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами. Вот расчеты для нашего примера: Standard Residual (стандартизованные остатки): 0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962 Deleted Residual (исключенные остатки): 0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000 Cook's Distance (дистанция Кука): 0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587 Mahalanobis Distance (дистанция Махаланобиса): 1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981 Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс). Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее: Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение. (Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно; s и σ - стандартное отклонение выборки и генеральной совокупности соответственно; N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание). Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))s^2), но для большинства реальных задач разница небольшая. И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479). Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже. По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема). Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники. Сообщение отредактировал Pinus* - 19.11.2009 - 17:46

Pinus Просмотр профиля	19.11.2009 - 17:55 Сообщение #33
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(avorotniak @ 20.11.2009 - 00:19) Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.

avorotniak Просмотр профиля	19.11.2009 - 19:05 Сообщение #34
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183	Цитата(Pinus @ 19.11.2009 - 17:55) Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены. Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно. Андрей

Pinus Просмотр профиля	20.11.2009 - 13:58 Сообщение #35
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?

nokh Просмотр профиля	20.11.2009 - 15:50 Сообщение #36
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Пока не готов ответить, ещё почитаю. Сообщение отредактировал nokh - 23.11.2009 - 08:08

nokh Просмотр профиля	23.11.2009 - 08:08 Сообщение #37
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Вот что по этому поводу есть в википедии: "...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope. The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization." Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю Сообщение отредактировал nokh - 23.11.2009 - 08:09

Pinus Просмотр профиля	23.11.2009 - 12:44 Сообщение #38
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 23.11.2009 - 15:08) Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Но ведь по сути-то нам и не надо их между собой сравнивать. Достаточно определить границы, за которыми с большой долей вероятности остатки можно считать выбросами. Стало быть можно использовать стандартизованные, и, пусть ограниченную, но родную Statistica 6. Ура! Ай да Дрейпер, ай да Смит!

Pinus Просмотр профиля	23.11.2009 - 12:48 Сообщение #39
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 19.11.2009 - 22:06) В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df₁=k (кол-во параметров в модели, для линейной регрессии=2), df₂=n-k ... Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?

nokh Просмотр профиля	25.11.2009 - 05:45 Сообщение #40
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Pinus @ 23.11.2009 - 15:48) Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/l...1/macdonald.pdf Цитата(Pinus @ 23.11.2009 - 15:48) Кол-во параметров в модели (число k) ? это число коэффициентов уравнения? Да, включая свободный член.

Pinus Просмотр профиля	25.11.2009 - 13:14 Сообщение #41
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Спасибо!

Игорь Просмотр профиля	29.11.2009 - 19:50 Сообщение #42
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	По рассматриваемой теме очень рекомендую источник: Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998. Найти можно на Гигапедии. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Игорь Просмотр профиля	30.11.2009 - 10:13 Сообщение #43
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 18.11.2009 - 19:15) Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток Не получим. Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	30.11.2009 - 16:58 Сообщение #44
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Игорь @ 30.11.2009 - 17:13) Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Это называется Delete Residual?

nokh Просмотр профиля	30.11.2009 - 19:11 Сообщение #45
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Игорь @ 30.11.2009 - 12:13) Не получим... Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1). Сообщение отредактировал nokh - 30.11.2009 - 19:13

« Предыдущая тема · Медицинская статистика · Следующая тема »

7 страниц

< 1 2 3 4 5 > »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.