Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Выбросы и влияющие наблюдения
Pinus
сообщение 11.11.2009 - 02:55
Сообщение #1





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?

Сообщение отредактировал Pinus - 11.11.2009 - 02:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Pinus
сообщение 19.11.2009 - 17:36
Сообщение #2





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами.

Вот расчеты для нашего примера:
Standard Residual (стандартизованные остатки):
0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962
Deleted Residual (исключенные остатки):
0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000
Cook's Distance (дистанция Кука):
0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587
Mahalanobis Distance (дистанция Махаланобиса):
1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981

Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс).

Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее:
Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение.
(Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно;
s и σ - стандартное отклонение выборки и генеральной совокупности соответственно;
N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание).
Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая.
И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).

Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже.

По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема).
Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники.

Сообщение отредактировал Pinus - 19.11.2009 - 17:46
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Pinus   Выбросы и влияющие наблюдения   11.11.2009 - 02:55
- - DrgLena   Я использую статистику критерия Граббса, если про...   11.11.2009 - 14:58
- - Pinus   Мне для регрессии. В Statistica предлагается два к...   12.11.2009 - 02:14
- - avorotniak   Выброс (outlier) определяется отдаленностью отдель...   12.11.2009 - 05:46
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 13...   14.11.2009 - 08:10
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 12...   16.11.2009 - 15:58
|- - avorotniak   Цитата(Pinus @ 16.11.2009 - 15:58) А...   16.11.2009 - 22:06
- - nokh   > Pinus. Посмотрел в нескольких русскоязычных к...   12.11.2009 - 17:28
- - avorotniak   Сразу хотелось бы уточнить, что дистанция Махалано...   12.11.2009 - 21:50
- - nokh   Большое спасибо, посмотрю. Кому нужно: http://phot...   12.11.2009 - 22:24
- - Pinus   Avorotniak, большое спасибо за ответ! Если не ...   13.11.2009 - 14:24
|- - avorotniak   Вопрос: Регрессия простая нелинейная (полином 2-го...   13.11.2009 - 17:37
- - Pinus   nokh, не встречали ли где про Кука? При каких усло...   13.11.2009 - 14:42
- - avorotniak   Извините, небольшая поправка к следующей фразе: О...   13.11.2009 - 18:16
- - DrgLena   Цитата(Pinus @ 14.11.2009 - 08:10) Н...   14.11.2009 - 14:24
- - avorotniak   Правильно по поводу перцентиля 50, однако поищите ...   14.11.2009 - 14:28
- - Pinus   DrgLena, спасибо! Андрей, тоже спасибо! Ск...   15.11.2009 - 02:30
- - Pinus   Андрей, получается, что статистика Кука и для выбр...   15.11.2009 - 14:04
- - Pinus   Кто может подсказать, как правильно перевести Lint...   15.11.2009 - 16:55
- - avorotniak   Интересный и глубокий вопрос. Хотелось бы еще раз ...   15.11.2009 - 17:10
|- - Pinus   Цитата(avorotniak @ 16.11.2009 - 00...   16.11.2009 - 05:44
- - avorotniak   Абсолютно согласен. Извините за дезинформацию.   16.11.2009 - 07:34
- - Pinus   Вообще книги на русском, в которых в той или иной ...   16.11.2009 - 15:53
- - Pinus   Как понять Deleted Residual (удаленные остатки)? Э...   17.11.2009 - 17:09
|- - nokh   Цитата(Pinus @ 17.11.2009 - 20:09) К...   18.11.2009 - 18:15
|- - avorotniak   [quote name='nokh' date='18.11.2009 - ...   18.11.2009 - 22:18
|- - Игорь   Цитата(nokh @ 18.11.2009 - 19:15) Лу...   30.11.2009 - 10:13
|- - Pinus   Цитата(Игорь @ 30.11.2009 - 17:13) С...   30.11.2009 - 16:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 12:13) Н...   30.11.2009 - 19:11
|- - Игорь   Цитата(nokh @ 30.11.2009 - 20:11) ст...   30.11.2009 - 20:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 22:58) М...   30.11.2009 - 21:43
- - nokh   Сегодня исправил описку в своём предыдущем посте -...   19.11.2009 - 15:06
|- - Pinus   Цитата(nokh @ 19.11.2009 - 22:06) В ...   23.11.2009 - 12:48
|- - nokh   Цитата(Pinus @ 23.11.2009 - 15:48) П...   25.11.2009 - 05:45
- - Green   Leverage - видела перевод как "воздействие...   19.11.2009 - 15:20
|- - DoctorStat   Я не специалист по выбросам, но с точки зрения ста...   19.11.2009 - 16:16
- - avorotniak   Пересчитал вручную стандартизированые остатки. Сог...   19.11.2009 - 16:50
- - avorotniak   DoctorStat затронул очень интересную тему. Обрати...   19.11.2009 - 17:19
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 00...   19.11.2009 - 17:55
|- - avorotniak   Цитата(Pinus @ 19.11.2009 - 17:55) Я...   19.11.2009 - 19:05
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 02...   22.01.2010 - 05:43
- - Pinus   Позвольте внести мой скромный вклад. Вчера тоже ра...   19.11.2009 - 17:36
- - Pinus   nokh, развейте мои дилетантские соображения. Не по...   20.11.2009 - 13:58
- - nokh   Пока не готов ответить, ещё почитаю.   20.11.2009 - 15:50
- - nokh   Вот что по этому поводу есть в википедии: ".....   23.11.2009 - 08:08
|- - Pinus   Цитата(nokh @ 23.11.2009 - 15:08) Т....   23.11.2009 - 12:44
- - Pinus   Спасибо!   25.11.2009 - 13:14
- - Игорь   По рассматриваемой теме очень рекомендую источник:...   29.11.2009 - 19:50
- - Игорь   1. В книге Дэйвида "Порядковые статистики...   1.12.2009 - 08:55
|- - Pinus   Цитата(Игорь @ 1.12.2009 - 15:55) Ка...   3.12.2009 - 07:57
||- - Игорь   Цитата(Pinus @ 3.12.2009 - 07:57) Иг...   3.12.2009 - 08:02
|- - Pinus   Игорь, я просчитал. С Вашим примером сошлось. Но п...   5.12.2009 - 01:36
|- - Игорь   Цитата(Pinus @ 5.12.2009 - 01:36) Иг...   5.12.2009 - 12:36
- - DrgLena   Цитата(Игорь @ 1.12.2009 - 09:55) а ...   1.12.2009 - 12:29
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   1.12.2009 - 12:55
|- - Pinus   Цитата(DrgLena @ 1.12.2009 - 19:29) ...   3.12.2009 - 08:50
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   3.12.2009 - 10:48
- - DrgLena   Игорь, за AtteStat ВАМ не просто большое спасибо, ...   1.12.2009 - 13:34
- - Pinus   Игорь, спасибо за ссылки!   3.12.2009 - 12:21
- - Pinus   Игорь, что-то совсем другие цифры у меня получаютс...   3.12.2009 - 14:35
|- - Игорь   Цитата(Pinus @ 3.12.2009 - 15:35) Иг...   3.12.2009 - 18:44
|- - Pinus   Цитата(Игорь @ 4.12.2009 - 01:44) Ко...   4.12.2009 - 12:01
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 13:01) В ...   4.12.2009 - 13:27
- - DrgLena   Игорь, если готовите дополнение к AtteStat, посмо...   3.12.2009 - 15:37
- - nokh   Рассмотрение классического примера об ирисах Фишер...   3.12.2009 - 20:05
- - Pinus   Игорь, если не трудно дайте ссылку откуда вы брали...   4.12.2009 - 14:47
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 15:47) Иг...   4.12.2009 - 21:02
- - Pinus   Nokh, попробуйте на своем софте (в программах, кот...   5.12.2009 - 02:06
- - nokh   Ирисы считать не хочу: поскольку использовать OLS-...   5.12.2009 - 02:44
- - DrgLena   Задачка имеет два решения относительно анализа ост...   5.12.2009 - 17:29
|- - Игорь   Цитата(DrgLena @ 5.12.2009 - 17:29) ...   5.12.2009 - 21:11
|- - Pinus   Цитата(DrgLena @ 6.12.2009 - 00:29) ...   6.12.2009 - 00:32
- - nokh   Закончил вчерне свой труд, конструктивная критика ...   6.12.2009 - 11:31
- - DrgLena   Nokh, спасибо большое, хорошая работа, многое стан...   7.12.2009 - 04:05
|- - Игорь   Цитата(nokh @ 6.12.2009 - 11:31) Зак...   7.12.2009 - 08:03
|- - nokh   Как показал анализ, необходимых и достаточных мер ...   7.12.2009 - 08:34
|- - Игорь   Цитата(nokh @ 7.12.2009 - 08:34) Все...   7.12.2009 - 08:45
- - nokh   Цитата(Игорь @ 7.12.2009 - 10:45) Не...   7.12.2009 - 09:03
|- - Игорь   Мне очень понравились формулы nokh. Если считать п...   7.12.2009 - 18:33
|- - Игорь   Цитата(Игорь @ 7.12.2009 - 18:33) Вы...   8.12.2009 - 12:52
- - DrgLena   Цитата(Игорь @ 7.12.2009 - 08:03) Уж...   7.12.2009 - 12:41
- - DrgLena   Отличная работа, как говорят математики, что и сле...   7.12.2009 - 19:49
- - Pinus   Не берусь утверждать, но может быть, когда берется...   8.12.2009 - 15:33
- - nokh   >Игорь. Не знаю можно ли эти меры считать эквив...   8.12.2009 - 16:09
- - avorotniak   Думаю, что одной из причин различий в формулах рас...   8.12.2009 - 19:57
- - DrgLena   Мне удалось найти один из двух источников на котор...   8.12.2009 - 21:50
|- - Игорь   Цитата(DrgLena @ 8.12.2009 - 22:50) ...   9.12.2009 - 07:32
- - DrgLena   Речь шла о диагностике, обязательно ли для получен...   9.12.2009 - 13:31
|- - avorotniak   [quote name='DrgLena' date='9.12.2009 ...   10.12.2009 - 02:20
- - Игорь   Только факты. 1. Chattejee, Hadi, 1988. С. 117, ф...   10.12.2009 - 07:22
- - Pinus   Возникла такая проблема. Простая линейная регресси...   2.02.2010 - 10:37
|- - Игорь   Цитата(Pinus @ 2.02.2010 - 11:37) Во...   2.02.2010 - 17:02
||- - Pinus   Цитата(Игорь @ 3.02.2010 - 00:02) А ...   3.02.2010 - 03:06
|- - nokh   Цитата(Pinus @ 2.02.2010 - 12:37) Во...   2.02.2010 - 18:17
- - Pinus   Я вот вчера размышлял, по всей видимости тут в дру...   3.02.2010 - 03:11
|- - Игорь   Цитата(Pinus @ 3.02.2010 - 04:11) Ес...   3.02.2010 - 12:12
|- - nokh   Цитата(Pinus @ 3.02.2010 - 05:11) Мы...   3.02.2010 - 20:28
|- - Pinus   Цитата(nokh @ 4.02.2010 - 03:28) А з...   4.02.2010 - 01:59
- - Pinus   Nokh, в Вашем конспекте по выбросам и влияющим наб...   4.03.2010 - 01:38
- - nokh   В конспекте все основные ссылки были. Пока нет вре...   6.03.2010 - 19:49
2 страниц V   1 2 >


Добавить ответ в эту темуОткрыть тему