Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Выбросы и влияющие наблюдения
Pinus
сообщение 11.11.2009 - 02:55
Сообщение #1





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?

Сообщение отредактировал Pinus - 11.11.2009 - 02:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Pinus
сообщение 3.02.2010 - 03:11
Сообщение #2





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать.
Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть?

Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения.
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Прикрепленные файлы
Прикрепленный файл  D1_3_от_Dпня.rar ( 2,74 килобайт ) Кол-во скачиваний: 552
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 3.02.2010 - 12:12
Сообщение #3





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 3.02.2010 - 04:11) *
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Предположим, есть зависимость (функциональная) Y от X. При этом X точно задается, а Y измеряется с ошибками. Требование к данным ошибкам измерений Y - нормальность распределения [ошибок относительно неизвестного истинного Y, а не относительно среднего Y].

Но тут возможны разные ситуации. Во-первых, функция Y от X может быть известной [с точностью до параметров]. Во-вторых, она может быть неизвестной, но мы подберем нечто похожее, анализируя имеющиеся опытные данные - это параметрический подход. В-третьих, такую функцию подобрать не удастся (она может не иметь представления в виде совокупности элементарных функций) - это непараметрический подход (пример - метод скользящего среднего).

Обычно в регрессионном анализе рассматривают параметрические модели, основанные на нормальности ошибок. Что такое выбросы в такой трактовке - это наблюдения, критически отклоняющиеся от МОДЕЛИ (для ДРУГОЙ модели они могут не быть выбросами). Обнаружив и удалив данные выбросы, мы получим более хорошую МОДЕЛЬ (если она, естественно, была адекватно выбрана). Поэтому такая ситуация, когда после n прогонов из массива численностью n у нас ничего не останется, не должна иметь места при адекватной МОДЕЛИ.

К примеру, тестируя одноименный модуль AtteStat, я взял некоторую функциональную зависимость. 1. Затем слегка "испортил" ее. Затем подобрал [известную мне] регрессионную кривую. Все получилось хорошо. Параметры функции вычислены похожими на истинные. Выбросов не обнаружилось. 2. Теперь "испортил" один из Y сильно (раз в 5). Построил кривую. Данная испорченная варианта было локализована AtteStat как выброс. Убрал ее. Снова построил кривую. Выбросов нет. Все в порядке.
Цитата(Pinus @ 3.02.2010 - 04:06) *
Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).

DFFITS в регрессионном анализе AtteStat нет. Он есть во множественной регрессии (в модуле "Распознавание образов..."). Но расчеты показывают, что обычная проверка на равенство стандартизованного остатка нулю по критерию Стьюдента (это в AtteStat имеется) дает точно такой же результат. Так нужно ли загромождать? А вот DFBETAS для исследования влияния измерений на параметры модели, наверное, нужно сделать.

Сообщение отредактировал Игорь - 3.02.2010 - 14:24


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Pinus   Выбросы и влияющие наблюдения   11.11.2009 - 02:55
- - DrgLena   Я использую статистику критерия Граббса, если про...   11.11.2009 - 14:58
- - Pinus   Мне для регрессии. В Statistica предлагается два к...   12.11.2009 - 02:14
- - avorotniak   Выброс (outlier) определяется отдаленностью отдель...   12.11.2009 - 05:46
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 13...   14.11.2009 - 08:10
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 12...   16.11.2009 - 15:58
|- - avorotniak   Цитата(Pinus @ 16.11.2009 - 15:58) А...   16.11.2009 - 22:06
- - nokh   > Pinus. Посмотрел в нескольких русскоязычных к...   12.11.2009 - 17:28
- - avorotniak   Сразу хотелось бы уточнить, что дистанция Махалано...   12.11.2009 - 21:50
- - nokh   Большое спасибо, посмотрю. Кому нужно: http://phot...   12.11.2009 - 22:24
- - Pinus   Avorotniak, большое спасибо за ответ! Если не ...   13.11.2009 - 14:24
|- - avorotniak   Вопрос: Регрессия простая нелинейная (полином 2-го...   13.11.2009 - 17:37
- - Pinus   nokh, не встречали ли где про Кука? При каких усло...   13.11.2009 - 14:42
- - avorotniak   Извините, небольшая поправка к следующей фразе: О...   13.11.2009 - 18:16
- - DrgLena   Цитата(Pinus @ 14.11.2009 - 08:10) Н...   14.11.2009 - 14:24
- - avorotniak   Правильно по поводу перцентиля 50, однако поищите ...   14.11.2009 - 14:28
- - Pinus   DrgLena, спасибо! Андрей, тоже спасибо! Ск...   15.11.2009 - 02:30
- - Pinus   Андрей, получается, что статистика Кука и для выбр...   15.11.2009 - 14:04
- - Pinus   Кто может подсказать, как правильно перевести Lint...   15.11.2009 - 16:55
- - avorotniak   Интересный и глубокий вопрос. Хотелось бы еще раз ...   15.11.2009 - 17:10
|- - Pinus   Цитата(avorotniak @ 16.11.2009 - 00...   16.11.2009 - 05:44
- - avorotniak   Абсолютно согласен. Извините за дезинформацию.   16.11.2009 - 07:34
- - Pinus   Вообще книги на русском, в которых в той или иной ...   16.11.2009 - 15:53
- - Pinus   Как понять Deleted Residual (удаленные остатки)? Э...   17.11.2009 - 17:09
|- - nokh   Цитата(Pinus @ 17.11.2009 - 20:09) К...   18.11.2009 - 18:15
|- - avorotniak   [quote name='nokh' date='18.11.2009 - ...   18.11.2009 - 22:18
|- - Игорь   Цитата(nokh @ 18.11.2009 - 19:15) Лу...   30.11.2009 - 10:13
|- - Pinus   Цитата(Игорь @ 30.11.2009 - 17:13) С...   30.11.2009 - 16:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 12:13) Н...   30.11.2009 - 19:11
|- - Игорь   Цитата(nokh @ 30.11.2009 - 20:11) ст...   30.11.2009 - 20:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 22:58) М...   30.11.2009 - 21:43
- - nokh   Сегодня исправил описку в своём предыдущем посте -...   19.11.2009 - 15:06
|- - Pinus   Цитата(nokh @ 19.11.2009 - 22:06) В ...   23.11.2009 - 12:48
|- - nokh   Цитата(Pinus @ 23.11.2009 - 15:48) П...   25.11.2009 - 05:45
- - Green   Leverage - видела перевод как "воздействие...   19.11.2009 - 15:20
|- - DoctorStat   Я не специалист по выбросам, но с точки зрения ста...   19.11.2009 - 16:16
- - avorotniak   Пересчитал вручную стандартизированые остатки. Сог...   19.11.2009 - 16:50
- - avorotniak   DoctorStat затронул очень интересную тему. Обрати...   19.11.2009 - 17:19
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 00...   19.11.2009 - 17:55
|- - avorotniak   Цитата(Pinus @ 19.11.2009 - 17:55) Я...   19.11.2009 - 19:05
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 02...   22.01.2010 - 05:43
- - Pinus   Позвольте внести мой скромный вклад. Вчера тоже ра...   19.11.2009 - 17:36
- - Pinus   nokh, развейте мои дилетантские соображения. Не по...   20.11.2009 - 13:58
- - nokh   Пока не готов ответить, ещё почитаю.   20.11.2009 - 15:50
- - nokh   Вот что по этому поводу есть в википедии: ".....   23.11.2009 - 08:08
|- - Pinus   Цитата(nokh @ 23.11.2009 - 15:08) Т....   23.11.2009 - 12:44
- - Pinus   Спасибо!   25.11.2009 - 13:14
- - Игорь   По рассматриваемой теме очень рекомендую источник:...   29.11.2009 - 19:50
- - Игорь   1. В книге Дэйвида "Порядковые статистики...   1.12.2009 - 08:55
|- - Pinus   Цитата(Игорь @ 1.12.2009 - 15:55) Ка...   3.12.2009 - 07:57
||- - Игорь   Цитата(Pinus @ 3.12.2009 - 07:57) Иг...   3.12.2009 - 08:02
|- - Pinus   Игорь, я просчитал. С Вашим примером сошлось. Но п...   5.12.2009 - 01:36
|- - Игорь   Цитата(Pinus @ 5.12.2009 - 01:36) Иг...   5.12.2009 - 12:36
- - DrgLena   Цитата(Игорь @ 1.12.2009 - 09:55) а ...   1.12.2009 - 12:29
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   1.12.2009 - 12:55
|- - Pinus   Цитата(DrgLena @ 1.12.2009 - 19:29) ...   3.12.2009 - 08:50
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   3.12.2009 - 10:48
- - DrgLena   Игорь, за AtteStat ВАМ не просто большое спасибо, ...   1.12.2009 - 13:34
- - Pinus   Игорь, спасибо за ссылки!   3.12.2009 - 12:21
- - Pinus   Игорь, что-то совсем другие цифры у меня получаютс...   3.12.2009 - 14:35
|- - Игорь   Цитата(Pinus @ 3.12.2009 - 15:35) Иг...   3.12.2009 - 18:44
|- - Pinus   Цитата(Игорь @ 4.12.2009 - 01:44) Ко...   4.12.2009 - 12:01
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 13:01) В ...   4.12.2009 - 13:27
- - DrgLena   Игорь, если готовите дополнение к AtteStat, посмо...   3.12.2009 - 15:37
- - nokh   Рассмотрение классического примера об ирисах Фишер...   3.12.2009 - 20:05
- - Pinus   Игорь, если не трудно дайте ссылку откуда вы брали...   4.12.2009 - 14:47
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 15:47) Иг...   4.12.2009 - 21:02
- - Pinus   Nokh, попробуйте на своем софте (в программах, кот...   5.12.2009 - 02:06
- - nokh   Ирисы считать не хочу: поскольку использовать OLS-...   5.12.2009 - 02:44
- - DrgLena   Задачка имеет два решения относительно анализа ост...   5.12.2009 - 17:29
|- - Игорь   Цитата(DrgLena @ 5.12.2009 - 17:29) ...   5.12.2009 - 21:11
|- - Pinus   Цитата(DrgLena @ 6.12.2009 - 00:29) ...   6.12.2009 - 00:32
- - nokh   Закончил вчерне свой труд, конструктивная критика ...   6.12.2009 - 11:31
- - DrgLena   Nokh, спасибо большое, хорошая работа, многое стан...   7.12.2009 - 04:05
|- - Игорь   Цитата(nokh @ 6.12.2009 - 11:31) Зак...   7.12.2009 - 08:03
|- - nokh   Как показал анализ, необходимых и достаточных мер ...   7.12.2009 - 08:34
|- - Игорь   Цитата(nokh @ 7.12.2009 - 08:34) Все...   7.12.2009 - 08:45
- - nokh   Цитата(Игорь @ 7.12.2009 - 10:45) Не...   7.12.2009 - 09:03
|- - Игорь   Мне очень понравились формулы nokh. Если считать п...   7.12.2009 - 18:33
|- - Игорь   Цитата(Игорь @ 7.12.2009 - 18:33) Вы...   8.12.2009 - 12:52
- - DrgLena   Цитата(Игорь @ 7.12.2009 - 08:03) Уж...   7.12.2009 - 12:41
- - DrgLena   Отличная работа, как говорят математики, что и сле...   7.12.2009 - 19:49
- - Pinus   Не берусь утверждать, но может быть, когда берется...   8.12.2009 - 15:33
- - nokh   >Игорь. Не знаю можно ли эти меры считать эквив...   8.12.2009 - 16:09
- - avorotniak   Думаю, что одной из причин различий в формулах рас...   8.12.2009 - 19:57
- - DrgLena   Мне удалось найти один из двух источников на котор...   8.12.2009 - 21:50
|- - Игорь   Цитата(DrgLena @ 8.12.2009 - 22:50) ...   9.12.2009 - 07:32
- - DrgLena   Речь шла о диагностике, обязательно ли для получен...   9.12.2009 - 13:31
|- - avorotniak   [quote name='DrgLena' date='9.12.2009 ...   10.12.2009 - 02:20
- - Игорь   Только факты. 1. Chattejee, Hadi, 1988. С. 117, ф...   10.12.2009 - 07:22
- - Pinus   Возникла такая проблема. Простая линейная регресси...   2.02.2010 - 10:37
|- - Игорь   Цитата(Pinus @ 2.02.2010 - 11:37) Во...   2.02.2010 - 17:02
||- - Pinus   Цитата(Игорь @ 3.02.2010 - 00:02) А ...   3.02.2010 - 03:06
|- - nokh   Цитата(Pinus @ 2.02.2010 - 12:37) Во...   2.02.2010 - 18:17
- - Pinus   Я вот вчера размышлял, по всей видимости тут в дру...   3.02.2010 - 03:11
|- - Игорь   Цитата(Pinus @ 3.02.2010 - 04:11) Ес...   3.02.2010 - 12:12
|- - nokh   Цитата(Pinus @ 3.02.2010 - 05:11) Мы...   3.02.2010 - 20:28
|- - Pinus   Цитата(nokh @ 4.02.2010 - 03:28) А з...   4.02.2010 - 01:59
- - Pinus   Nokh, в Вашем конспекте по выбросам и влияющим наб...   4.03.2010 - 01:38
- - nokh   В конспекте все основные ссылки были. Пока нет вре...   6.03.2010 - 19:49
2 страниц V   1 2 >


Добавить ответ в эту темуОткрыть тему