Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  « < 5 6 7  
Добавить ответ в эту темуОткрыть тему
> Выбросы и влияющие наблюдения
Pinus
сообщение 2.02.2010 - 10:37
Сообщение #91





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 2.02.2010 - 17:02
Сообщение #92





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 2.02.2010 - 11:37) *
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?

Думаю, что второй и т.д. раз проверять будет некорректно. А в какой программе считали?

Сообщение отредактировал Игорь - 2.02.2010 - 17:03


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.02.2010 - 18:17
Сообщение #93





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pinus @ 2.02.2010 - 12:37) *
Возникла такая проблема...

У меня получилось такое рассуждение. Мы выбрали в качестве уровня значимости 5%-ный уровень. Он оставляет на ошибку первого рода (лжеоткрытие) 5%, т.е. 5% могут лишь показаться нам выбросами в силу выбранного уровня значимости. 10/160=6,25%, что весьма близко к 5%. Удалим их и получим ту же картину снова. Как и Игорь, думаю что многократное применение процедуры проверки на выбросы некорректно и уводит в строну от исходных данных. В качестве решения можно предложить использовать для детекции выбросов более строгий уровень значимости, например 1%-ный. Если рассуждения ошибочны - поправьте.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 3.02.2010 - 03:06
Сообщение #94





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 3.02.2010 - 00:02) *
А в какой программе считали?

Считал в NCSS 2004. Правильность расчета критериев сверена с другими программами и примерами с форума. Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 3.02.2010 - 03:11
Сообщение #95





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать.
Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть?

Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения.
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Прикрепленные файлы
Прикрепленный файл  D1_3_от_Dпня.rar ( 2,74 килобайт ) Кол-во скачиваний: 414
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 3.02.2010 - 12:12
Сообщение #96





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 3.02.2010 - 04:11) *
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Предположим, есть зависимость (функциональная) Y от X. При этом X точно задается, а Y измеряется с ошибками. Требование к данным ошибкам измерений Y - нормальность распределения [ошибок относительно неизвестного истинного Y, а не относительно среднего Y].

Но тут возможны разные ситуации. Во-первых, функция Y от X может быть известной [с точностью до параметров]. Во-вторых, она может быть неизвестной, но мы подберем нечто похожее, анализируя имеющиеся опытные данные - это параметрический подход. В-третьих, такую функцию подобрать не удастся (она может не иметь представления в виде совокупности элементарных функций) - это непараметрический подход (пример - метод скользящего среднего).

Обычно в регрессионном анализе рассматривают параметрические модели, основанные на нормальности ошибок. Что такое выбросы в такой трактовке - это наблюдения, критически отклоняющиеся от МОДЕЛИ (для ДРУГОЙ модели они могут не быть выбросами). Обнаружив и удалив данные выбросы, мы получим более хорошую МОДЕЛЬ (если она, естественно, была адекватно выбрана). Поэтому такая ситуация, когда после n прогонов из массива численностью n у нас ничего не останется, не должна иметь места при адекватной МОДЕЛИ.

К примеру, тестируя одноименный модуль AtteStat, я взял некоторую функциональную зависимость. 1. Затем слегка "испортил" ее. Затем подобрал [известную мне] регрессионную кривую. Все получилось хорошо. Параметры функции вычислены похожими на истинные. Выбросов не обнаружилось. 2. Теперь "испортил" один из Y сильно (раз в 5). Построил кривую. Данная испорченная варианта было локализована AtteStat как выброс. Убрал ее. Снова построил кривую. Выбросов нет. Все в порядке.
Цитата(Pinus @ 3.02.2010 - 04:06) *
Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).

DFFITS в регрессионном анализе AtteStat нет. Он есть во множественной регрессии (в модуле "Распознавание образов..."). Но расчеты показывают, что обычная проверка на равенство стандартизованного остатка нулю по критерию Стьюдента (это в AtteStat имеется) дает точно такой же результат. Так нужно ли загромождать? А вот DFBETAS для исследования влияния измерений на параметры модели, наверное, нужно сделать.

Сообщение отредактировал Игорь - 3.02.2010 - 14:24


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.02.2010 - 20:28
Сообщение #97





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pinus @ 3.02.2010 - 05:11) *
Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет. Наблюдаемая картина - типичный случай гетероскедастичности и бороться с ней можно преобразованием данных. Используя Бокса-Кокса из AtteStat для D1.3 лямбда = 0,607337058, а для Dпня лямбда = 0,503564775. Т.е более нормально распределены не исходные показатели а исходные в степени около 0,5 - т.е. квадратные корни из них. Почему - не знаю. Но попробуйте работать не с диаметрами, а корнями из них.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 4.02.2010 - 01:59
Сообщение #98





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(nokh @ 4.02.2010 - 03:28) *
А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет.

Я имел ввиду не для выложенного примера, а вообще общий случай, если распределение предиктора сильно асимметрично. В моем исследовании в принципе такое наблюдается. Деревья в городе садят по большей мере стихийно (кто попало, где попало и сколько попало). Поэтому распределение возраста имеющихся насаждений не является отражением каких-то биологических закономерностей, а просто случайно. А если еще учесть, что для измерений берутся особи нормального роста и развития (без дефектов), то случайность структуры еще более усиливается. Предположим, оно сильно асимметрично (кол-во молодых деревьев сильно преобладает над кол-вом старых). И если делать выборку, например, простым случайным отбором или направленную выборку по какой-то схеме, то в целом распределение в выборке будет подобно распределению общей совокупности, а значит такими же будут и распределения переменных, которые сильно коррелируют с возрастом (в т.ч. диаметр ствола). И стало быть, если строить регрессию по такой выборке, то получим смещение центра тяжести, что может существенно повлиять на оценку влияния отдельных наблюдений.
Поэтому в качестве варианта выхода из ситуации предлагаю расслоенный отбор с непропорциональным размещением. Т.е. разбить первичную совокупность на слои (страты), однородные например по возрасту. И производить случайную выборку в каждом слое в таких пропорциях, которые обеспечат нам более-менее симметричное распределение предикторов. Поскольку нас не интересуют параметры стихийно образованного и потом искусственно преобразованного распределения (нас интересуют просто пары значений предиктора и отклика для изучения регрессии), то нам не надо заботится об особых пропорциях объемов в стратах для минимизации дисперсии этих параметров. А несмещенность оценок параметров, если бы они были нам нужны, при непропорциональном размещении все равно обеспечивается. Если же говорить о несмещенности оценок регрессии, то она обеспечивается случайным отбором в каждом из стратов.
Таким образом, мы можем не довольствоваться тем распределением переменных, которое у нас имеется (и соответственно не мучиться вопросом соответствует ли оно регрессионному или любому другому анализу), а получать такое распределение, какое нам надо. Если же выборка уже получена, то также можно сделать расслоенный отбор, но только в каких-то стратах взять все наблюдения, а в каких-то часть. Может быть конечно это не совсем та цель, которая обычно ставится перед расслоенным отбором, но вроде бы нарушений нет.
А то получается так, что мы говорим, что распределение переменных неважно и задаемся определенным необходимым объемом выборки, а может быть получится, что этот объем почти весь обеспечен за счет небольшого интервала предиктора, а в остальных интервалах представленность данных маленькая. Вот и будут разные перекосы (в т.ч. в оценках влияния).
Такие вот мысли. А как Вы по этому поводу думаете?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 4.03.2010 - 01:38
Сообщение #99





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Nokh, в Вашем конспекте по выбросам и влияющим наблюдениям сказано, что критические значения для DFFITS и DFBETAS в случае малых и средних выборок принимаются равными 1 (в отчетах NCSS тоже также пишут). По критическим значениям в случае больших выборок я ссылаюсь на Коленикова, а для средних не могу найти литературного источника. Подскажите, пожалуйста, из какой книги Вы брали эту информацию? И, если не затруднит, ссылку где можно эту книгу скачать.
У меня сложилось, что малые выборки - это до 30 единиц, средние 30-100, большие свыше 100. Там такая же градация или как-то иначе?

Сообщение отредактировал Pinus - 4.03.2010 - 01:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.03.2010 - 19:49
Сообщение #100





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В конспекте все основные ссылки были. Пока нет времени смотреть подробнее, после праздников буду свободнее.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 7.03.2010 - 00:08
Сообщение #101





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Спасибо, Nokh, был бы очень благодарен. Особо за ссылки download.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 24.06.2010 - 04:13
Сообщение #102





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Существуют ли какие-либо специальные способы (критерии) для детекции выбросов в регрессиях с гетероскедастичными остатками? Корректно ли применение рассмотренных в этой ветке критериев (стьюд. остатки, DFFITS, DFBETTAS) для взвешенных остатков?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  « < 5 6 7
Добавить ответ в эту темуОткрыть тему