Здравствуйте, гость ( Вход | Регистрация )
11.11.2009 - 02:55
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
|
![]() |
![]() |
![]() |
3.02.2010 - 03:11
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать. Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть? Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения. Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?
Прикрепленные файлы
|
|
|
![]() |
![]() |
3.02.2010 - 20:28
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете? А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет. Наблюдаемая картина - типичный случай гетероскедастичности и бороться с ней можно преобразованием данных. Используя Бокса-Кокса из AtteStat для D1.3 лямбда = 0,607337058, а для Dпня лямбда = 0,503564775. Т.е более нормально распределены не исходные показатели а исходные в степени около 0,5 - т.е. квадратные корни из них. Почему - не знаю. Но попробуйте работать не с диаметрами, а корнями из них. |
|
|
![]() |
![]() |
4.02.2010 - 01:59
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет. Я имел ввиду не для выложенного примера, а вообще общий случай, если распределение предиктора сильно асимметрично. В моем исследовании в принципе такое наблюдается. Деревья в городе садят по большей мере стихийно (кто попало, где попало и сколько попало). Поэтому распределение возраста имеющихся насаждений не является отражением каких-то биологических закономерностей, а просто случайно. А если еще учесть, что для измерений берутся особи нормального роста и развития (без дефектов), то случайность структуры еще более усиливается. Предположим, оно сильно асимметрично (кол-во молодых деревьев сильно преобладает над кол-вом старых). И если делать выборку, например, простым случайным отбором или направленную выборку по какой-то схеме, то в целом распределение в выборке будет подобно распределению общей совокупности, а значит такими же будут и распределения переменных, которые сильно коррелируют с возрастом (в т.ч. диаметр ствола). И стало быть, если строить регрессию по такой выборке, то получим смещение центра тяжести, что может существенно повлиять на оценку влияния отдельных наблюдений. Поэтому в качестве варианта выхода из ситуации предлагаю расслоенный отбор с непропорциональным размещением. Т.е. разбить первичную совокупность на слои (страты), однородные например по возрасту. И производить случайную выборку в каждом слое в таких пропорциях, которые обеспечат нам более-менее симметричное распределение предикторов. Поскольку нас не интересуют параметры стихийно образованного и потом искусственно преобразованного распределения (нас интересуют просто пары значений предиктора и отклика для изучения регрессии), то нам не надо заботится об особых пропорциях объемов в стратах для минимизации дисперсии этих параметров. А несмещенность оценок параметров, если бы они были нам нужны, при непропорциональном размещении все равно обеспечивается. Если же говорить о несмещенности оценок регрессии, то она обеспечивается случайным отбором в каждом из стратов. Таким образом, мы можем не довольствоваться тем распределением переменных, которое у нас имеется (и соответственно не мучиться вопросом соответствует ли оно регрессионному или любому другому анализу), а получать такое распределение, какое нам надо. Если же выборка уже получена, то также можно сделать расслоенный отбор, но только в каких-то стратах взять все наблюдения, а в каких-то часть. Может быть конечно это не совсем та цель, которая обычно ставится перед расслоенным отбором, но вроде бы нарушений нет. А то получается так, что мы говорим, что распределение переменных неважно и задаемся определенным необходимым объемом выборки, а может быть получится, что этот объем почти весь обеспечен за счет небольшого интервала предиктора, а в остальных интервалах представленность данных маленькая. Вот и будут разные перекосы (в т.ч. в оценках влияния). Такие вот мысли. А как Вы по этому поводу думаете? |
|
|
![]() |
![]() |
Pinus Выбросы и влияющие наблюдения 11.11.2009 - 02:55
DrgLena Я использую статистику критерия Граббса, если про... 11.11.2009 - 14:58
Pinus Мне для регрессии. В Statistica предлагается два к... 12.11.2009 - 02:14
avorotniak Выброс (outlier) определяется отдаленностью отдель... 12.11.2009 - 05:46
Pinus Цитата(avorotniak @ 12.11.2009 - 13... 14.11.2009 - 08:10
Pinus Цитата(avorotniak @ 12.11.2009 - 12... 16.11.2009 - 15:58
avorotniak Цитата(Pinus @ 16.11.2009 - 15:58) А... 16.11.2009 - 22:06
nokh > Pinus. Посмотрел в нескольких русскоязычных к... 12.11.2009 - 17:28
avorotniak Сразу хотелось бы уточнить, что дистанция Махалано... 12.11.2009 - 21:50
nokh Большое спасибо, посмотрю. Кому нужно: http://phot... 12.11.2009 - 22:24
Pinus Avorotniak, большое спасибо за ответ!
Если не ... 13.11.2009 - 14:24
avorotniak Вопрос:
Регрессия простая нелинейная (полином 2-го... 13.11.2009 - 17:37
Pinus nokh, не встречали ли где про Кука? При каких усло... 13.11.2009 - 14:42
avorotniak Извините, небольшая поправка к следующей фразе:
О... 13.11.2009 - 18:16
DrgLena Цитата(Pinus @ 14.11.2009 - 08:10) Н... 14.11.2009 - 14:24
avorotniak Правильно по поводу перцентиля 50, однако поищите ... 14.11.2009 - 14:28
Pinus DrgLena, спасибо!
Андрей, тоже спасибо! Ск... 15.11.2009 - 02:30
Pinus Андрей, получается, что статистика Кука и для выбр... 15.11.2009 - 14:04
Pinus Кто может подсказать, как правильно перевести Lint... 15.11.2009 - 16:55
avorotniak Интересный и глубокий вопрос.
Хотелось бы еще раз ... 15.11.2009 - 17:10
Pinus Цитата(avorotniak @ 16.11.2009 - 00... 16.11.2009 - 05:44
avorotniak Абсолютно согласен. Извините за дезинформацию. 16.11.2009 - 07:34
Pinus Вообще книги на русском, в которых в той или иной ... 16.11.2009 - 15:53
Pinus Как понять Deleted Residual (удаленные остатки)? Э... 17.11.2009 - 17:09
nokh Цитата(Pinus @ 17.11.2009 - 20:09) К... 18.11.2009 - 18:15
avorotniak [quote name='nokh' date='18.11.2009 - ... 18.11.2009 - 22:18
Игорь Цитата(nokh @ 18.11.2009 - 19:15) Лу... 30.11.2009 - 10:13
Pinus Цитата(Игорь @ 30.11.2009 - 17:13) С... 30.11.2009 - 16:58
nokh Цитата(Игорь @ 30.11.2009 - 12:13) Н... 30.11.2009 - 19:11
Игорь Цитата(nokh @ 30.11.2009 - 20:11) ст... 30.11.2009 - 20:58
nokh Цитата(Игорь @ 30.11.2009 - 22:58) М... 30.11.2009 - 21:43
nokh Сегодня исправил описку в своём предыдущем посте -... 19.11.2009 - 15:06
Pinus Цитата(nokh @ 19.11.2009 - 22:06) В ... 23.11.2009 - 12:48
nokh Цитата(Pinus @ 23.11.2009 - 15:48) П... 25.11.2009 - 05:45
Green Leverage - видела перевод как "воздействие... 19.11.2009 - 15:20
DoctorStat Я не специалист по выбросам, но с точки зрения ста... 19.11.2009 - 16:16
avorotniak Пересчитал вручную стандартизированые остатки. Сог... 19.11.2009 - 16:50
avorotniak DoctorStat затронул очень интересную тему.
Обрати... 19.11.2009 - 17:19
Pinus Цитата(avorotniak @ 20.11.2009 - 00... 19.11.2009 - 17:55
avorotniak Цитата(Pinus @ 19.11.2009 - 17:55) Я... 19.11.2009 - 19:05
Pinus Цитата(avorotniak @ 20.11.2009 - 02... 22.01.2010 - 05:43
Pinus Позвольте внести мой скромный вклад.
Вчера тоже ра... 19.11.2009 - 17:36
Pinus nokh, развейте мои дилетантские соображения. Не по... 20.11.2009 - 13:58
nokh Пока не готов ответить, ещё почитаю. 20.11.2009 - 15:50
nokh Вот что по этому поводу есть в википедии:
"..... 23.11.2009 - 08:08
Pinus Цитата(nokh @ 23.11.2009 - 15:08) Т.... 23.11.2009 - 12:44
Pinus Спасибо! 25.11.2009 - 13:14
Игорь По рассматриваемой теме очень рекомендую источник:... 29.11.2009 - 19:50
Игорь 1. В книге Дэйвида "Порядковые статистики... 1.12.2009 - 08:55
Pinus Цитата(Игорь @ 1.12.2009 - 15:55) Ка... 3.12.2009 - 07:57

Игорь Цитата(Pinus @ 3.12.2009 - 07:57) Иг... 3.12.2009 - 08:02
Pinus Игорь, я просчитал. С Вашим примером сошлось. Но п... 5.12.2009 - 01:36
Игорь Цитата(Pinus @ 5.12.2009 - 01:36) Иг... 5.12.2009 - 12:36
DrgLena Цитата(Игорь @ 1.12.2009 - 09:55) а ... 1.12.2009 - 12:29
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 1.12.2009 - 12:55
Pinus Цитата(DrgLena @ 1.12.2009 - 19:29) ... 3.12.2009 - 08:50
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 3.12.2009 - 10:48
DrgLena Игорь, за AtteStat ВАМ не просто большое спасибо, ... 1.12.2009 - 13:34
Pinus Игорь, спасибо за ссылки! 3.12.2009 - 12:21
Pinus Игорь, что-то совсем другие цифры у меня получаютс... 3.12.2009 - 14:35
Игорь Цитата(Pinus @ 3.12.2009 - 15:35) Иг... 3.12.2009 - 18:44
Pinus Цитата(Игорь @ 4.12.2009 - 01:44) Ко... 4.12.2009 - 12:01
Игорь Цитата(Pinus @ 4.12.2009 - 13:01) В ... 4.12.2009 - 13:27
DrgLena Игорь, если готовите дополнение к AtteStat, посмо... 3.12.2009 - 15:37
nokh Рассмотрение классического примера об ирисах Фишер... 3.12.2009 - 20:05
Pinus Игорь, если не трудно дайте ссылку откуда вы брали... 4.12.2009 - 14:47
Игорь Цитата(Pinus @ 4.12.2009 - 15:47) Иг... 4.12.2009 - 21:02
Pinus Nokh, попробуйте на своем софте (в программах, кот... 5.12.2009 - 02:06
nokh Ирисы считать не хочу: поскольку использовать OLS-... 5.12.2009 - 02:44
DrgLena Задачка имеет два решения относительно анализа ост... 5.12.2009 - 17:29
Игорь Цитата(DrgLena @ 5.12.2009 - 17:29) ... 5.12.2009 - 21:11
Pinus Цитата(DrgLena @ 6.12.2009 - 00:29) ... 6.12.2009 - 00:32
nokh Закончил вчерне свой труд, конструктивная критика ... 6.12.2009 - 11:31
DrgLena Nokh, спасибо большое, хорошая работа, многое стан... 7.12.2009 - 04:05
Игорь Цитата(nokh @ 6.12.2009 - 11:31) Зак... 7.12.2009 - 08:03
nokh Как показал анализ, необходимых и достаточных мер ... 7.12.2009 - 08:34
Игорь Цитата(nokh @ 7.12.2009 - 08:34) Все... 7.12.2009 - 08:45
nokh Цитата(Игорь @ 7.12.2009 - 10:45) Не... 7.12.2009 - 09:03
Игорь Мне очень понравились формулы nokh. Если считать п... 7.12.2009 - 18:33
Игорь Цитата(Игорь @ 7.12.2009 - 18:33) Вы... 8.12.2009 - 12:52
DrgLena Цитата(Игорь @ 7.12.2009 - 08:03) Уж... 7.12.2009 - 12:41
DrgLena Отличная работа, как говорят математики, что и сле... 7.12.2009 - 19:49
Pinus Не берусь утверждать, но может быть, когда берется... 8.12.2009 - 15:33
nokh >Игорь. Не знаю можно ли эти меры считать эквив... 8.12.2009 - 16:09
avorotniak Думаю, что одной из причин различий в формулах рас... 8.12.2009 - 19:57
DrgLena Мне удалось найти один из двух источников на котор... 8.12.2009 - 21:50
Игорь Цитата(DrgLena @ 8.12.2009 - 22:50) ... 9.12.2009 - 07:32
DrgLena Речь шла о диагностике, обязательно ли для получен... 9.12.2009 - 13:31
avorotniak [quote name='DrgLena' date='9.12.2009 ... 10.12.2009 - 02:20
Игорь Только факты.
1. Chattejee, Hadi, 1988.
С. 117, ф... 10.12.2009 - 07:22
Pinus Возникла такая проблема.
Простая линейная регресси... 2.02.2010 - 10:37
Игорь Цитата(Pinus @ 2.02.2010 - 11:37) Во... 2.02.2010 - 17:02

Pinus Цитата(Игорь @ 3.02.2010 - 00:02) А ... 3.02.2010 - 03:06
nokh Цитата(Pinus @ 2.02.2010 - 12:37) Во... 2.02.2010 - 18:17
Игорь Цитата(Pinus @ 3.02.2010 - 04:11) Ес... 3.02.2010 - 12:12
Pinus Nokh, в Вашем конспекте по выбросам и влияющим наб... 4.03.2010 - 01:38
nokh В конспекте все основные ссылки были. Пока нет вре... 6.03.2010 - 19:49![]() ![]() |