Здравствуйте, гость ( Вход | Регистрация )
11.11.2009 - 02:55
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
|
![]() |
![]() |
![]() |
17.11.2009 - 17:09
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?
|
|
|
![]() |
![]() |
18.11.2009 - 18:15
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются? Тема оказалась интересной и не менее сложной. Анализ интернет-ресурсов в течение нескольких последних вечеров позволил выявить насколько всё запущено. Анализ остатков и влияющих наблюдений в существующем виде сложился в середине 1980-х гг, но (1) до сих пор нет единственного источника, где бы все эти меры были понятно описаны. Там где описаны все - широко используется векторно-матричная форма записи без подробностей, где есть подробные описания с примерами - есть только малое число мер. Сводить информацию воедино из разных источников мешает (2) отсутствие устоявшихся символьных обозначений и (3) повсеместные ошибки в формулах: как в книгах, так и в статьях и интернет-ресурсах. (4) Компьютерные программы для одних и тех же мер могут давать разные значения. (5) На русский язык многие термины ещё не переведены (поэтому, думаю, мы вправе использовать свои переводы приводя в скобках англ. термины). На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл. Если остаток разделить на стандартное отклонение ошибки регрессии (корень из среднего квадрата MSe ошибки регрессии), то получим стандартизованный остаток. Он показывает насколько наблюдение выделяется своим остатком от других, но много это или мало - мы решаем сами. Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток, который имеет t-распределение Стьюдента (если исходные данные были нормально распределены). Это позволяет оценить статистическую значимость выброса. Если посмотреть таблицу t-распределения, то видно, что при 5%-ном уровне значимости для большинства степеней свободы критическое значение близко к 2. На основании этого рекомендуют обращать внимание на стьюдентизированные остатки более 2 как на подозрительные - 95% из них являются выбросами. Однако есть одна сложность - в зависимости от своего расположения выброс может оказывать столь сильное искажающее влияние на подгонку всей модели, что его остаток (в т.ч. стьюдентизированный) будет относительно невелик. Поэтому для более надёжной детекции выброса при оценке дисперсии рассеяния наблюдений относительно линии регресии (МS ошибки) тестируемое на выброс наблюдение исключается из расчётов - отсюда и "Deleted". Т.о. теряется одна степень свободы, но получается независимая оценка дисперсии ошибки - независимая от влияния потенциального выброса. Когда выброс делится на соответствующую такой независимой дисперсии стандартную ошибку получается стьюдентизированный Deleted Residual. Поскольку в русском языке слово "удалённый" имеет ещё и значение "отдалённый" я бы перевел его как "исключённый стьюдентизированный остаток" или "стьюдентизированный остаток с удалением". Варианты принимаются Для упражнений предлагаю следующий набор данных: X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12 Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10. Рассчитанные стюдентизированные остатки и, особенно, стьюдентизированные остатки с удалением позволили признать наблюдение # 4 выбросом. Значимость для дистанции Кука посчитаю, но ее величина позволяет отнести к выбросу скорее наблюдение # 10 (0,7296), чем # 4 (0,5904), хотя даже на глаз видно что дело обстоит наоборот. Думаю и в множественной регресии дистанция Кука проявит такие же свойства и для детекции выбросов лучше ориентироваться на стьюдентизированные остатки. Оценка влияющих наблюдений - совсем другое дело (именно точка 10 во многом (на 29,6%) задаёт направление регрессионой линии), но я пока не разобрался что даёт обнаружение наиболее влияющих наблюдений на практике. PS Удивительно, но программа Statistica не выдаёт ни leverage (показатель воздействия?), ни стьюдентизированных остатков, ни мер влияния кроме дистанций Кука и Махаланобиса. А если делать анализ не через модуль множественной регресссии, так анализ остатков ещё слабее. Любимый мной KyPlot (v.2.15) и то считает больше, хотя терминологическая путаница и здесь присутствует. Сообщение отредактировал nokh - 19.11.2009 - 14:00 |
|
|
![]() |
![]() |
30.11.2009 - 10:13
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток Не получим. Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
30.11.2009 - 19:11
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Не получим... Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1). Сообщение отредактировал nokh - 30.11.2009 - 19:13 |
|
|
![]() |
![]() |
Pinus Выбросы и влияющие наблюдения 11.11.2009 - 02:55
DrgLena Я использую статистику критерия Граббса, если про... 11.11.2009 - 14:58
Pinus Мне для регрессии. В Statistica предлагается два к... 12.11.2009 - 02:14
avorotniak Выброс (outlier) определяется отдаленностью отдель... 12.11.2009 - 05:46
Pinus Цитата(avorotniak @ 12.11.2009 - 13... 14.11.2009 - 08:10
Pinus Цитата(avorotniak @ 12.11.2009 - 12... 16.11.2009 - 15:58
avorotniak Цитата(Pinus @ 16.11.2009 - 15:58) А... 16.11.2009 - 22:06
nokh > Pinus. Посмотрел в нескольких русскоязычных к... 12.11.2009 - 17:28
avorotniak Сразу хотелось бы уточнить, что дистанция Махалано... 12.11.2009 - 21:50
nokh Большое спасибо, посмотрю. Кому нужно: http://phot... 12.11.2009 - 22:24
Pinus Avorotniak, большое спасибо за ответ!
Если не ... 13.11.2009 - 14:24
avorotniak Вопрос:
Регрессия простая нелинейная (полином 2-го... 13.11.2009 - 17:37
Pinus nokh, не встречали ли где про Кука? При каких усло... 13.11.2009 - 14:42
avorotniak Извините, небольшая поправка к следующей фразе:
О... 13.11.2009 - 18:16
DrgLena Цитата(Pinus @ 14.11.2009 - 08:10) Н... 14.11.2009 - 14:24
avorotniak Правильно по поводу перцентиля 50, однако поищите ... 14.11.2009 - 14:28
Pinus DrgLena, спасибо!
Андрей, тоже спасибо! Ск... 15.11.2009 - 02:30
Pinus Андрей, получается, что статистика Кука и для выбр... 15.11.2009 - 14:04
Pinus Кто может подсказать, как правильно перевести Lint... 15.11.2009 - 16:55
avorotniak Интересный и глубокий вопрос.
Хотелось бы еще раз ... 15.11.2009 - 17:10
Pinus Цитата(avorotniak @ 16.11.2009 - 00... 16.11.2009 - 05:44
avorotniak Абсолютно согласен. Извините за дезинформацию. 16.11.2009 - 07:34
Pinus Вообще книги на русском, в которых в той или иной ... 16.11.2009 - 15:53
avorotniak [quote name='nokh' date='18.11.2009 - ... 18.11.2009 - 22:18
Pinus Цитата(Игорь @ 30.11.2009 - 17:13) С... 30.11.2009 - 16:58
Игорь Цитата(nokh @ 30.11.2009 - 20:11) ст... 30.11.2009 - 20:58
nokh Цитата(Игорь @ 30.11.2009 - 22:58) М... 30.11.2009 - 21:43
nokh Сегодня исправил описку в своём предыдущем посте -... 19.11.2009 - 15:06
Pinus Цитата(nokh @ 19.11.2009 - 22:06) В ... 23.11.2009 - 12:48
nokh Цитата(Pinus @ 23.11.2009 - 15:48) П... 25.11.2009 - 05:45
Green Leverage - видела перевод как "воздействие... 19.11.2009 - 15:20
DoctorStat Я не специалист по выбросам, но с точки зрения ста... 19.11.2009 - 16:16
avorotniak Пересчитал вручную стандартизированые остатки. Сог... 19.11.2009 - 16:50
avorotniak DoctorStat затронул очень интересную тему.
Обрати... 19.11.2009 - 17:19
Pinus Цитата(avorotniak @ 20.11.2009 - 00... 19.11.2009 - 17:55
avorotniak Цитата(Pinus @ 19.11.2009 - 17:55) Я... 19.11.2009 - 19:05
Pinus Цитата(avorotniak @ 20.11.2009 - 02... 22.01.2010 - 05:43
Pinus Позвольте внести мой скромный вклад.
Вчера тоже ра... 19.11.2009 - 17:36
Pinus nokh, развейте мои дилетантские соображения. Не по... 20.11.2009 - 13:58
nokh Пока не готов ответить, ещё почитаю. 20.11.2009 - 15:50
nokh Вот что по этому поводу есть в википедии:
"..... 23.11.2009 - 08:08
Pinus Цитата(nokh @ 23.11.2009 - 15:08) Т.... 23.11.2009 - 12:44
Pinus Спасибо! 25.11.2009 - 13:14
Игорь По рассматриваемой теме очень рекомендую источник:... 29.11.2009 - 19:50
Игорь 1. В книге Дэйвида "Порядковые статистики... 1.12.2009 - 08:55
Pinus Цитата(Игорь @ 1.12.2009 - 15:55) Ка... 3.12.2009 - 07:57

Игорь Цитата(Pinus @ 3.12.2009 - 07:57) Иг... 3.12.2009 - 08:02
Pinus Игорь, я просчитал. С Вашим примером сошлось. Но п... 5.12.2009 - 01:36
Игорь Цитата(Pinus @ 5.12.2009 - 01:36) Иг... 5.12.2009 - 12:36
DrgLena Цитата(Игорь @ 1.12.2009 - 09:55) а ... 1.12.2009 - 12:29
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 1.12.2009 - 12:55
Pinus Цитата(DrgLena @ 1.12.2009 - 19:29) ... 3.12.2009 - 08:50
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 3.12.2009 - 10:48
DrgLena Игорь, за AtteStat ВАМ не просто большое спасибо, ... 1.12.2009 - 13:34
Pinus Игорь, спасибо за ссылки! 3.12.2009 - 12:21
Pinus Игорь, что-то совсем другие цифры у меня получаютс... 3.12.2009 - 14:35
Игорь Цитата(Pinus @ 3.12.2009 - 15:35) Иг... 3.12.2009 - 18:44
Pinus Цитата(Игорь @ 4.12.2009 - 01:44) Ко... 4.12.2009 - 12:01
Игорь Цитата(Pinus @ 4.12.2009 - 13:01) В ... 4.12.2009 - 13:27
DrgLena Игорь, если готовите дополнение к AtteStat, посмо... 3.12.2009 - 15:37
nokh Рассмотрение классического примера об ирисах Фишер... 3.12.2009 - 20:05
Pinus Игорь, если не трудно дайте ссылку откуда вы брали... 4.12.2009 - 14:47
Игорь Цитата(Pinus @ 4.12.2009 - 15:47) Иг... 4.12.2009 - 21:02
Pinus Nokh, попробуйте на своем софте (в программах, кот... 5.12.2009 - 02:06
nokh Ирисы считать не хочу: поскольку использовать OLS-... 5.12.2009 - 02:44
DrgLena Задачка имеет два решения относительно анализа ост... 5.12.2009 - 17:29
Игорь Цитата(DrgLena @ 5.12.2009 - 17:29) ... 5.12.2009 - 21:11
Pinus Цитата(DrgLena @ 6.12.2009 - 00:29) ... 6.12.2009 - 00:32
nokh Закончил вчерне свой труд, конструктивная критика ... 6.12.2009 - 11:31
DrgLena Nokh, спасибо большое, хорошая работа, многое стан... 7.12.2009 - 04:05
Игорь Цитата(nokh @ 6.12.2009 - 11:31) Зак... 7.12.2009 - 08:03
nokh Как показал анализ, необходимых и достаточных мер ... 7.12.2009 - 08:34
Игорь Цитата(nokh @ 7.12.2009 - 08:34) Все... 7.12.2009 - 08:45
nokh Цитата(Игорь @ 7.12.2009 - 10:45) Не... 7.12.2009 - 09:03
Игорь Мне очень понравились формулы nokh. Если считать п... 7.12.2009 - 18:33
Игорь Цитата(Игорь @ 7.12.2009 - 18:33) Вы... 8.12.2009 - 12:52
DrgLena Цитата(Игорь @ 7.12.2009 - 08:03) Уж... 7.12.2009 - 12:41
DrgLena Отличная работа, как говорят математики, что и сле... 7.12.2009 - 19:49
Pinus Не берусь утверждать, но может быть, когда берется... 8.12.2009 - 15:33
nokh >Игорь. Не знаю можно ли эти меры считать эквив... 8.12.2009 - 16:09
avorotniak Думаю, что одной из причин различий в формулах рас... 8.12.2009 - 19:57
DrgLena Мне удалось найти один из двух источников на котор... 8.12.2009 - 21:50
Игорь Цитата(DrgLena @ 8.12.2009 - 22:50) ... 9.12.2009 - 07:32
DrgLena Речь шла о диагностике, обязательно ли для получен... 9.12.2009 - 13:31
avorotniak [quote name='DrgLena' date='9.12.2009 ... 10.12.2009 - 02:20
Игорь Только факты.
1. Chattejee, Hadi, 1988.
С. 117, ф... 10.12.2009 - 07:22
Pinus Возникла такая проблема.
Простая линейная регресси... 2.02.2010 - 10:37
Игорь Цитата(Pinus @ 2.02.2010 - 11:37) Во... 2.02.2010 - 17:02

Pinus Цитата(Игорь @ 3.02.2010 - 00:02) А ... 3.02.2010 - 03:06
nokh Цитата(Pinus @ 2.02.2010 - 12:37) Во... 2.02.2010 - 18:17
Pinus Я вот вчера размышлял, по всей видимости тут в дру... 3.02.2010 - 03:11
Игорь Цитата(Pinus @ 3.02.2010 - 04:11) Ес... 3.02.2010 - 12:12
nokh Цитата(Pinus @ 3.02.2010 - 05:11) Мы... 3.02.2010 - 20:28
Pinus Цитата(nokh @ 4.02.2010 - 03:28) А з... 4.02.2010 - 01:59
Pinus Nokh, в Вашем конспекте по выбросам и влияющим наб... 4.03.2010 - 01:38
nokh В конспекте все основные ссылки были. Пока нет вре... 6.03.2010 - 19:49![]() ![]() |