Здравствуйте, гость ( Вход | Регистрация )
11.11.2009 - 02:55
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
|
![]() |
![]() |
![]() |
12.11.2009 - 05:46
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183 |
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.
Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами). По поводу влияющих наблюдений (influential observations). Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана). Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0. Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ... Удачи! ![]() Андрей
|
|
|
![]() |
![]() |
14.11.2009 - 08:10
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0. Думаю для нахождения критического значения воспользоваться таблицами Большева, Смирнова (процентные точки F-распределения). В них F(Q, v1, v2), где Q задается в процентах. Значит следует брать Q не 0,5, а 50. Я правильно понимаю? В таблице для нахождения значений функции между предложенными градациями предлагается использовать квадратичную гармоническую интерполяцию. Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы? Если не затруднит, из какого источника Вы приводите такое нахождение критического значения статистики Кука? Я не могу в русских книгах по регрессионному анализу найти про критерий Кука совсем ничего. |
|
|
![]() |
![]() |
Pinus Выбросы и влияющие наблюдения 11.11.2009 - 02:55
DrgLena Я использую статистику критерия Граббса, если про... 11.11.2009 - 14:58
Pinus Мне для регрессии. В Statistica предлагается два к... 12.11.2009 - 02:14
Pinus Цитата(avorotniak @ 12.11.2009 - 12... 16.11.2009 - 15:58
avorotniak Цитата(Pinus @ 16.11.2009 - 15:58) А... 16.11.2009 - 22:06
nokh > Pinus. Посмотрел в нескольких русскоязычных к... 12.11.2009 - 17:28
avorotniak Сразу хотелось бы уточнить, что дистанция Махалано... 12.11.2009 - 21:50
nokh Большое спасибо, посмотрю. Кому нужно: http://phot... 12.11.2009 - 22:24
Pinus Avorotniak, большое спасибо за ответ!
Если не ... 13.11.2009 - 14:24
avorotniak Вопрос:
Регрессия простая нелинейная (полином 2-го... 13.11.2009 - 17:37
Pinus nokh, не встречали ли где про Кука? При каких усло... 13.11.2009 - 14:42
avorotniak Извините, небольшая поправка к следующей фразе:
О... 13.11.2009 - 18:16
DrgLena Цитата(Pinus @ 14.11.2009 - 08:10) Н... 14.11.2009 - 14:24
avorotniak Правильно по поводу перцентиля 50, однако поищите ... 14.11.2009 - 14:28
Pinus DrgLena, спасибо!
Андрей, тоже спасибо! Ск... 15.11.2009 - 02:30
Pinus Андрей, получается, что статистика Кука и для выбр... 15.11.2009 - 14:04
Pinus Кто может подсказать, как правильно перевести Lint... 15.11.2009 - 16:55
avorotniak Интересный и глубокий вопрос.
Хотелось бы еще раз ... 15.11.2009 - 17:10
Pinus Цитата(avorotniak @ 16.11.2009 - 00... 16.11.2009 - 05:44
avorotniak Абсолютно согласен. Извините за дезинформацию. 16.11.2009 - 07:34
Pinus Вообще книги на русском, в которых в той или иной ... 16.11.2009 - 15:53
Pinus Как понять Deleted Residual (удаленные остатки)? Э... 17.11.2009 - 17:09
nokh Цитата(Pinus @ 17.11.2009 - 20:09) К... 18.11.2009 - 18:15
avorotniak [quote name='nokh' date='18.11.2009 - ... 18.11.2009 - 22:18
Игорь Цитата(nokh @ 18.11.2009 - 19:15) Лу... 30.11.2009 - 10:13
Pinus Цитата(Игорь @ 30.11.2009 - 17:13) С... 30.11.2009 - 16:58
nokh Цитата(Игорь @ 30.11.2009 - 12:13) Н... 30.11.2009 - 19:11
Игорь Цитата(nokh @ 30.11.2009 - 20:11) ст... 30.11.2009 - 20:58
nokh Цитата(Игорь @ 30.11.2009 - 22:58) М... 30.11.2009 - 21:43
nokh Сегодня исправил описку в своём предыдущем посте -... 19.11.2009 - 15:06
Pinus Цитата(nokh @ 19.11.2009 - 22:06) В ... 23.11.2009 - 12:48
nokh Цитата(Pinus @ 23.11.2009 - 15:48) П... 25.11.2009 - 05:45
Green Leverage - видела перевод как "воздействие... 19.11.2009 - 15:20
DoctorStat Я не специалист по выбросам, но с точки зрения ста... 19.11.2009 - 16:16
avorotniak Пересчитал вручную стандартизированые остатки. Сог... 19.11.2009 - 16:50
avorotniak DoctorStat затронул очень интересную тему.
Обрати... 19.11.2009 - 17:19
Pinus Цитата(avorotniak @ 20.11.2009 - 00... 19.11.2009 - 17:55
avorotniak Цитата(Pinus @ 19.11.2009 - 17:55) Я... 19.11.2009 - 19:05
Pinus Цитата(avorotniak @ 20.11.2009 - 02... 22.01.2010 - 05:43
Pinus Позвольте внести мой скромный вклад.
Вчера тоже ра... 19.11.2009 - 17:36
Pinus nokh, развейте мои дилетантские соображения. Не по... 20.11.2009 - 13:58
nokh Пока не готов ответить, ещё почитаю. 20.11.2009 - 15:50
nokh Вот что по этому поводу есть в википедии:
"..... 23.11.2009 - 08:08
Pinus Цитата(nokh @ 23.11.2009 - 15:08) Т.... 23.11.2009 - 12:44
Pinus Спасибо! 25.11.2009 - 13:14
Игорь По рассматриваемой теме очень рекомендую источник:... 29.11.2009 - 19:50
Игорь 1. В книге Дэйвида "Порядковые статистики... 1.12.2009 - 08:55
Pinus Цитата(Игорь @ 1.12.2009 - 15:55) Ка... 3.12.2009 - 07:57

Игорь Цитата(Pinus @ 3.12.2009 - 07:57) Иг... 3.12.2009 - 08:02
Pinus Игорь, я просчитал. С Вашим примером сошлось. Но п... 5.12.2009 - 01:36
Игорь Цитата(Pinus @ 5.12.2009 - 01:36) Иг... 5.12.2009 - 12:36
DrgLena Цитата(Игорь @ 1.12.2009 - 09:55) а ... 1.12.2009 - 12:29
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 1.12.2009 - 12:55
Pinus Цитата(DrgLena @ 1.12.2009 - 19:29) ... 3.12.2009 - 08:50
Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 3.12.2009 - 10:48
DrgLena Игорь, за AtteStat ВАМ не просто большое спасибо, ... 1.12.2009 - 13:34
Pinus Игорь, спасибо за ссылки! 3.12.2009 - 12:21
Pinus Игорь, что-то совсем другие цифры у меня получаютс... 3.12.2009 - 14:35
Игорь Цитата(Pinus @ 3.12.2009 - 15:35) Иг... 3.12.2009 - 18:44
Pinus Цитата(Игорь @ 4.12.2009 - 01:44) Ко... 4.12.2009 - 12:01
Игорь Цитата(Pinus @ 4.12.2009 - 13:01) В ... 4.12.2009 - 13:27
DrgLena Игорь, если готовите дополнение к AtteStat, посмо... 3.12.2009 - 15:37
nokh Рассмотрение классического примера об ирисах Фишер... 3.12.2009 - 20:05
Pinus Игорь, если не трудно дайте ссылку откуда вы брали... 4.12.2009 - 14:47
Игорь Цитата(Pinus @ 4.12.2009 - 15:47) Иг... 4.12.2009 - 21:02
Pinus Nokh, попробуйте на своем софте (в программах, кот... 5.12.2009 - 02:06
nokh Ирисы считать не хочу: поскольку использовать OLS-... 5.12.2009 - 02:44
DrgLena Задачка имеет два решения относительно анализа ост... 5.12.2009 - 17:29
Игорь Цитата(DrgLena @ 5.12.2009 - 17:29) ... 5.12.2009 - 21:11
Pinus Цитата(DrgLena @ 6.12.2009 - 00:29) ... 6.12.2009 - 00:32
nokh Закончил вчерне свой труд, конструктивная критика ... 6.12.2009 - 11:31
DrgLena Nokh, спасибо большое, хорошая работа, многое стан... 7.12.2009 - 04:05
Игорь Цитата(nokh @ 6.12.2009 - 11:31) Зак... 7.12.2009 - 08:03
nokh Как показал анализ, необходимых и достаточных мер ... 7.12.2009 - 08:34
Игорь Цитата(nokh @ 7.12.2009 - 08:34) Все... 7.12.2009 - 08:45
nokh Цитата(Игорь @ 7.12.2009 - 10:45) Не... 7.12.2009 - 09:03
Игорь Мне очень понравились формулы nokh. Если считать п... 7.12.2009 - 18:33
Игорь Цитата(Игорь @ 7.12.2009 - 18:33) Вы... 8.12.2009 - 12:52
DrgLena Цитата(Игорь @ 7.12.2009 - 08:03) Уж... 7.12.2009 - 12:41
DrgLena Отличная работа, как говорят математики, что и сле... 7.12.2009 - 19:49
Pinus Не берусь утверждать, но может быть, когда берется... 8.12.2009 - 15:33
nokh >Игорь. Не знаю можно ли эти меры считать эквив... 8.12.2009 - 16:09
avorotniak Думаю, что одной из причин различий в формулах рас... 8.12.2009 - 19:57
DrgLena Мне удалось найти один из двух источников на котор... 8.12.2009 - 21:50
Игорь Цитата(DrgLena @ 8.12.2009 - 22:50) ... 9.12.2009 - 07:32
DrgLena Речь шла о диагностике, обязательно ли для получен... 9.12.2009 - 13:31
avorotniak [quote name='DrgLena' date='9.12.2009 ... 10.12.2009 - 02:20
Игорь Только факты.
1. Chattejee, Hadi, 1988.
С. 117, ф... 10.12.2009 - 07:22
Pinus Возникла такая проблема.
Простая линейная регресси... 2.02.2010 - 10:37
Игорь Цитата(Pinus @ 2.02.2010 - 11:37) Во... 2.02.2010 - 17:02

Pinus Цитата(Игорь @ 3.02.2010 - 00:02) А ... 3.02.2010 - 03:06
nokh Цитата(Pinus @ 2.02.2010 - 12:37) Во... 2.02.2010 - 18:17
Pinus Я вот вчера размышлял, по всей видимости тут в дру... 3.02.2010 - 03:11
Игорь Цитата(Pinus @ 3.02.2010 - 04:11) Ес... 3.02.2010 - 12:12
nokh Цитата(Pinus @ 3.02.2010 - 05:11) Мы... 3.02.2010 - 20:28
Pinus Цитата(nokh @ 4.02.2010 - 03:28) А з... 4.02.2010 - 01:59
Pinus Nokh, в Вашем конспекте по выбросам и влияющим наб... 4.03.2010 - 01:38
nokh В конспекте все основные ссылки были. Пока нет вре... 6.03.2010 - 19:49![]() ![]() |