Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Я использую статистику критерия Граббса, если просто для выбросов. Если подходит дам подробности. Или вам для регрессии?
Мне для регрессии. В Statistica предлагается два критерия (критерий Кука и расстояние Махаланобиса). Как их рассчитывать в программе вроде бы понятно, а как и с чем сравнивать (как обычно делается при оценивании) не ясно. В книжках, которые просмотрел на этот счет, пока только общие фразы и разные субъективные подходы.
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.
Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами).
По поводу влияющих наблюдений (influential observations).
Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана).
Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0.
Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ...
Удачи!
> Pinus. Посмотрел в нескольких русскоязычных книжках - тоже ничего не понравилось. В дискриминантном анализе расстояние Махаланобиса считается не для отдельных значений, а для групповых центроидов, а как? - раньше не вникал. Насколько сейчас понял из описания в википедии, геометрически расстояние Махалонобиса это - расстояние от наблюдения (на рисунке - выброс) до центроида корреляционного гипероблака r, отнесённое к его диаметру d в этом направлении. Из рисунка видно, что ни по одному признаку в отдельности выброс не обнаруживается, тогда как при одновременном учёте нескольких признаков (здесь - двух) он очевиден. Непонятно пока как рассчитывается диаметр эллипсоида, т.к. это - не есть диаметр доверительного эллипса. + само критическое значение есть величина эвристическая.
>avorotniak. Спасибо за разъяснения, стало понятнее с этими мерами. Не поясните ли ещё по поводу расчёта диаметра?
Сразу хотелось бы уточнить, что дистанция Махаланобиса обычно используется в многовариантном анализе (не при линейной регрессии). Это своего рода стандартизированная дистанция от вектора наблюдений до вектора средних значений (стандартизация проводится с помощью ковариационной матрицы).
Di = sqrt(t(xi - mean(x))*solve(S)*(xi ? mean(x)))
Для детекции выбросов необходимо подсчитать статистику D для всех наблюдений. После чего можно предположить, что статистика D имеет распределение хи-квадрат со степенями свободы равными количеству переменных (это поможет найти критические значения).
Более подробную информацию по определению выбросов в многомерном пространстве можно найти, например, в книге Methods of Multivariate Analysis ALVIN C. RENCHER (стр.101).
Важно отметить, что для подсчета статистики D желательно использовать робастные оценки для положения и дисперсии-корреляции.
В отношении осей указанного эллипсоида:
Их направление задается собственными векторами, а длина полуосей пропорциональна соответствующим собственным значениям.
Большое спасибо, посмотрю. Кому нужно: http://photoshopia.su/26806-methods-of-multivariate-analysis-besplatno.html
Avorotniak, большое спасибо за ответ!
Если не затруднит, посоветуйте:
1. Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.
2. Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?
3. Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?
nokh, не встречали ли где про Кука? При каких условиях и при каких предпосылках применяется метод, техника получения результатов и их интерпретация? Все остальное, что для продвинутых математиков и на аглицком языке, мне пока не поднять.
Вопрос:
Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.
Ответ
Очень важный момент: линейность регрессии определяется ее параметрами (коэффициентами), а не переменными. Поэтому, полиномиальная регрессия все же остается линейной, со всеми вытекающими последствиями. Упомянутый Вами график Predicted vs. Residual Scores, по-видимому, является графиком стандартизированных остатков (разделенных на свое стандартное отклонение). В принципе, нет проблем, даже лучше для детекции выбросов.
Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки ? это разница между наблюдением и ?рredicted? в квадрате:
квадрат (y ? y fit);
Вопрос:
Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?
Ответ:
Полиномиальная регрессия - это линейная регрессия, поэтому можете использовать статистику Кука. Кстати, для детекции влияющих наблюдений, также можете использовать DF FIT, DF BETA ? поищите в своей программе.
На графике остатков основное внимание обращается на гомогенность облака, эта гомогенность свидетельствует об однородности дисперсий остатков (что тесно связано с нормальностью). Проверка на нормальность обычно проводится с помощью QQ plot.
Вопрос:
Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?
Ответ:
В принципе, правильно. Однако, учитывая, что все более менее нормальные статистические программы без труда проводят регрессионную диагностику (графики остатков, определение влияющих наблюдений и многое другое), думаю, что стоит, на всякий случай, убедится или глаз нас не обманывает.
Важное замечание: для оценки коэфициентов регрессии (если модель используется для предсказания) распределение остатков не очень важно, так как при разработке теории для такой оценки не используется предположение о нормальном распределении ошибок. Однако, если Вы хотите провести инференцию (найти доверительные интервалы для коэфициентов), тогда важно убедится в том, что остатки не сильно отклоняются от нормального распределения (оценка такого отклонения довольно субъективна, так как, понятие нормальности используется для разработки теорий, на практике она не существует).
Извините, небольшая поправка к следующей фразе:
Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки это разница между наблюдением и рredicted? в квадрате:
квадрат (y ? y fit);
Остатки это разница между наблюдением и предсказанным значением. Квадрат из другой оперы (сумма квадратов остатков).
Правильно по поводу перцентиля 50, однако поищите в Вашем софте, должно быть.
По поводу статистики Кука и других мер для влияющих наблюдений войдите в bib.tiera.ru, введите автора Rawlings и скачайте книгу по регрессионному анализу. На странице 362 этой книги найдете все ответы на интересующие Вас ответы.
Удачи!
Андрей
DrgLena, спасибо!
Андрей, тоже спасибо! Скачал книгу, попробую несколько страниц перевести.
Андрей, получается, что статистика Кука и для выбросов, и для влияющих наблюдений определяется одинаково, и критическое значение статистики тоже?
Кто может подсказать, как правильно перевести Linthurst Data? В словарях (в т.ч. математическом) не могу найти.
Интересный и глубокий вопрос.
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.
Расстояние Кука учитывает 2 фактора leverage (расстояние от цента облака, также иногда его называют расстоянием Махаланобиса) и величину остатка.
На практике, выбросы и влияющие наблюдение определяются раздельно, однако, в принципе, можно использовать расстояние Кука для детекции выбросов, хотя это не совсем правильно с концептуальной точки зрения.
В отношении Linthurst Data
Rick Linthurst (1979) из North Carolina State University использовал эти данные для своей диссертации, то есть эти данные взяты из диссертации Rick Linthurst.
Абсолютно согласен. Извините за дезинформацию.
Вообще книги на русском, в которых в той или иной степени рассматривается проблема выбросов, есть, но там неизменно речь идет о выбросах вариационного ряда. Нашел, например, такие:
Закс Л. Статистическое оценивание. - М.: Статистика, 1976.
Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Ч.1, 1980.
Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica, 2002.
О выбросах, как об остатках регрессии, нашел только в двухтомнике Дрейпер Н., Смит Г. Прикладной регрессионный анализ, том 1, 1986. Очень короткая информация, где выброс определяется так:
(Выбросом среди остатков называется остаток, который по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений) ? том 1, с. 199. Там есть ссылка на статью Anscombe F. J. Rejection of outliers. ? Technometrics, 1960, 2, p. 123-147.
Есть инфа, что в книге Химмельблау Д. Анализ процессов статистическими методами. - М.: Мир, 1973. - 957 с. тоже есть что-то о выбросах. В инете ее не могу найти, если у кого есть, гляньте, пожалуйста, о чем там речь (о регрессии или о вариационном ряде). Судя по названию, может быть и о регрессии.
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?
[quote name='nokh' date='18.11.2009 - 18:15' post='8915']
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл.
Принцип определения дистанции Кука, DFFIT, DFBeta и CovRatio одинаков: удаляем наблюдение и считаем насколько изменяются параметры регрессии (по-английски такой метод называется leave-one-out). Leverage это то же самое, что и расстояние Махаланобиса. На русский язык я бы перевел это слово как рычаг. Для того, чтобы отдельное наблюдение значительно влияло на регрессионные коэфициенты оно должно иметь большой остаток и длинный рычаг (расстояние от центра облака).
Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.
Вот что дает программа R:
round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)
0.0004 0.0173 0.0499 0.5904 0.0062 0.0277 0.0045 0.0368 0.0068 0.7296
round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)
0.0436 -0.3522 -0.7438 6.7472 -0.2956 -0.6818 -0.2565 -0.6551 -0.2287 1.0048
round(rstandard(g),4) Стандартизированные остатки (более 1)
0.0466 -0.3732 -0.7655 2.6332 -0.3140 -0.7058 -0.2730 -0.6798 -0.2436 1.0042
round(hatvalues(g),4) Рычаги или расстояние Махаланобиса оно же leverage (критическое значение 2р/n, 0,4)
0.2735 0.1992 0.1455 0.1455 0.1125 0.1001 0.1084 0.1373 0.1868 0.5913
round(dffits(g),4) DFFIT (критическое значение 2*sqrt(p/n), для нашего примера 0,9)
0.0267 -0.1756 -0.3069 2.7843 -0.1052 -0.2274 -0.0894 -0.2613 -0.1096 1.2087
Определение влияющих наблюдений служит для лучшей подгонки модели (model fitting). Исключаем эти наблюдения и проводим наново оценку модели. Тем самым снижаем ошибку предсказания.
Сегодня исправил описку в своём предыдущем посте - вместо влияющих переменных конечно нужно было влияющие наблюдения. В эконометрике встретил "влиятельные наблюдения", что ближе к сути: влияют все, но не все из них влиятельные. Хорошей возможностью увидеть профессиональный перевод порадовал PASW (SPSS 18), где отныне по желанию всё по-русски. Поэтому приведу переводы оттуда:
Influence Statistics - статистики влияния
Deleted residuals - удаленные остатки
Centered Leverage - разбалансировка (отличается от Leverage, пока не понял что это).
CovRatio - ковариационное отношение
С R - та же петрушка, что и с KyPlot, видимо по одной книге составляли алгоритмы. То что в них называется "стандартизованные остатки" на самом деле является стьюдентизированными остатками.С калькулятором это становится очевидным. Стандартизация - деление на стандартное отклонение, стьюдентизация - деление на стандартную ошибку. Поэтому деля остаток на ст. ошибку мы никак не можем получить стандартизованные остатки, - только стьюдентизированные. В R эти функции скорее всего в самой старой библиотеке mass, нужно поискать что-то посовременнее и скорее всего эконометрическое. А стандартизованные остатки для этого примера таковы:
0,0397 -0,3340 -0,7076 2,4341 -0,2959 -0,6695 -0,2578 -0,6314 -0,2197 0,6420
Именно эти значения выдают в качестве standardized residual и PASW, и Statistica, - и они правы. Аналогично со стьюдентизированными остатками в R и KyPlot, которые на самом деле являются стьюдентизированными удалёнными остатками (проверял всё вручную - совпадает с PASW и Statistica).
Leverage - видела перевод как "воздействие", "индекс воздействия"
Я не специалист по выбросам, но с точки зрения статистики, для выявления сильно отклоняющихся наблюдений нужно проверять 0-ю гипотезу "выбросов нет" против альтернативной гипотезы "выбросы есть". Т.е. забиваешь данные в программу с этим тестом, а она в качестве результата выдает сильно уклоняющиеся наблюдения. Если такой программы еще не придумали, то следовательно дело обстоит намного сложнее, чем кажется. Скорее всего, без знания функции распределения наблюдений, невозможно определить наличие выбросов.
Пересчитал вручную стандартизированые остатки. Согласен с nokh, спасибо. Доверяй, но проверяй.
По поводу расчета стандартизированных и стьюдентизированных остатков
residual / sigma это стандартизированный остаток
residual /(sigma*sqrt(1-leverage)) это стьюдентизированный остаток
Расстояние Махаланобиса и leverage определяют расстояние одного из наблюдений независимой переменной (фактора) до среднего арифметического этой переменной. То есть, концептуально, они измеряют одну и ту же меру, однако отличаются в своих масштабах. Методы расчета этих величин различны: leverage это элементы на диагонали проекционной матрицы (значения leverage находятся в пределах от 0 до 1), а расстояние Махаланобиса это стандартизированное расстояние от наблюдения до среднего арифметического, где стандартизация проводится при помощи обратной ковариационной матрицы линейной регрессии XX (Х это матрица плана).
DoctorStat затронул очень интересную тему.
Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д.
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие.
Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами.
Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами.
Вот расчеты для нашего примера:
Standard Residual (стандартизованные остатки):
0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962
Deleted Residual (исключенные остатки):
0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000
Cook's Distance (дистанция Кука):
0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587
Mahalanobis Distance (дистанция Махаланобиса):
1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981
Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс).
Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее:
Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение.
(Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно;
s и σ - стандартное отклонение выборки и генеральной совокупности соответственно;
N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание).
Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая.
И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).
Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже.
По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема).
Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники.
nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?
Пока не готов ответить, ещё почитаю.
Вот что по этому поводу есть в википедии:
"...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope.
The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization."
Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю
Спасибо!
По рассматриваемой теме очень рекомендую источник:
Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998.
Найти можно на Гигапедии.
1. В книге Дэйвида "Порядковые статистики" (встречается в электронном виде) разъясняется суть стьюдентизации (с. 94). Он различает внешнюю стьюдентизацию и внутреннюю. Внешняя - это когда для стандартизации используется независимая от числителя среднеквадратичная оценка знаменателя. Внутренняя - когда оценка по исходной выборке. См. также книгу Кендалла, Стьюарта "Статистические выводы и связи" (в электронном виде встречается также), с. 170 и далее. Т.о., резюмируем: суть стьюдентизации (как способа стандартизации) - в независимости (!) оценок числителя и знаменателя. Следователь, т.н. внутренняя стьюдентизация - нонсенс. Это - просто стандартизация (с несколько иной оценкой знаменателя), а игры в терминологию только запутывают читателя и пользователя.
2. Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Перевод нехорош в обоих программах (почему - см. п. 1).
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный
Игорь, за AtteStat ВАМ не просто большое спасибо, но низкий поклон.
Игорь, спасибо за ссылки!
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?
Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно. Все три показателя взяты из популяции и т.о. ошибки любого признака из трёх, выбранного в качестве предиктора, а также двух из них вместе не могут рассматриваться ни малыми, ни находящимися под контролем исследователя. Более того эти ошибки будут, вероятно, ещё и коррелированы между собой и с ошибками отклика. Т.о. множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае, а в худшем - как вводящий в заблуждение. В пока соседней теме "Регрессионный анализ при ошибках в предикторах" выложил статью, где это подробно обсуждается.
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?
Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится?
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica.
Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам.
Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO):
Standardized Residual
-0,10202 (MedCallc)
-0,10202 (Statistica)
-0,10306 (NCSS)
-0,10306 (AtteStat)
-0.10202 (SPSS)
SPSS:
Standardized Residual -0.10202
Studentized Residual -0.10308
Studentized Deleted Residual -0.10273
NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027
StatXact
Standardised Residuals -0.102
Studentised Residuals -0.1031
Deleted Residuals -0.1027
Закончил вчерне свой труд, конструктивная критика приветствуется.
Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).
Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки.
Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно:
Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS).
Но эти программы считают не только эти, но и другие остатки.
По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения.
Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки.
Где эти программы берут формулы:
1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley.
2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall
Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости.
2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение.
3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности.
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили.
Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION
Мне очень понравились формулы nokh. Если считать по ним, все совпадает с "большими" программами, но не совпадает с Excel. Да и бог с ним.
Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения? Если делать так, то ни в одном наборе данных (и nokh, и Fisher iris) нет критических значений. Если же брать критическое значение для статистики Кука как у Коленикова (с. 40), т.е 4 / (n - k), то критическими оказываются точно те же наблюдения, что и выделяемые статистикой DFFITS:
- Для данных nokh - это наблюдения с номерами 4 и 10.
- Для данных Фишера - это наблюдения с номерами 123, 132, 135, 142, 145, 146.
Все вычисления выполнены в новой версии AtteStat. DrgLena, для данных Фишера (наблюдение 1) получается стандартизованное отклонение -0,102020725, стьдентизированное -0,102731401.
Пока не размещаю для скачивания - не решена указанная выше проблема со статистикой Кука.
Отличная работа, как говорят математики, что и следовало доказать. С Куком тоже разберемся мирным путем. Но есть еще одна заморочка, видно я вышла за рамки спортивного интереса, непонятен один слайд в ссыле. Можно ли получить эти самые остатки, уж и не знаю как их теперь назвать, самые главные, не пересчитывая модель?
http://www.biostat.umn.edu/~chap/F22-MLR-Diagnostics.pdf
Не берусь утверждать, но может быть, когда берется квантиль Фишера, то проверяются сугубо влияющие наблюдения (с большим плечом); в нескольких источниках дистанция Кука упоминалась исключительно для детекции влияющих наблюдений (не для выбросов). Критическое значение по Фишеру является большим, поскольку только влияющее наблюдение с большим плечом может дать такие значения дистанции Кука. Чтобы обеспечить такое значение для выброса это должно быть ну очень большое отклонение.
Если же использовать дистанцию Кука для выбросов, то формула критического значения как приводит Колеников.
>Игорь. Не знаю можно ли эти меры считать эквивалентами. Действительно обе объединяют стьюд. остаток и h. Но в DFFITS стьюдентизация внешняя, остаток соответственно больше: в моём примере для наблюдения 4 аж в 2,5 раза. Не исключаю, что поэтому и результаты DFFITS получаются контрастнее. Но ещё нужно с цифрами и литературой покопаться.
>DrgLena. Проверял сегодня формулу для стьюд. удалённого остатка из вашего источника на стр. 26 - не работает. Но исходное выражение для связи между MSEi и MSE(i) верное, из него и вывел формулу, в итоге все сошлось. Для получения правильной формулы нужно в приведённой выражение в квадратных скобках возвести в степень 0,5 (- невнимательность автора презентации). Т.о. действительно можно не пересчитывать многократно модель с удалённым i-тым наблюдением, а получить всё из исходной. Такой алгоритм нахождения стьюд. удалённых остатков получается вообще очень экономичным, правда точность страдает и нужно больше десятичных знаков задействовать. И ещё непонятно со степенями свободы: здесь авторы из n-p ещё вычитают единицу...
Думаю, что одной из причин различий в формулах расчета для влияющих наблюдений есть разделение стьюдентизации на внутреннюю и внешнюю.
С концептуальной точки зрения эти понятия кажутся довольно различными (при внешней стьюдентизации исключается одно наблюдение и нужно пересчитывать всю регрессию). Однако, можно математически показать связь между внутренней и внешней стьюдентизацией:
r (внешн) = r (внутр)*sqrt((n-p-1)/n-p-r(внутр)^2)
где n это количество наблюдений, р количество переменных, r (внешн) и r (внутр), соответственно, внешние и внутренние стьюдентизированные остатки.
S(i) = S*sqrt(n - p - r(внутр)^2/(n - p - 1))
где S(i) это mean square residuals без наблюдения i, а S - mean square residuals со всеми наблюдениями.
То есть, выбросив одно наблюдение, совсем не обязательно пересчитывать всю регрессию. Полное математическое доказательство этого факта не очень просто, его можно найти в книге C. Radhakrishna Rao, Helge Toutenburg ?Linear Models: Least Squares and Alternatives? на страницах 219-222.
Исходя из этого доказательства, можно найти связь между дистанцией Кука и DFFITS (Welsch-Kuh?s Distance)
Di = DFFITSi^2*(S(i)/p*S^2)
Где Di ? это дистанция Кука.
Если пренебречь разницей между S(i) и S, и принять как граничное значение для DFFITS, 2*sqrt(p/n), то граничным значением для дистанции Кука будет 4/n.
Из формулы, связывающей дистанцию Кука и DFFITS, можно сказать, что между ними имеется квадратическая зависимость, то есть дистанция Кука более чувствительна к изменениям остатков.
Мне удалось найти один из двух источников на которые ссылаются в документациях к статпакетам, там показана связь внешних и внутренних стьюдентизированных остатков, которую приводит avorotniak, формула 2.2.10, стр 20. Вопрос с df тоже снимается.
Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall
Прикрепить не удалось 16,6 Мгб pdf
Но можно забрать с разрешения самого автора
http://www.stat.umn.edu/rir/
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.
Пожелание к работе nokh, в конце работы подвести итог диагностики для пользователя, с обоснованием удаления выбросов и сравнение прогноза для конкретного значения х по первой и окончательной модели, чтобы было ясно зачем все эти многочисленные инструменты, которые для одновариантной регрессии являются явным перебором. Если на линии регрессии провести 95% ДИ, то 4 значение в него не войдет и его исключение приводит к R^2=0,94.
[quote name='DrgLena' date='9.12.2009 - 13:31' post='9081']
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.
Рад правильному пониманию не совсем четко изложенных мною рассуждений.
Только факты.
1. Chattejee, Hadi, 1988.
С. 117, формула (4.43). Распределение статистики (не Кука) следует F(a,k,n-k), где a=0,5.
С. 119, формула (4.44c). Статистика Кука.
С. 120. По аналогии с (4.43), т.е. бездоказательно (?), Кук предложил (1977, а предложил ли - см. п. 6 ниже) считать распределение статистики Кука также F(a,k,n-k). Далее Chattejee, Hadi доказано, что это не так.
Изложенное Chattejee, Hadi (1988) подчистую (номера формул только поменяли) списано Radhakrishna, Toutenburg, 1995 (с. 226).
2. Те же авторы (Chattejee, Hadi), 2006.
С. 104, формула (4.21). Статистика Кука. Ниже - распределение уже следует F(a,k,n-k).
3. Расчеты на ряде примеров (в том числе на данных nokh, 2009) свидетельствуют, что считая распределение F(a,k,n-k), влияющих наблюдений в природе не встречается (даже искусственно, к примеру, завысив одно из наблюдений в 5-10 раз). Считая порог как у Коленикова, результаты статистики Кука в большинстве случаев совпадают (один случай на ирисах, где не совпадает, но очень близко) со статистикой Welsch-Kuh (DFITS, DFFITS).
4. Не представлена (хотя исторически упоминается) статистика Кука в монографии Belsley, Kuh, Welsch (2004).
5. Von Eye, Schuster, 1998.
С. 88. Оригинальный подход. Ниже вольный перевод с иностранного с комментариями.
"Расстояние Кука Di имеет характеристики:
1) Хотя Di не распределена как F (точнее, не имеет ничего общего), она обычно оценивается (!) как Fa с k и n - k степенями свободы (пример "изумительной" логики).
2) Применяются следующие эмпирические правила:
- если p(Di) < 0.10, случай i имеет небольшое влияние на величину оценок параметра;
- если p(Di) > 0.50, случай i имеет значительное влияние на отклонение модели".
Т.е. по статистике Di вычисляется P-значение, затем сравнивается с двумя порогами. Впрочем, это не помогает.
6. Бегло просмотрел работу Cook R.D. Detection of influential observations in linear regression // Technometrics, 1977, vol. 19, no. 1, pp. 15-18. Она есть в свободном доступе http://www.ime.usp.br/~abe/lista/pdfWiH1zqnMHo.pdf.
Упоминаний (тем более строгого вывода) об F распределении не найдено.
AtteStat поправлен. Все совпадает с материалами nokh (спасибо большое ему). Кроме критических значений Кука и DFBETAS - взяты у Коленикова. Еще теория немного отличается (матрицы широко используются).
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?
Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать.
Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть?
Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения.
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?
Nokh, в Вашем конспекте по выбросам и влияющим наблюдениям сказано, что критические значения для DFFITS и DFBETAS в случае малых и средних выборок принимаются равными 1 (в отчетах NCSS тоже также пишут). По критическим значениям в случае больших выборок я ссылаюсь на Коленикова, а для средних не могу найти литературного источника. Подскажите, пожалуйста, из какой книги Вы брали эту информацию? И, если не затруднит, ссылку где можно эту книгу скачать.
У меня сложилось, что малые выборки - это до 30 единиц, средние 30-100, большие свыше 100. Там такая же градация или как-то иначе?
В конспекте все основные ссылки были. Пока нет времени смотреть подробнее, после праздников буду свободнее.
Спасибо, Nokh, был бы очень благодарен. Особо за ссылки download.
Существуют ли какие-либо специальные способы (критерии) для детекции выбросов в регрессиях с гетероскедастичными остатками? Корректно ли применение рассмотренных в этой ветке критериев (стьюд. остатки, DFFITS, DFBETTAS) для взвешенных остатков?
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)