Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Выбросы и влияющие наблюдения
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3
Pinus
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
DrgLena
Я использую статистику критерия Граббса, если просто для выбросов. Если подходит дам подробности. Или вам для регрессии?
Pinus
Мне для регрессии. В Statistica предлагается два критерия (критерий Кука и расстояние Махаланобиса). Как их рассчитывать в программе вроде бы понятно, а как и с чем сравнивать (как обычно делается при оценивании) не ясно. В книжках, которые просмотрел на этот счет, пока только общие фразы и разные субъективные подходы.
avorotniak
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.

Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами).

По поводу влияющих наблюдений (influential observations).
Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана).

Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0.

Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ...

Удачи!
nokh
> Pinus. Посмотрел в нескольких русскоязычных книжках - тоже ничего не понравилось. В дискриминантном анализе расстояние Махаланобиса считается не для отдельных значений, а для групповых центроидов, а как? - раньше не вникал. Насколько сейчас понял из описания в википедии, геометрически расстояние Махалонобиса это - расстояние от наблюдения (на рисунке - выброс) до центроида корреляционного гипероблака r, отнесённое к его диаметру d в этом направлении. Из рисунка видно, что ни по одному признаку в отдельности выброс не обнаруживается, тогда как при одновременном учёте нескольких признаков (здесь - двух) он очевиден. Непонятно пока как рассчитывается диаметр эллипсоида, т.к. это - не есть диаметр доверительного эллипса. + само критическое значение есть величина эвристическая.

>avorotniak. Спасибо за разъяснения, стало понятнее с этими мерами. Не поясните ли ещё по поводу расчёта диаметра?
avorotniak
Сразу хотелось бы уточнить, что дистанция Махаланобиса обычно используется в многовариантном анализе (не при линейной регрессии). Это своего рода стандартизированная дистанция от вектора наблюдений до вектора средних значений (стандартизация проводится с помощью ковариационной матрицы).

Di = sqrt(t(xi - mean(x))*solve(S)*(xi ? mean(x)))

Для детекции выбросов необходимо подсчитать статистику D для всех наблюдений. После чего можно предположить, что статистика D имеет распределение хи-квадрат со степенями свободы равными количеству переменных (это поможет найти критические значения).
Более подробную информацию по определению выбросов в многомерном пространстве можно найти, например, в книге Methods of Multivariate Analysis ALVIN C. RENCHER (стр.101).
Важно отметить, что для подсчета статистики D желательно использовать робастные оценки для положения и дисперсии-корреляции.

В отношении осей указанного эллипсоида:
Их направление задается собственными векторами, а длина полуосей пропорциональна соответствующим собственным значениям.
nokh
Большое спасибо, посмотрю. Кому нужно: http://photoshopia.su/26806-methods-of-mul...-besplatno.html
Pinus
Avorotniak, большое спасибо за ответ!
Если не затруднит, посоветуйте:
1. Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.
2. Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?
3. Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?

Pinus
nokh, не встречали ли где про Кука? При каких условиях и при каких предпосылках применяется метод, техника получения результатов и их интерпретация? Все остальное, что для продвинутых математиков и на аглицком языке, мне пока не поднять.
avorotniak
Вопрос:
Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.

Ответ
Очень важный момент: линейность регрессии определяется ее параметрами (коэффициентами), а не переменными. Поэтому, полиномиальная регрессия все же остается линейной, со всеми вытекающими последствиями. Упомянутый Вами график Predicted vs. Residual Scores, по-видимому, является графиком стандартизированных остатков (разделенных на свое стандартное отклонение). В принципе, нет проблем, даже лучше для детекции выбросов.
Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки ? это разница между наблюдением и ?рredicted? в квадрате:
квадрат (y ? y fit);

Вопрос:
Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?

Ответ:
Полиномиальная регрессия - это линейная регрессия, поэтому можете использовать статистику Кука. Кстати, для детекции влияющих наблюдений, также можете использовать DF FIT, DF BETA ? поищите в своей программе.
На графике остатков основное внимание обращается на гомогенность облака, эта гомогенность свидетельствует об однородности дисперсий остатков (что тесно связано с нормальностью). Проверка на нормальность обычно проводится с помощью QQ plot.

Вопрос:
Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?

Ответ:
В принципе, правильно. Однако, учитывая, что все более менее нормальные статистические программы без труда проводят регрессионную диагностику (графики остатков, определение влияющих наблюдений и многое другое), думаю, что стоит, на всякий случай, убедится или глаз нас не обманывает.
Важное замечание: для оценки коэфициентов регрессии (если модель используется для предсказания) распределение остатков не очень важно, так как при разработке теории для такой оценки не используется предположение о нормальном распределении ошибок. Однако, если Вы хотите провести инференцию (найти доверительные интервалы для коэфициентов), тогда важно убедится в том, что остатки не сильно отклоняются от нормального распределения (оценка такого отклонения довольно субъективна, так как, понятие нормальности используется для разработки теорий, на практике она не существует).


avorotniak
Извините, небольшая поправка к следующей фразе:

Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки это разница между наблюдением и рredicted? в квадрате:
квадрат (y ? y fit);

Остатки это разница между наблюдением и предсказанным значением. Квадрат из другой оперы (сумма квадратов остатков).
Pinus
Цитата(avorotniak @ 12.11.2009 - 13:46) *
Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0.

Думаю для нахождения критического значения воспользоваться таблицами Большева, Смирнова (процентные точки F-распределения). В них F(Q, v1, v2), где Q задается в процентах. Значит следует брать Q не 0,5, а 50. Я правильно понимаю?
В таблице для нахождения значений функции между предложенными градациями предлагается использовать квадратичную гармоническую интерполяцию. Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы?
Если не затруднит, из какого источника Вы приводите такое нахождение критического значения статистики Кука? Я не могу в русских книгах по регрессионному анализу найти про критерий Кука совсем ничего.
DrgLena
Цитата(Pinus @ 14.11.2009 - 08:10) *
Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы?

Есть, в Statistica; Probability Distribution Calculator
v1 и v2 в df1 и df2, а Q задается не в процентах, а в долях в окне ?p?, и ставьте метку ?invers? .
avorotniak
Правильно по поводу перцентиля 50, однако поищите в Вашем софте, должно быть.
По поводу статистики Кука и других мер для влияющих наблюдений войдите в bib.tiera.ru, введите автора Rawlings и скачайте книгу по регрессионному анализу. На странице 362 этой книги найдете все ответы на интересующие Вас ответы.
Удачи!
Андрей
Pinus
DrgLena, спасибо!
Андрей, тоже спасибо! Скачал книгу, попробую несколько страниц перевести.
Pinus
Андрей, получается, что статистика Кука и для выбросов, и для влияющих наблюдений определяется одинаково, и критическое значение статистики тоже?
Pinus
Кто может подсказать, как правильно перевести Linthurst Data? В словарях (в т.ч. математическом) не могу найти.
avorotniak
Интересный и глубокий вопрос.
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.
Расстояние Кука учитывает 2 фактора leverage (расстояние от цента облака, также иногда его называют расстоянием Махаланобиса) и величину остатка.
На практике, выбросы и влияющие наблюдение определяются раздельно, однако, в принципе, можно использовать расстояние Кука для детекции выбросов, хотя это не совсем правильно с концептуальной точки зрения.

В отношении Linthurst Data
Rick Linthurst (1979) из North Carolina State University использовал эти данные для своей диссертации, то есть эти данные взяты из диссертации Rick Linthurst.
Pinus
Цитата(avorotniak @ 16.11.2009 - 00:10) *
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.

Тогда как понимать такую ситуацию: простая линейная регрессия; одно значение, подозреваемое нами как выброс, находится на прямой, проходящей через центр облака и параллельной оси ординат; второе значение, подозреваемое нами как выброс, находится в правой крайней верхней части облака (за пределы облака не выходит); расстояние от центра облака до первого значения меньше, чем расстояние от центра облака до второго значения, но остаток для первого значения в несколько раз больше средней величины всех остатков, а остаток для второго значения от среднего значения остатков сильно не отличается.
Если выброс определяется расстоянием до центра облака, а не величиной остатка, то первое значение выбросом не будет, хотя оно находится далеко за ?границей? облака, а второе будет, хотя оно находится внутри облака, но в периферической его части. Разве это так?
Наверно правильно будет, что выброс определяется величиной остатка, а влияющее наблюдение совокупностью двух факторов - расстоянием от центра облака и величиной остатка.
avorotniak
Абсолютно согласен. Извините за дезинформацию.
Pinus
Вообще книги на русском, в которых в той или иной степени рассматривается проблема выбросов, есть, но там неизменно речь идет о выбросах вариационного ряда. Нашел, например, такие:
Закс Л. Статистическое оценивание. - М.: Статистика, 1976.
Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Ч.1, 1980.
Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica, 2002.

О выбросах, как об остатках регрессии, нашел только в двухтомнике Дрейпер Н., Смит Г. Прикладной регрессионный анализ, том 1, 1986. Очень короткая информация, где выброс определяется так:
(Выбросом среди остатков называется остаток, который по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений) ? том 1, с. 199. Там есть ссылка на статью Anscombe F. J. Rejection of outliers. ? Technometrics, 1960, 2, p. 123-147.

Есть инфа, что в книге Химмельблау Д. Анализ процессов статистическими методами. - М.: Мир, 1973. - 957 с. тоже есть что-то о выбросах. В инете ее не могу найти, если у кого есть, гляньте, пожалуйста, о чем там речь (о регрессии или о вариационном ряде). Судя по названию, может быть и о регрессии.
Pinus
Цитата(avorotniak @ 12.11.2009 - 12:46) *
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot.

Андрей, Вы имели ввиду вариационный ряд?

Цитата(avorotniak @ 12.11.2009 - 12:46) *
В случае многовариантного анализа, определение выбросов очень сложно.

Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?


avorotniak
Цитата(Pinus @ 16.11.2009 - 15:58) *
Андрей, Вы имели ввиду вариационный ряд?


Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?



Хотел бы уточнить мои комментарии по поводу выбросов при анализе одной переменной:
Вариационный ряд - упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины. Для построения boxplot используется вариационный ряд. Вначале определяется нижняя (Qi) и верхняя (Qs) квантили, затем - разница между наблюдениями соответствующими этим квантилям, d = Qs - Qi. Наблюдения, находящиеся на дистанции более 1,5d от верхней или нижней квантили называются умеренными выбросами, а те наблюдения, которые находятся на расстоянии 3d от соответствующих квантилей - значительными (тяжелыми) выбросами.

Извините, я употребил не совсем удачный термин - лучше сказать многомерный анализ. В многомерном анализе, в отличие от многофакторного (множественная регрессия), нет зависимой переменной. Я зацепил в моих комментариях многомерный анализ, чтобы показать понятие выбросов в различных контекстах: при анализе одной переменной, при анализе остатков линейной регрессии, в многомерном анализе. Однако, многомерный анализ не имеет отношения к обсуждаемой нами теме регрессии.

Pinus
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?
nokh
Цитата(Pinus @ 17.11.2009 - 20:09) *
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?

Тема оказалась интересной и не менее сложной. Анализ интернет-ресурсов в течение нескольких последних вечеров позволил выявить насколько всё запущено. Анализ остатков и влияющих наблюдений в существующем виде сложился в середине 1980-х гг, но (1) до сих пор нет единственного источника, где бы все эти меры были понятно описаны. Там где описаны все - широко используется векторно-матричная форма записи без подробностей, где есть подробные описания с примерами - есть только малое число мер. Сводить информацию воедино из разных источников мешает (2) отсутствие устоявшихся символьных обозначений и (3) повсеместные ошибки в формулах: как в книгах, так и в статьях и интернет-ресурсах. (4) Компьютерные программы для одних и тех же мер могут давать разные значения. (5) На русский язык многие термины ещё не переведены (поэтому, думаю, мы вправе использовать свои переводы приводя в скобках англ. термины).
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл. Если остаток разделить на стандартное отклонение ошибки регрессии (корень из среднего квадрата MSe ошибки регрессии), то получим стандартизованный остаток. Он показывает насколько наблюдение выделяется своим остатком от других, но много это или мало - мы решаем сами. Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток, который имеет t-распределение Стьюдента (если исходные данные были нормально распределены). Это позволяет оценить статистическую значимость выброса. Если посмотреть таблицу t-распределения, то видно, что при 5%-ном уровне значимости для большинства степеней свободы критическое значение близко к 2. На основании этого рекомендуют обращать внимание на стьюдентизированные остатки более 2 как на подозрительные - 95% из них являются выбросами. Однако есть одна сложность - в зависимости от своего расположения выброс может оказывать столь сильное искажающее влияние на подгонку всей модели, что его остаток (в т.ч. стьюдентизированный) будет относительно невелик. Поэтому для более надёжной детекции выброса при оценке дисперсии рассеяния наблюдений относительно линии регресии (МS ошибки) тестируемое на выброс наблюдение исключается из расчётов - отсюда и "Deleted". Т.о. теряется одна степень свободы, но получается независимая оценка дисперсии ошибки - независимая от влияния потенциального выброса. Когда выброс делится на соответствующую такой независимой дисперсии стандартную ошибку получается стьюдентизированный Deleted Residual. Поскольку в русском языке слово "удалённый" имеет ещё и значение "отдалённый" я бы перевел его как "исключённый стьюдентизированный остаток" или "стьюдентизированный остаток с удалением". Варианты принимаются smile.gif. Собственно Deleted Residual не считал, но принцип там такой-же, а практическая ценность - никакая по сравнению со стьюдентизированным Deleted Residual.
Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.
Рассчитанные стюдентизированные остатки и, особенно, стьюдентизированные остатки с удалением позволили признать наблюдение # 4 выбросом. Значимость для дистанции Кука посчитаю, но ее величина позволяет отнести к выбросу скорее наблюдение # 10 (0,7296), чем # 4 (0,5904), хотя даже на глаз видно что дело обстоит наоборот. Думаю и в множественной регресии дистанция Кука проявит такие же свойства и для детекции выбросов лучше ориентироваться на стьюдентизированные остатки. Оценка влияющих наблюдений - совсем другое дело (именно точка 10 во многом (на 29,6%) задаёт направление регрессионой линии), но я пока не разобрался что даёт обнаружение наиболее влияющих наблюдений на практике.

PS Удивительно, но программа Statistica не выдаёт ни leverage (показатель воздействия?), ни стьюдентизированных остатков, ни мер влияния кроме дистанций Кука и Махаланобиса. А если делать анализ не через модуль множественной регресссии, так анализ остатков ещё слабее. Любимый мной KyPlot (v.2.15) и то считает больше, хотя терминологическая путаница и здесь присутствует.
avorotniak
[quote name='nokh' date='18.11.2009 - 18:15' post='8915']
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл.

Принцип определения дистанции Кука, DFFIT, DFBeta и CovRatio одинаков: удаляем наблюдение и считаем насколько изменяются параметры регрессии (по-английски такой метод называется leave-one-out). Leverage это то же самое, что и расстояние Махаланобиса. На русский язык я бы перевел это слово как рычаг. Для того, чтобы отдельное наблюдение значительно влияло на регрессионные коэфициенты оно должно иметь большой остаток и длинный рычаг (расстояние от центра облака).

Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.

Вот что дает программа R:

round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)

0.0004 0.0173 0.0499 0.5904 0.0062 0.0277 0.0045 0.0368 0.0068 0.7296

round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

0.0436 -0.3522 -0.7438 6.7472 -0.2956 -0.6818 -0.2565 -0.6551 -0.2287 1.0048

round(rstandard(g),4) Стандартизированные остатки (более 1)
0.0466 -0.3732 -0.7655 2.6332 -0.3140 -0.7058 -0.2730 -0.6798 -0.2436 1.0042

round(hatvalues(g),4) Рычаги или расстояние Махаланобиса оно же leverage (критическое значение 2р/n, 0,4)
0.2735 0.1992 0.1455 0.1455 0.1125 0.1001 0.1084 0.1373 0.1868 0.5913

round(dffits(g),4) DFFIT (критическое значение 2*sqrt(p/n), для нашего примера 0,9)
0.0267 -0.1756 -0.3069 2.7843 -0.1052 -0.2274 -0.0894 -0.2613 -0.1096 1.2087

Определение влияющих наблюдений служит для лучшей подгонки модели (model fitting). Исключаем эти наблюдения и проводим наново оценку модели. Тем самым снижаем ошибку предсказания.
nokh
Сегодня исправил описку в своём предыдущем посте - вместо влияющих переменных конечно нужно было влияющие наблюдения. В эконометрике встретил "влиятельные наблюдения", что ближе к сути: влияют все, но не все из них влиятельные. Хорошей возможностью увидеть профессиональный перевод порадовал PASW (SPSS 18), где отныне по желанию всё по-русски. Поэтому приведу переводы оттуда:
Influence Statistics - статистики влияния
Deleted residuals - удаленные остатки
Centered Leverage - разбалансировка (отличается от Leverage, пока не понял что это).
CovRatio - ковариационное отношение

С R - та же петрушка, что и с KyPlot, видимо по одной книге составляли алгоритмы. То что в них называется "стандартизованные остатки" на самом деле является стьюдентизированными остатками.С калькулятором это становится очевидным. Стандартизация - деление на стандартное отклонение, стьюдентизация - деление на стандартную ошибку. Поэтому деля остаток на ст. ошибку мы никак не можем получить стандартизованные остатки, - только стьюдентизированные. В R эти функции скорее всего в самой старой библиотеке mass, нужно поискать что-то посовременнее и скорее всего эконометрическое. А стандартизованные остатки для этого примера таковы:
0,0397 -0,3340 -0,7076 2,4341 -0,2959 -0,6695 -0,2578 -0,6314 -0,2197 0,6420
Именно эти значения выдают в качестве standardized residual и PASW, и Statistica, - и они правы. Аналогично со стьюдентизированными остатками в R и KyPlot, которые на самом деле являются стьюдентизированными удалёнными остатками (проверял всё вручную - совпадает с PASW и Statistica).

Цитата(avorotniak @ 19.11.2009 - 01:18) *
... round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)
... round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

По части критических значений указанные Вами величины - ориентировочные. В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k (10-2=8). Т.о. критическое значение здесь 0,7568. Аналогично для всех стьюдентизированных показателей. Число степеней свободы равно n-k (8) и критическое значение для альфа 0,05 = 2,3060. Можно и конкретно рассчитать достигнутый уровень значимости: например для наблюдения #4 для стьюд. остатка (2,6332) P=0.030028, для удалённого стьюд. остатка (6,7472) P=0.000145. Однозначно выброс.
Расстояние Махаланобиса отличается от Leverage, хотя пропорционально (еще не решал). Для нашего примера.
Leverage: 0,27348 0,19917 0,14551 0,14551 0,11249 0,100010 0,10836 0,13725 0,18679 0,59133
Махаланобис: 1,56130 0,89257 0,40960 0,40960 0,11238 0,00093 0,07523 0,33529 0,78111 4,42198

Пройду тему до конца - подошью к теме страничку с правильными формулами (кое-как насобирал) и названиями.
Green
Leverage - видела перевод как "воздействие", "индекс воздействия"
DoctorStat
Я не специалист по выбросам, но с точки зрения статистики, для выявления сильно отклоняющихся наблюдений нужно проверять 0-ю гипотезу "выбросов нет" против альтернативной гипотезы "выбросы есть". Т.е. забиваешь данные в программу с этим тестом, а она в качестве результата выдает сильно уклоняющиеся наблюдения. Если такой программы еще не придумали, то следовательно дело обстоит намного сложнее, чем кажется. Скорее всего, без знания функции распределения наблюдений, невозможно определить наличие выбросов.
avorotniak
Пересчитал вручную стандартизированые остатки. Согласен с nokh, спасибо. Доверяй, но проверяй.

По поводу расчета стандартизированных и стьюдентизированных остатков
residual / sigma это стандартизированный остаток
residual /(sigma*sqrt(1-leverage)) это стьюдентизированный остаток

Расстояние Махаланобиса и leverage определяют расстояние одного из наблюдений независимой переменной (фактора) до среднего арифметического этой переменной. То есть, концептуально, они измеряют одну и ту же меру, однако отличаются в своих масштабах. Методы расчета этих величин различны: leverage это элементы на диагонали проекционной матрицы (значения leverage находятся в пределах от 0 до 1), а расстояние Махаланобиса это стандартизированное расстояние от наблюдения до среднего арифметического, где стандартизация проводится при помощи обратной ковариационной матрицы линейной регрессии XX (Х это матрица плана).
avorotniak
DoctorStat затронул очень интересную тему.
Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д.
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие.
Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами.
Pinus
Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами.

Вот расчеты для нашего примера:
Standard Residual (стандартизованные остатки):
0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962
Deleted Residual (исключенные остатки):
0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000
Cook's Distance (дистанция Кука):
0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587
Mahalanobis Distance (дистанция Махаланобиса):
1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981

Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс).

Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее:
Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение.
(Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно;
s и σ - стандартное отклонение выборки и генеральной совокупности соответственно;
N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание).
Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая.
И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).

Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже.

По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема).
Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники.
Pinus
Цитата(avorotniak @ 20.11.2009 - 00:19) *
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь.

Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.
avorotniak
Цитата(Pinus @ 19.11.2009 - 17:55) *
Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.


Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.
Pinus
nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?
nokh
Пока не готов ответить, ещё почитаю.
nokh
Вот что по этому поводу есть в википедии:
"...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope.
The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization."

Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю smile.gif
Pinus
Цитата(nokh @ 23.11.2009 - 15:08) *
Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены.

Но ведь по сути-то нам и не надо их между собой сравнивать. Достаточно определить границы, за которыми с большой долей вероятности остатки можно считать выбросами. Стало быть можно использовать стандартизованные, и, пусть ограниченную, но родную Statistica 6. Ура! Ай да Дрейпер, ай да Смит!
Pinus
Цитата(nokh @ 19.11.2009 - 22:06) *
В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k ...

Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?
nokh
Цитата(Pinus @ 23.11.2009 - 15:48) *
Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.

Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/l...1/macdonald.pdf
Цитата(Pinus @ 23.11.2009 - 15:48) *
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?

Да, включая свободный член.
Pinus
Спасибо!
Игорь
По рассматриваемой теме очень рекомендую источник:

Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998.

Найти можно на Гигапедии.
Игорь
Цитата(nokh @ 18.11.2009 - 19:15) *
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток

Не получим.

Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема.
Pinus
Цитата(Игорь @ 30.11.2009 - 17:13) *
Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Это называется Delete Residual?
nokh
Цитата(Игорь @ 30.11.2009 - 12:13) *
Не получим...

Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1).
Игорь
Цитата(nokh @ 30.11.2009 - 20:11) *
стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot

Еще AtteStat, начиная с версии 10.9.8. (модуль "Распознавание образов с обучением")
Цитата(nokh @ 30.11.2009 - 20:11) *
а то как написал я - Statistica и SPSS.

Может, там это как-то иначе называется.
nokh
Цитата(Игорь @ 30.11.2009 - 22:58) *
Может, там это как-то иначе называется.

Для моего примера.
1 - Statistica
2 - PASW - как назвается
3 - PASW - как выдаётся
Игорь
1. В книге Дэйвида "Порядковые статистики" (встречается в электронном виде) разъясняется суть стьюдентизации (с. 94). Он различает внешнюю стьюдентизацию и внутреннюю. Внешняя - это когда для стандартизации используется независимая от числителя среднеквадратичная оценка знаменателя. Внутренняя - когда оценка по исходной выборке. См. также книгу Кендалла, Стьюарта "Статистические выводы и связи" (в электронном виде встречается также), с. 170 и далее. Т.о., резюмируем: суть стьюдентизации (как способа стандартизации) - в независимости (!) оценок числителя и знаменателя. Следователь, т.н. внутренняя стьюдентизация - нонсенс. Это - просто стандартизация (с несколько иной оценкой знаменателя), а игры в терминологию только запутывают читателя и пользователя.

2. Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Перевод нехорош в обоих программах (почему - см. п. 1).

Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif
DrgLena
Цитата(Игорь @ 1.12.2009 - 09:55) *
а игры в терминологию только запутывают читателя и пользователя.

Вот я, как раз, запуталась. В поисках выхода - обращение к классике и англоязычная википедия, Игорь совершенно прав, разделяя внутреннюю и внешнюю стоюдентизацию. В принципе и Statistica и STATA, для анализа остатков для стьюдентизированных остатков приводит в хелпах одну формулу.
Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных. Мне кажется весьма полезным до проведения регрессионного анализа провести вначале анализ выбросов, в AttеStat большой выбор, а в Statistica последних версиях появился критерий Граббса. После чего провести многомерный контроль качества, в последних версиях статистики, карты Хотеллинга (T^2) по двум переменным у и х, что помогает исключить выскакивающие наблюдения до проведения регрессионного анализа.
Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий. И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные.
Игорь
Цитата(DrgLena @ 1.12.2009 - 13:29) *
Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий.

http://attestatsoft.narod.ru. Это бесплатный хостинг. Раньше был коммерческий, но 1000 руб. за полгода жалко. Проект дохода не приносит, потому за коммерческий платить ни из чего.
Цитата(DrgLena @ 1.12.2009 - 13:29) *
И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные.

Разные. Но связанные простой зависимостью. Потому эквивалентные.

Когда о выбросах говорим, нужно уточнить - относительно чего. Относительно одной модели - это выбросы. Относительно другой могут и не быть таковыми. В теме обсуждались выбросы относительно гиперплоскости множественной регрессии. В источнике, который я указал пару постов назад, все хорошо описано. Насчет выбросов тоже.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.