Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Выбросы и влияющие наблюдения

Автор: Pinus 11.11.2009 - 02:55

Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?

Автор: DrgLena 11.11.2009 - 14:58

Я использую статистику критерия Граббса, если просто для выбросов. Если подходит дам подробности. Или вам для регрессии?

Автор: Pinus 12.11.2009 - 02:14

Мне для регрессии. В Statistica предлагается два критерия (критерий Кука и расстояние Махаланобиса). Как их рассчитывать в программе вроде бы понятно, а как и с чем сравнивать (как обычно делается при оценивании) не ясно. В книжках, которые просмотрел на этот счет, пока только общие фразы и разные субъективные подходы.

Автор: avorotniak 12.11.2009 - 05:46

Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно. Например, по каким критерием считать выбросом многомерный вектор ? по значительному отклонению одной из его координат или незначительному систематическому смещению во многих координатах? Одним из возможных методов детекции выбросов в многомерном пространстве является расстояние Махаланобиса, однако необходима робастная оценка ковариационной матрицы, входящей в формулу этой статистики, а это математически очень сложно.

Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ (?на глаз?) графика остатков и подогнанных значений (Residuals vs. Fitted values). Также можно использовать ?стьюдентизированные? остатки (studentized или crossvalidated), которые имеют распределение Стьюдента, что позволяет несложно найти критические значения. Нужно отметить, что проверку на выбросы нужно проводить после любого изменения в регрессионной модели (хотя, как правило, после трансформации зависимой переменной выбросы остаются выбросами).

По поводу влияющих наблюдений (influential observations).
Основная идея влияющих наблюдений ? это определение изменений регрессионных параметров при удалении одного из наблюдений из модели (leave-one-out deletion). Основоположниками метода являются Belsley, Kuh and Welsch (1980), Cook and Weisberg (1982). Нужно отметить, что влияние наблюдения на модель зависит от 2-х факторов: 1) отдаленности наблюдения от центра пространства Х (проще говоря, от среднего арифметического) и 2) абсолютной величины остатка. То есть, наибольшее влияние на регрессионную модель оказывает наблюдение с высоким ?leverage? (очень отдаленное от среднего арифметического) и с большим остатком (очень отдаленное от регрессионного гиперплана).

Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0.

Одно замечание к статистике Кука: ее теоретическая база (ее формула) основана на предположении о нормальном распределении ошибок в модели регрессии. Где же гарантия эффективности этой статистики при значительных отклонениях от нормальности (например, при наличии влияющих наблюдений). Выглядит довольно противоречиво ...

Удачи!

Автор: nokh 12.11.2009 - 17:28

> Pinus. Посмотрел в нескольких русскоязычных книжках - тоже ничего не понравилось. В дискриминантном анализе расстояние Махаланобиса считается не для отдельных значений, а для групповых центроидов, а как? - раньше не вникал. Насколько сейчас понял из описания в википедии, геометрически расстояние Махалонобиса это - расстояние от наблюдения (на рисунке - выброс) до центроида корреляционного гипероблака r, отнесённое к его диаметру d в этом направлении. Из рисунка видно, что ни по одному признаку в отдельности выброс не обнаруживается, тогда как при одновременном учёте нескольких признаков (здесь - двух) он очевиден. Непонятно пока как рассчитывается диаметр эллипсоида, т.к. это - не есть диаметр доверительного эллипса. + само критическое значение есть величина эвристическая.

>avorotniak. Спасибо за разъяснения, стало понятнее с этими мерами. Не поясните ли ещё по поводу расчёта диаметра?

 

Автор: avorotniak 12.11.2009 - 21:50

Сразу хотелось бы уточнить, что дистанция Махаланобиса обычно используется в многовариантном анализе (не при линейной регрессии). Это своего рода стандартизированная дистанция от вектора наблюдений до вектора средних значений (стандартизация проводится с помощью ковариационной матрицы).

Di = sqrt(t(xi - mean(x))*solve(S)*(xi ? mean(x)))

Для детекции выбросов необходимо подсчитать статистику D для всех наблюдений. После чего можно предположить, что статистика D имеет распределение хи-квадрат со степенями свободы равными количеству переменных (это поможет найти критические значения).
Более подробную информацию по определению выбросов в многомерном пространстве можно найти, например, в книге Methods of Multivariate Analysis ALVIN C. RENCHER (стр.101).
Важно отметить, что для подсчета статистики D желательно использовать робастные оценки для положения и дисперсии-корреляции.

В отношении осей указанного эллипсоида:
Их направление задается собственными векторами, а длина полуосей пропорциональна соответствующим собственным значениям.

Автор: nokh 12.11.2009 - 22:24

Большое спасибо, посмотрю. Кому нужно: http://photoshopia.su/26806-methods-of-multivariate-analysis-besplatno.html

Автор: Pinus 13.11.2009 - 14:24

Avorotniak, большое спасибо за ответ!
Если не затруднит, посоветуйте:
1. Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.
2. Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?
3. Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?


Автор: Pinus 13.11.2009 - 14:42

nokh, не встречали ли где про Кука? При каких условиях и при каких предпосылках применяется метод, техника получения результатов и их интерпретация? Все остальное, что для продвинутых математиков и на аглицком языке, мне пока не поднять.

Автор: avorotniak 13.11.2009 - 17:37

Вопрос:
Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.

Ответ
Очень важный момент: линейность регрессии определяется ее параметрами (коэффициентами), а не переменными. Поэтому, полиномиальная регрессия все же остается линейной, со всеми вытекающими последствиями. Упомянутый Вами график Predicted vs. Residual Scores, по-видимому, является графиком стандартизированных остатков (разделенных на свое стандартное отклонение). В принципе, нет проблем, даже лучше для детекции выбросов.
Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки ? это разница между наблюдением и ?рredicted? в квадрате:
квадрат (y ? y fit);

Вопрос:
Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?

Ответ:
Полиномиальная регрессия - это линейная регрессия, поэтому можете использовать статистику Кука. Кстати, для детекции влияющих наблюдений, также можете использовать DF FIT, DF BETA ? поищите в своей программе.
На графике остатков основное внимание обращается на гомогенность облака, эта гомогенность свидетельствует об однородности дисперсий остатков (что тесно связано с нормальностью). Проверка на нормальность обычно проводится с помощью QQ plot.

Вопрос:
Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?

Ответ:
В принципе, правильно. Однако, учитывая, что все более менее нормальные статистические программы без труда проводят регрессионную диагностику (графики остатков, определение влияющих наблюдений и многое другое), думаю, что стоит, на всякий случай, убедится или глаз нас не обманывает.
Важное замечание: для оценки коэфициентов регрессии (если модель используется для предсказания) распределение остатков не очень важно, так как при разработке теории для такой оценки не используется предположение о нормальном распределении ошибок. Однако, если Вы хотите провести инференцию (найти доверительные интервалы для коэфициентов), тогда важно убедится в том, что остатки не сильно отклоняются от нормального распределения (оценка такого отклонения довольно субъективна, так как, понятие нормальности используется для разработки теорий, на практике она не существует).



Автор: avorotniak 13.11.2009 - 18:16

Извините, небольшая поправка к следующей фразе:

Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки это разница между наблюдением и рredicted? в квадрате:
квадрат (y ? y fit);

Остатки это разница между наблюдением и предсказанным значением. Квадрат из другой оперы (сумма квадратов остатков).

Автор: Pinus 14.11.2009 - 08:10

Цитата(avorotniak @ 12.11.2009 - 13:46) *
Статистика Кука (Cook?s D) определяет изменения в регрессионных коэффициентах ?бета?, если выбросить из модели одно наблюдение. Формулу для расчета можно найти в любой книге по линейной регрессии. Расстояние Кука измеряется в терминах, так называемого, доверительного эллипса, поэтому, граничным значением для этой статистики является 50-й перцентиль статистики F (0.50, р, n-p), где p ? это количество переменных, а n- количество наблюдений. Обычно этот перцентиль находится между 0,8 и 1,0.

Думаю для нахождения критического значения воспользоваться таблицами Большева, Смирнова (процентные точки F-распределения). В них F(Q, v1, v2), где Q задается в процентах. Значит следует брать Q не 0,5, а 50. Я правильно понимаю?
В таблице для нахождения значений функции между предложенными градациями предлагается использовать квадратичную гармоническую интерполяцию. Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы?
Если не затруднит, из какого источника Вы приводите такое нахождение критического значения статистики Кука? Я не могу в русских книгах по регрессионному анализу найти про критерий Кука совсем ничего.

Автор: DrgLena 14.11.2009 - 14:24

Цитата(Pinus @ 14.11.2009 - 08:10) *
Нет ли в распространенных программах получения точных значений F-распределения при заданных значениях процентных точек и степеней свободы?

Есть, в Statistica; Probability Distribution Calculator
v1 и v2 в df1 и df2, а Q задается не в процентах, а в долях в окне ?p?, и ставьте метку ?invers? .

 

Автор: avorotniak 14.11.2009 - 14:28

Правильно по поводу перцентиля 50, однако поищите в Вашем софте, должно быть.
По поводу статистики Кука и других мер для влияющих наблюдений войдите в bib.tiera.ru, введите автора Rawlings и скачайте книгу по регрессионному анализу. На странице 362 этой книги найдете все ответы на интересующие Вас ответы.
Удачи!
Андрей

Автор: Pinus 15.11.2009 - 02:30

DrgLena, спасибо!
Андрей, тоже спасибо! Скачал книгу, попробую несколько страниц перевести.

Автор: Pinus 15.11.2009 - 14:04

Андрей, получается, что статистика Кука и для выбросов, и для влияющих наблюдений определяется одинаково, и критическое значение статистики тоже?

Автор: Pinus 15.11.2009 - 16:55

Кто может подсказать, как правильно перевести Linthurst Data? В словарях (в т.ч. математическом) не могу найти.

Автор: avorotniak 15.11.2009 - 17:10

Интересный и глубокий вопрос.
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.
Расстояние Кука учитывает 2 фактора leverage (расстояние от цента облака, также иногда его называют расстоянием Махаланобиса) и величину остатка.
На практике, выбросы и влияющие наблюдение определяются раздельно, однако, в принципе, можно использовать расстояние Кука для детекции выбросов, хотя это не совсем правильно с концептуальной точки зрения.

В отношении Linthurst Data
Rick Linthurst (1979) из North Carolina State University использовал эти данные для своей диссертации, то есть эти данные взяты из диссертации Rick Linthurst.

Автор: Pinus 16.11.2009 - 05:44

Цитата(avorotniak @ 16.11.2009 - 00:10) *
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.

Тогда как понимать такую ситуацию: простая линейная регрессия; одно значение, подозреваемое нами как выброс, находится на прямой, проходящей через центр облака и параллельной оси ординат; второе значение, подозреваемое нами как выброс, находится в правой крайней верхней части облака (за пределы облака не выходит); расстояние от центра облака до первого значения меньше, чем расстояние от центра облака до второго значения, но остаток для первого значения в несколько раз больше средней величины всех остатков, а остаток для второго значения от среднего значения остатков сильно не отличается.
Если выброс определяется расстоянием до центра облака, а не величиной остатка, то первое значение выбросом не будет, хотя оно находится далеко за ?границей? облака, а второе будет, хотя оно находится внутри облака, но в периферической его части. Разве это так?
Наверно правильно будет, что выброс определяется величиной остатка, а влияющее наблюдение совокупностью двух факторов - расстоянием от центра облака и величиной остатка.

Автор: avorotniak 16.11.2009 - 07:34

Абсолютно согласен. Извините за дезинформацию.

Автор: Pinus 16.11.2009 - 15:53

Вообще книги на русском, в которых в той или иной степени рассматривается проблема выбросов, есть, но там неизменно речь идет о выбросах вариационного ряда. Нашел, например, такие:
Закс Л. Статистическое оценивание. - М.: Статистика, 1976.
Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Ч.1, 1980.
Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica, 2002.

О выбросах, как об остатках регрессии, нашел только в двухтомнике Дрейпер Н., Смит Г. Прикладной регрессионный анализ, том 1, 1986. Очень короткая информация, где выброс определяется так:
(Выбросом среди остатков называется остаток, который по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений) ? том 1, с. 199. Там есть ссылка на статью Anscombe F. J. Rejection of outliers. ? Technometrics, 1960, 2, p. 123-147.

Есть инфа, что в книге Химмельблау Д. Анализ процессов статистическими методами. - М.: Мир, 1973. - 957 с. тоже есть что-то о выбросах. В инете ее не могу найти, если у кого есть, гляньте, пожалуйста, о чем там речь (о регрессии или о вариационном ряде). Судя по названию, может быть и о регрессии.

Автор: Pinus 16.11.2009 - 15:58

Цитата(avorotniak @ 12.11.2009 - 12:46) *
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot.

Андрей, Вы имели ввиду вариационный ряд?

Цитата(avorotniak @ 12.11.2009 - 12:46) *
В случае многовариантного анализа, определение выбросов очень сложно.

Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?



Автор: avorotniak 16.11.2009 - 22:06

Цитата(Pinus @ 16.11.2009 - 15:58) *
Андрей, Вы имели ввиду вариационный ряд?


Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?



Хотел бы уточнить мои комментарии по поводу выбросов при анализе одной переменной:
Вариационный ряд - упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины. Для построения boxplot используется вариационный ряд. Вначале определяется нижняя (Qi) и верхняя (Qs) квантили, затем - разница между наблюдениями соответствующими этим квантилям, d = Qs - Qi. Наблюдения, находящиеся на дистанции более 1,5d от верхней или нижней квантили называются умеренными выбросами, а те наблюдения, которые находятся на расстоянии 3d от соответствующих квантилей - значительными (тяжелыми) выбросами.

Извините, я употребил не совсем удачный термин - лучше сказать многомерный анализ. В многомерном анализе, в отличие от многофакторного (множественная регрессия), нет зависимой переменной. Я зацепил в моих комментариях многомерный анализ, чтобы показать понятие выбросов в различных контекстах: при анализе одной переменной, при анализе остатков линейной регрессии, в многомерном анализе. Однако, многомерный анализ не имеет отношения к обсуждаемой нами теме регрессии.


Автор: Pinus 17.11.2009 - 17:09

Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?

Автор: nokh 18.11.2009 - 18:15

Цитата(Pinus @ 17.11.2009 - 20:09) *
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?

Тема оказалась интересной и не менее сложной. Анализ интернет-ресурсов в течение нескольких последних вечеров позволил выявить насколько всё запущено. Анализ остатков и влияющих наблюдений в существующем виде сложился в середине 1980-х гг, но (1) до сих пор нет единственного источника, где бы все эти меры были понятно описаны. Там где описаны все - широко используется векторно-матричная форма записи без подробностей, где есть подробные описания с примерами - есть только малое число мер. Сводить информацию воедино из разных источников мешает (2) отсутствие устоявшихся символьных обозначений и (3) повсеместные ошибки в формулах: как в книгах, так и в статьях и интернет-ресурсах. (4) Компьютерные программы для одних и тех же мер могут давать разные значения. (5) На русский язык многие термины ещё не переведены (поэтому, думаю, мы вправе использовать свои переводы приводя в скобках англ. термины).
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл. Если остаток разделить на стандартное отклонение ошибки регрессии (корень из среднего квадрата MSe ошибки регрессии), то получим стандартизованный остаток. Он показывает насколько наблюдение выделяется своим остатком от других, но много это или мало - мы решаем сами. Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток, который имеет t-распределение Стьюдента (если исходные данные были нормально распределены). Это позволяет оценить статистическую значимость выброса. Если посмотреть таблицу t-распределения, то видно, что при 5%-ном уровне значимости для большинства степеней свободы критическое значение близко к 2. На основании этого рекомендуют обращать внимание на стьюдентизированные остатки более 2 как на подозрительные - 95% из них являются выбросами. Однако есть одна сложность - в зависимости от своего расположения выброс может оказывать столь сильное искажающее влияние на подгонку всей модели, что его остаток (в т.ч. стьюдентизированный) будет относительно невелик. Поэтому для более надёжной детекции выброса при оценке дисперсии рассеяния наблюдений относительно линии регресии (МS ошибки) тестируемое на выброс наблюдение исключается из расчётов - отсюда и "Deleted". Т.о. теряется одна степень свободы, но получается независимая оценка дисперсии ошибки - независимая от влияния потенциального выброса. Когда выброс делится на соответствующую такой независимой дисперсии стандартную ошибку получается стьюдентизированный Deleted Residual. Поскольку в русском языке слово "удалённый" имеет ещё и значение "отдалённый" я бы перевел его как "исключённый стьюдентизированный остаток" или "стьюдентизированный остаток с удалением". Варианты принимаются smile.gif. Собственно Deleted Residual не считал, но принцип там такой-же, а практическая ценность - никакая по сравнению со стьюдентизированным Deleted Residual.
Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.
Рассчитанные стюдентизированные остатки и, особенно, стьюдентизированные остатки с удалением позволили признать наблюдение # 4 выбросом. Значимость для дистанции Кука посчитаю, но ее величина позволяет отнести к выбросу скорее наблюдение # 10 (0,7296), чем # 4 (0,5904), хотя даже на глаз видно что дело обстоит наоборот. Думаю и в множественной регресии дистанция Кука проявит такие же свойства и для детекции выбросов лучше ориентироваться на стьюдентизированные остатки. Оценка влияющих наблюдений - совсем другое дело (именно точка 10 во многом (на 29,6%) задаёт направление регрессионой линии), но я пока не разобрался что даёт обнаружение наиболее влияющих наблюдений на практике.

PS Удивительно, но программа Statistica не выдаёт ни leverage (показатель воздействия?), ни стьюдентизированных остатков, ни мер влияния кроме дистанций Кука и Махаланобиса. А если делать анализ не через модуль множественной регресссии, так анализ остатков ещё слабее. Любимый мной KyPlot (v.2.15) и то считает больше, хотя терминологическая путаница и здесь присутствует.

Автор: avorotniak 18.11.2009 - 22:18

[quote name='nokh' date='18.11.2009 - 18:15' post='8915']
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл.

Принцип определения дистанции Кука, DFFIT, DFBeta и CovRatio одинаков: удаляем наблюдение и считаем насколько изменяются параметры регрессии (по-английски такой метод называется leave-one-out). Leverage это то же самое, что и расстояние Махаланобиса. На русский язык я бы перевел это слово как рычаг. Для того, чтобы отдельное наблюдение значительно влияло на регрессионные коэфициенты оно должно иметь большой остаток и длинный рычаг (расстояние от центра облака).

Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.

Вот что дает программа R:

round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)

0.0004 0.0173 0.0499 0.5904 0.0062 0.0277 0.0045 0.0368 0.0068 0.7296

round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

0.0436 -0.3522 -0.7438 6.7472 -0.2956 -0.6818 -0.2565 -0.6551 -0.2287 1.0048

round(rstandard(g),4) Стандартизированные остатки (более 1)
0.0466 -0.3732 -0.7655 2.6332 -0.3140 -0.7058 -0.2730 -0.6798 -0.2436 1.0042

round(hatvalues(g),4) Рычаги или расстояние Махаланобиса оно же leverage (критическое значение 2р/n, 0,4)
0.2735 0.1992 0.1455 0.1455 0.1125 0.1001 0.1084 0.1373 0.1868 0.5913

round(dffits(g),4) DFFIT (критическое значение 2*sqrt(p/n), для нашего примера 0,9)
0.0267 -0.1756 -0.3069 2.7843 -0.1052 -0.2274 -0.0894 -0.2613 -0.1096 1.2087

Определение влияющих наблюдений служит для лучшей подгонки модели (model fitting). Исключаем эти наблюдения и проводим наново оценку модели. Тем самым снижаем ошибку предсказания.

Автор: nokh 19.11.2009 - 15:06

Сегодня исправил описку в своём предыдущем посте - вместо влияющих переменных конечно нужно было влияющие наблюдения. В эконометрике встретил "влиятельные наблюдения", что ближе к сути: влияют все, но не все из них влиятельные. Хорошей возможностью увидеть профессиональный перевод порадовал PASW (SPSS 18), где отныне по желанию всё по-русски. Поэтому приведу переводы оттуда:
Influence Statistics - статистики влияния
Deleted residuals - удаленные остатки
Centered Leverage - разбалансировка (отличается от Leverage, пока не понял что это).
CovRatio - ковариационное отношение

С R - та же петрушка, что и с KyPlot, видимо по одной книге составляли алгоритмы. То что в них называется "стандартизованные остатки" на самом деле является стьюдентизированными остатками.С калькулятором это становится очевидным. Стандартизация - деление на стандартное отклонение, стьюдентизация - деление на стандартную ошибку. Поэтому деля остаток на ст. ошибку мы никак не можем получить стандартизованные остатки, - только стьюдентизированные. В R эти функции скорее всего в самой старой библиотеке mass, нужно поискать что-то посовременнее и скорее всего эконометрическое. А стандартизованные остатки для этого примера таковы:
0,0397 -0,3340 -0,7076 2,4341 -0,2959 -0,6695 -0,2578 -0,6314 -0,2197 0,6420
Именно эти значения выдают в качестве standardized residual и PASW, и Statistica, - и они правы. Аналогично со стьюдентизированными остатками в R и KyPlot, которые на самом деле являются стьюдентизированными удалёнными остатками (проверял всё вручную - совпадает с PASW и Statistica).

Цитата(avorotniak @ 19.11.2009 - 01:18) *
... round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)
... round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

По части критических значений указанные Вами величины - ориентировочные. В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k (10-2=8). Т.о. критическое значение здесь 0,7568. Аналогично для всех стьюдентизированных показателей. Число степеней свободы равно n-k (8) и критическое значение для альфа 0,05 = 2,3060. Можно и конкретно рассчитать достигнутый уровень значимости: например для наблюдения #4 для стьюд. остатка (2,6332) P=0.030028, для удалённого стьюд. остатка (6,7472) P=0.000145. Однозначно выброс.
Расстояние Махаланобиса отличается от Leverage, хотя пропорционально (еще не решал). Для нашего примера.
Leverage: 0,27348 0,19917 0,14551 0,14551 0,11249 0,100010 0,10836 0,13725 0,18679 0,59133
Махаланобис: 1,56130 0,89257 0,40960 0,40960 0,11238 0,00093 0,07523 0,33529 0,78111 4,42198

Пройду тему до конца - подошью к теме страничку с правильными формулами (кое-как насобирал) и названиями.

Автор: Green 19.11.2009 - 15:20

Leverage - видела перевод как "воздействие", "индекс воздействия"

Автор: DoctorStat 19.11.2009 - 16:16

Я не специалист по выбросам, но с точки зрения статистики, для выявления сильно отклоняющихся наблюдений нужно проверять 0-ю гипотезу "выбросов нет" против альтернативной гипотезы "выбросы есть". Т.е. забиваешь данные в программу с этим тестом, а она в качестве результата выдает сильно уклоняющиеся наблюдения. Если такой программы еще не придумали, то следовательно дело обстоит намного сложнее, чем кажется. Скорее всего, без знания функции распределения наблюдений, невозможно определить наличие выбросов.

Автор: avorotniak 19.11.2009 - 16:50

Пересчитал вручную стандартизированые остатки. Согласен с nokh, спасибо. Доверяй, но проверяй.

По поводу расчета стандартизированных и стьюдентизированных остатков
residual / sigma это стандартизированный остаток
residual /(sigma*sqrt(1-leverage)) это стьюдентизированный остаток

Расстояние Махаланобиса и leverage определяют расстояние одного из наблюдений независимой переменной (фактора) до среднего арифметического этой переменной. То есть, концептуально, они измеряют одну и ту же меру, однако отличаются в своих масштабах. Методы расчета этих величин различны: leverage это элементы на диагонали проекционной матрицы (значения leverage находятся в пределах от 0 до 1), а расстояние Махаланобиса это стандартизированное расстояние от наблюдения до среднего арифметического, где стандартизация проводится при помощи обратной ковариационной матрицы линейной регрессии XX (Х это матрица плана).

Автор: avorotniak 19.11.2009 - 17:19

DoctorStat затронул очень интересную тему.
Обратите внимание на то, что все рассмотренные здесь методы для определения выбросов и влиятельных наблюдений основаны на классическом предположении о нормальном распределении ошибок линейной регрессии. Например, для стандартизации остатков используется стандартное отклонение, для расстояния Махаланобиса - среднеее арифметическое и т.д.
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь. Явное противоречие.
Думаю, что именно поэтому все эти методы очень относительны, а если имеется много атипичных наблюдений, то они просто не применимы. В таких случаях нужно подумать о замене среднего арифметического и стандартного отклонения их робастными эквивалентами.

Автор: Pinus 19.11.2009 - 17:36

Позвольте внести мой скромный вклад.
Вчера тоже разбирался примерно в этом направлении. Только по поводу стандартизованных остатков. В Statistica 6 (Fixed Nonlinear Regression и Multiple Linear Regression) есть анализ остатков, где есть раздел Outliers (выбросы). Упор, как я понял, сделан на анализ Standard Residual (стандартизованных остатков). Можно выводить 100 наиболее экстремальных наблюдений (наибольшие стандарт. остатки) или только те, значение которых больше 2-х сигма. При выводе значений, больших 2-х сигма, программа выделяет жирным номера наблюдений, которые признаются выбросами.

Вот расчеты для нашего примера:
Standard Residual (стандартизованные остатки):
0,039717 -0,333950 -0,707618 2,434108 -0,295854 -0,669522 -0,257758 -0,631425 -0,219662 0,641962
Deleted Residual (исключенные остатки):
0,06960 -0,53093 -1,05435 3,62681 -0,42442 -0,94725 -0,36806 -0,93182 -0,34391 2,00000
Cook's Distance (дистанция Кука):
0,000409 0,017318 0,049894 0,590380 0,006250 0,027705 0,004528 0,036760 0,006814 0,729587
Mahalanobis Distance (дистанция Махаланобиса):
1,561300 0,892570 0,409598 0,409598 0,112384 0,000929 0,075232 0,335294 0,781115 4,421981

Значение Standard Residual большее 2-х сигма только одно - наблюдение 4 (выброс).

Нашел на русском у Дрейпера, Смита (том 1, с. 190-191) по поводу выбросов следующее:
Величину e(i)/s часто называют единичным нормальным отклонением, образованным из остатка e(i). Величины e(i)/s, i = 1, 2, ?, n, можно исследовать с помощью общего графика и оценить, ошибочно ли предположение ε(i)/σ ~ N(0, 1). Поскольку с вероятностью 90% значения случайной величины N(0, 1) заключены в пределах (-1,96, 1,96), мы можем ожидать, что примерно 95% величин e(i)/s будут в пределах (-2, 2). Иногда удобно исследовать остатки этим способом, например при проверке выпадающих наблюдений (выбросов), см. параграф 3.8. Если число (n-p) мало, то при установлении 95%-ных пределов вместо нормального распределения можно использовать t(n-p)-распределение.
(Здесь e(i) и ε(i) - i-остатки в выборке и в генеральной совокупности соответственно;
s и σ - стандартное отклонение выборки и генеральной совокупности соответственно;
N(0, 1) - случайная величина с матожиданием, равным нулю, и дисперсией, равной единице - мое примечание).
Далее идет обоснование того, почему вместо e(i)/s точнее использовать e(i)/SQRT((1-r(ii))*s^2), но для большинства реальных задач разница небольшая.
И далее: Для некоторых частных видов экспериментальных планов критические значения поддаются вычислению. Это дает возможность использовать их для проверки того, не слишком ли велик наибольший нормированный остаток. (Подробности и ссылки см. в статье: Stefansky W. Rejecting outliers in factorial designs. - Technometrics, 1972, 14, p. 469-479).

Только я не понял, откуда они (Дрейпер и Смит) взяли для 90% пределы (-1,96, 1,96), а для 95% - (-2, 2)? На функцию Лапласа-Гаусса не похоже.

По поводу использования дистанций Кука и Махаланобиса для детекции выбросов: сбила меня с толку методичка одного университета (там так и написано, что для определения выбросов в Statistica используются эти критерии). Однако не в одной книге я об этом ничего не нашел. Везде об этих статистиках речь идет исключительно в контексте определения влияющих наблюдений (а это, как выяснилось, отдельная особая тема).
Отсюда вывод: не читайте методички незнакомых преподавателей, читайте первоисточники.

Автор: Pinus 19.11.2009 - 17:55

Цитата(avorotniak @ 20.11.2009 - 00:19) *
Но если мы ищем выбросы и их действительно много, то о какой нормальности может идти речь.

Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.

Автор: avorotniak 19.11.2009 - 19:05

Цитата(Pinus @ 19.11.2009 - 17:55) *
Я читал, что если выбросов более 3-4, то следует задуматься об однородности совокупности. В этом случае необходим тщательный анализ условий появления таких наблюдений, которые могут относится, например, к процессу с другими условиями, которые не были учтены.


Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.

Автор: Pinus 20.11.2009 - 13:58

nokh, развейте мои дилетантские соображения. Не пойму, чем так сильно стьюдентизированные остатки выигрывают у стандартизованных? Стандартизованные остатки, при выполнении предпосылок регрессионного анализа, для выборок n>30 имеют нормальное распределение Лапласа-Гаусса с матожиданием, равным нулю, и дисперсией, равной единице. Соответственно, с вероятностью 95% значения случайной величины (в нашем случае стандартизованные остатки) заключены в пределах (-1,96, 1,96). При малых выборках пользуемся распределением Стьюдента и получаем 95%-ные пределы от 2 и несколько более. Или я чего-то недопонимаю? И чего там Дрейпер со Смитом нагородили с 90%?

Автор: nokh 20.11.2009 - 15:50

Пока не готов ответить, ещё почитаю.

Автор: nokh 23.11.2009 - 08:08

Вот что по этому поводу есть в википедии:
"...Moreover, and most importantly, the residuals, unlike the errors, do not all have the same variance: the variance decreases as the corresponding x-value gets farther from the average x-value. This is a feature of the regression better fitting values at the ends of the domain, not the data itself, and is also reflected in the influence functions of various data points on the regression coefficients: endpoints have more influence. This can also be seen because the residuals at endpoints depends greatly on the slope of a fitted line, while the residuals at the middle are relatively insensitive to the slope.
The fact that the variances of the residuals differ, even though the variances of the true errors are all equal to each other, is the principal reason for the need for studentization."

Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены. Введение поправки на удалённость от центра (показатель влияния (leverage) входит в формулу станд. ошибки остатка) позволяет привести все остатки к сопоставимому масштабу. Выходит Дрейпер со Смитом сказали правду, но не всю smile.gif

Автор: Pinus 23.11.2009 - 12:44

Цитата(nokh @ 23.11.2009 - 15:08) *
Т.о. если использовать только стандартизацию, получившиеся остатки всё еще будут несопоставимы по величине, хотя, вероятно, асимптотически и будут нормально распределены.

Но ведь по сути-то нам и не надо их между собой сравнивать. Достаточно определить границы, за которыми с большой долей вероятности остатки можно считать выбросами. Стало быть можно использовать стандартизованные, и, пусть ограниченную, но родную Statistica 6. Ура! Ай да Дрейпер, ай да Смит!

Автор: Pinus 23.11.2009 - 12:48

Цитата(nokh @ 19.11.2009 - 22:06) *
В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k ...

Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?

Автор: nokh 25.11.2009 - 05:45

Цитата(Pinus @ 23.11.2009 - 15:48) *
Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли.

Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/letters/volume3number1/macdonald.pdf
Цитата(Pinus @ 23.11.2009 - 15:48) *
Кол-во параметров в модели (число k) ? это число коэффициентов уравнения?

Да, включая свободный член.

Автор: Pinus 25.11.2009 - 13:14

Спасибо!

Автор: Игорь 29.11.2009 - 19:50

По рассматриваемой теме очень рекомендую источник:

Von Eye A., Schuster C. Regression analysis for social sciences. - San Diego, CA: Academic Press, 1998.

Найти можно на Гигапедии.

Автор: Игорь 30.11.2009 - 10:13

Цитата(nokh @ 18.11.2009 - 19:15) *
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток

Не получим.

Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема.

Автор: Pinus 30.11.2009 - 16:58

Цитата(Игорь @ 30.11.2009 - 17:13) *
Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений.

Это называется Delete Residual?

Автор: nokh 30.11.2009 - 19:11

Цитата(Игорь @ 30.11.2009 - 12:13) *
Не получим...

Игорь, посмотрите ещё другие источники. Приводимые Вами объяснения я тоже встречал. Если не ошибаюсь - это идёт из авторитетного учебника 1985 года (пока лень автора искать). Но есть и другие. Для меня определяющим стало то, как считают известные стат. пакеты. Выше мы с avorotnyak выяснили, что стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot, а то как написал я - Statistica и SPSS. Я просчитал пример вручную и определился на какую сторону встать. Кроме того это просто логично - делим на ст. отклонение - получаем стандартизацию, делим на ст. ошибку - получаем стьюдентизацию (внутреннюю). Как я выше обещал - готовлю пакет формул с примерами расчёта, где собрал все распространённые показатели выбросов и влияния. Думаю, за неделю урывками управлюсь и выложу сюда. Кстати с расстоянием Кука тоже неразбериха - в одних источниках в формуле фигурирует знаменатель - k (число параметров регрессии) и столько же степеней свободы для стат. проверки, а в других - (k+1).

Автор: Игорь 30.11.2009 - 20:58

Цитата(nokh @ 30.11.2009 - 20:11) *
стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot

Еще AtteStat, начиная с версии 10.9.8. (модуль "Распознавание образов с обучением")
Цитата(nokh @ 30.11.2009 - 20:11) *
а то как написал я - Statistica и SPSS.

Может, там это как-то иначе называется.

Автор: nokh 30.11.2009 - 21:43

Цитата(Игорь @ 30.11.2009 - 22:58) *
Может, там это как-то иначе называется.

Для моего примера.
1 - Statistica
2 - PASW - как назвается
3 - PASW - как выдаётся

 

Автор: Игорь 1.12.2009 - 08:55

1. В книге Дэйвида "Порядковые статистики" (встречается в электронном виде) разъясняется суть стьюдентизации (с. 94). Он различает внешнюю стьюдентизацию и внутреннюю. Внешняя - это когда для стандартизации используется независимая от числителя среднеквадратичная оценка знаменателя. Внутренняя - когда оценка по исходной выборке. См. также книгу Кендалла, Стьюарта "Статистические выводы и связи" (в электронном виде встречается также), с. 170 и далее. Т.о., резюмируем: суть стьюдентизации (как способа стандартизации) - в независимости (!) оценок числителя и знаменателя. Следователь, т.н. внутренняя стьюдентизация - нонсенс. Это - просто стандартизация (с несколько иной оценкой знаменателя), а игры в терминологию только запутывают читателя и пользователя.

2. Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Перевод нехорош в обоих программах (почему - см. п. 1).

Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

Автор: DrgLena 1.12.2009 - 12:29

Цитата(Игорь @ 1.12.2009 - 09:55) *
а игры в терминологию только запутывают читателя и пользователя.

Вот я, как раз, запуталась. В поисках выхода - обращение к классике и англоязычная википедия, Игорь совершенно прав, разделяя внутреннюю и внешнюю стоюдентизацию. В принципе и Statistica и STATA, для анализа остатков для стьюдентизированных остатков приводит в хелпах одну формулу.
Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных. Мне кажется весьма полезным до проведения регрессионного анализа провести вначале анализ выбросов, в AttеStat большой выбор, а в Statistica последних версиях появился критерий Граббса. После чего провести многомерный контроль качества, в последних версиях статистики, карты Хотеллинга (T^2) по двум переменным у и х, что помогает исключить выскакивающие наблюдения до проведения регрессионного анализа.
Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий. И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные.

 chap2.pdf ( 762,98 килобайт ) : 1194
 

Автор: Игорь 1.12.2009 - 12:55

Цитата(DrgLena @ 1.12.2009 - 13:29) *
Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий.

http://attestatsoft.narod.ru. Это бесплатный хостинг. Раньше был коммерческий, но 1000 руб. за полгода жалко. Проект дохода не приносит, потому за коммерческий платить ни из чего.
Цитата(DrgLena @ 1.12.2009 - 13:29) *
И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные.

Разные. Но связанные простой зависимостью. Потому эквивалентные.

Когда о выбросах говорим, нужно уточнить - относительно чего. Относительно одной модели - это выбросы. Относительно другой могут и не быть таковыми. В теме обсуждались выбросы относительно гиперплоскости множественной регрессии. В источнике, который я указал пару постов назад, все хорошо описано. Насчет выбросов тоже.

Автор: DrgLena 1.12.2009 - 13:34

Игорь, за AtteStat ВАМ не просто большое спасибо, но низкий поклон.

Автор: Pinus 3.12.2009 - 07:57

Цитата(Игорь @ 1.12.2009 - 15:55) *
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя.
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже.

Автор: Игорь 3.12.2009 - 08:02

Цитата(Pinus @ 3.12.2009 - 07:57) *
Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже.

Модуль "Распознавание образов с обучением" (начиная с предпоследней версии), метод "множественный регрессионный анализ". Формулы, пояснения и ссылки в Справке.

Вывод будет примерно таким, как на прикрепленном рисунке. В примере использовался классический набор данных об ирисах Фишера (есть в Википедии). Результат полностью совпадает с опубликованными примерами (также с Microsoft Excel - там тоже в "Пакете анализа" есть множественная регрессия, кроме стьюдентизированных остатков и анализа на выбросы). Кстати, для ирисов Фишера получилось 11 подозрительных на выбросы наблюдений из 150 представленных.

Я бы вообще отказался от термина "удаленные" в применении к "стьюдентизированные", т.к. словосочетание предполагает, что могут быть и "неудаленные", а это нонсенс. К тому же у читателя сразу возникает вопрос, а что именно удалено в "удаленном остатке"? Тогда уж "стьюдентизированный остаток в случае удаления текущего наблюдения". Тогда понятно, что удален не остаток, а наблюдение. Словом, некачественный перевод и полная чепуха.

 

Автор: Pinus 3.12.2009 - 08:50

Цитата(DrgLena @ 1.12.2009 - 19:29) *
Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных.

На с.42 приводится эмпирическое значение порога тревожности для дистанции Кука D(i)>4/(n-p), где р ? количество предикторов. Для примера, который предложил Nokh, D(i)=0,4444. Если определять критическое значение, как квантиль F(0,5; k; n-k), т.е. так, как мы обсуждали раннее, то для того же примера F(0,5; k; n-k)= 0,7568. Разница приличная.
Если посмотреть на график, то претендентом на выброс является наблюдение 4 (Cook's Distance 0,5904), а претендентом на влияющее наблюдение ? 10 (Cook's Distance 0,7296). Если использовать порог тревожности, приведенный в пришпиленном Вами фрагменте книги, то оба наблюдения ? выбросы. Если использовать квантиль Фишера, то ни тот ни другой, хотя наблюдение 10 близко.
Может быть порог тревожности можно применять для детекции выделяющихся наблюдений вообще (и выбросов, и влияющих наблюдений), а квантиль Фишера только для влияющих наблюдений?

Автор: Игорь 3.12.2009 - 10:48

Цитата(DrgLena @ 1.12.2009 - 13:29) *
Стр 39-42 в пришпиленном файле

Хочу прояснить ситуацию насчет источника, на который ссылается DrgLena. Тем более, что источник очень хорош.

Название и официальные ссылки:
Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002.
http://www.nes.ru/russian/research/abstracts/2001/Kolenikov-r-.htm
http://www.exponenta.ru/soft/others/stata/stata.asp

Что характерно, версия книги от 2003 г. (якобы должна быть тут http://ideas.repec.org/c/boc/bocode/s417006.html, но не грузится, хотя у меня она есть) страниц на 20 расширена, но и утратила часть материала, например, по расстоянию Кука. Почему-то автор не счел нужным включить его в новую генерацию книги.

Еще замечание насчет AtteStat. Там не совсем точно считается стьюдентизированный размах (не делится на поправочный коэффициент к дисперсии) и нет расстояния Кука. Исправление (это несложно) и дополнение будет в ближайшее время в версии 10.9.10.

Автор: Pinus 3.12.2009 - 12:21

Игорь, спасибо за ссылки!

Автор: Pinus 3.12.2009 - 14:35

Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?

Автор: DrgLena 3.12.2009 - 15:37

Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.

 iris.RTF ( 146,4 килобайт ) : 425
 

Автор: Игорь 3.12.2009 - 18:44

Цитата(Pinus @ 3.12.2009 - 15:35) *
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?

Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной.

Терминология немного необычна для регрессионного анализа. В модуле представлены методы распознавания. Множественную регрессию можно также рассматривать с этой точки зрения. Как-то нужно было ввод упорядочить для различных методов.
Цитата(DrgLena @ 3.12.2009 - 16:37) *
Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.

Могут различаться по разным причинам. Во-первых, разные авторы имеют в виду не то же самое под одними и теми же терминами. Во-вторых, иногда не совсем понятно, как формулы вычислять. Так, к примеру, при вычислении стьюдентизтрованного остатка для вычисления MSE (в знаменателе) данное наблюдение исключается и модель ПОЛНОСТЬЮ строится без него, затем для него делается прогноз. А остаток (в числителе) как вычислять? В источниках (Колеников, Smith) - вроде бы не исключается наблюдение, берется из полной модели. НО! Разве это логично - брать остаток для полной модели? Обращаясь к Эфрону, исключать его надо! По идее бутстрепа. Хотя расхождения незначительны, честно говоря.

Далее, важно не "переборщить" в выводе. Например, я могу понять необходимость в ДИ оценки наблюдения. Но ДИ для весовых коэффициентов регрессии - зачем? Кому уж сильно надо, легко посчитать - дисперсия-то имеется, функции распределения в Excel есть. Зато дополнительно - выбросы помечаются красным цветом, влияющие наблюдения (по Куку) - синим. В примере с ирисами Фишера, правда, влияющих наблюдений не обнаружилось, но можно одно из наблюдений для проверки программы установить, скажем, в значение 10 - сразу виден эффект.

Автор: nokh 3.12.2009 - 20:05

Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно. Все три показателя взяты из популяции и т.о. ошибки любого признака из трёх, выбранного в качестве предиктора, а также двух из них вместе не могут рассматриваться ни малыми, ни находящимися под контролем исследователя. Более того эти ошибки будут, вероятно, ещё и коррелированы между собой и с ошибками отклика. Т.о. множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае, а в худшем - как вводящий в заблуждение. В пока соседней теме "Регрессионный анализ при ошибках в предикторах" выложил статью, где это подробно обсуждается.

Автор: Pinus 4.12.2009 - 12:01

Цитата(Игорь @ 4.12.2009 - 01:44) *
Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной.

Игорь, давайте подробно разберем.
Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор).
Интервал номеров классов или оценок ? это вектор зависимой переменной.
Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов.
Данные следует располагать в столбцах.
Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка?

Автор: Игорь 4.12.2009 - 13:27

Цитата(Pinus @ 4.12.2009 - 13:01) *
В чем может быть ошибка?

Единицу забыли (единичный столбец, соответствующий свободному члену регрессии). На картинке в одном из моих постов ее хорошо видно.

Результат полностью совпадает с монографией Von Eye и с известной программой - "Пакет анализа" Microsoft Excel. Конечно, в тех результатах, что есть в книге и в Excel.

Мы немного от темы отвлеклись и перешли к обсуждению работы с конкретным ПО.

Надо будет в Справку пример поместить. Как раз и ирисы Фишера сгодятся.
Цитата(nokh @ 3.12.2009 - 21:05) *
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно ... множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае...

Ну конечно, для этого. Есть данные, есть готовые ответы - что еще лучше для тестирования ПО. И хорошо, что есть репозитории данных, на которых можно протестировать разработанные алгоритмы. Кстати, на вопросы темы мы общими усилиями ответили, нашли весьма неплохие источники, указали ПО. Задача выполнена.

Автор: Pinus 4.12.2009 - 14:47

Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.

Автор: Игорь 4.12.2009 - 21:02

Цитата(Pinus @ 4.12.2009 - 15:47) *
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.

Ирисы Фишера настолько известны, что удостоились того, что вся матрица данных (!) лежит в Википедии http://en.wikipedia.org/wiki/Fisher_Iris. Оттуда их можно скопировать (через буфер обмена) в текстовый файл, а уже данный файл можно без потерь импортировать в Excel.

Отмечу, что по Интернету ходят и неправильные ирисы (встречал на сайте одного из американских университетов - видимо, Вы там их и взяли). Поэтому брать их рекомендую с указанного источника.

Кстати, в Википедии есть ссылка на оригинальную работу Фишера. Дело в том, что все труды Фишера доступны для свободного скачивания с сайта университета Аделаиды. Что может быть лучше для увековечивания памяти великого ученого!

Пример посчитан в книге Smith W.F. Experimental design for formulation - Alexandria, VA: Society for Industrial and Applied Mathematics, 2005. Правда, там опечатки есть в формулах. Правильные формулы в книге Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstracts/2001/Kolenikov-r-.htm или
http://www.exponenta.ru/soft/others/stata/stata.asp


Автор: Pinus 5.12.2009 - 01:36

Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Цитата(Игорь @ 1.12.2009 - 15:55) *
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя.
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.

Автор: Pinus 5.12.2009 - 02:06

Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится?
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).

Автор: nokh 5.12.2009 - 02:44

Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica.

Автор: Игорь 5.12.2009 - 12:36

Цитата(Pinus @ 5.12.2009 - 01:36) *
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Вот на этот вопрос ответ очень прост. Стандартизованные остатки считает метод "Регрессия" в стандартной надстройке "Пакет анализа" Microsoft Excel. Они полностью сходятся с AtteStat. Так что по поводу программы Statistica сделайте вывод сами.
Цитата(Pinus @ 5.12.2009 - 01:36) *
В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.

На ирисы очень хорошо ложится множественная регрессия. Следовательно, стандартизованные остатки и стьюдентизированные остатки не должны сильно различаться (навскидку - стьюдентизированные должны быть чуть-чуть большими, чем стандартизованные). Что подтверждают результаты AtteStat и не подтверждают результаты упомянутой Вами программы. Вывод аналогичен предыдущему абзацу.
Цитата(Pinus @ 5.12.2009 - 02:06) *
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).

Я уже писал, где и как взять правильные ирисы. Это потребует полминуты щелканья мышкой.
Цитата(nokh @ 5.12.2009 - 02:44) *
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем...

Суть не в ирисах (назовем их хоть гладиолусами - ничего не изменится), а в правильности той или иной программы, к обсуждению которых мы перешли. Поэтому факт правильности или неправильности той или иной программы - по моему, очень полезный результат.

Автор: DrgLena 5.12.2009 - 17:29

Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO):

Standardized Residual
-0,10202 (MedCallc)
-0,10202 (Statistica)
-0,10306 (NCSS)
-0,10306 (AtteStat)
-0.10202 (SPSS)

SPSS:
Standardized Residual -0.10202
Studentized Residual -0.10308
Studentized Deleted Residual -0.10273

NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

StatXact
Standardised Residuals -0.102
Studentised Residuals -0.1031
Deleted Residuals -0.1027

Автор: Игорь 5.12.2009 - 21:11

Цитата(DrgLena @ 5.12.2009 - 17:29) *
NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

Могу ответить, почему в примере Studentized Residual = -0,1027. Данная величина получается, если (формула 2.47 на с. 39 Коленикова) не делить на величину Корень(1 - hi). Если делить, получается как в AtteStat, а именно -0,10378. Откорректировав функцию SLeverage в AtteStat (исходные коды доступны), мы получим и в AtteStat аналогичный результат -0,1027. Верно ли это будет?

Справедливости ради отмечу, что данную ошибку выше допустили и мы (там, где я говорил, что стьюдентизированный остаток считается по тем же формулам). Вот в упомянутых программах - действительно по тем же. Почему надо делить, поясняется у Коленикова (формула 2.47), на с. 185 у Smith (формула 9.7), на с. 226 у Rousseeuw. Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.

Автор: Pinus 6.12.2009 - 00:32

Цитата(DrgLena @ 6.12.2009 - 00:29) *
Интерес чисто спортивный.. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Конечно поможет. Большое спасибо, DrgLena!

Автор: nokh 6.12.2009 - 11:31

Закончил вчерне свой труд, конструктивная критика приветствуется.

 Обнаружение_выбросов_в_регрессии.pdf ( 210,85 килобайт ) : 13283
 

Автор: DrgLena 7.12.2009 - 04:05

Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).

Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки.
Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно:
Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS).

Но эти программы считают не только эти, но и другие остатки.

По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения.

Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки.

Где эти программы берут формулы:
1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley.
2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall

Автор: Игорь 7.12.2009 - 08:03

Цитата(nokh @ 6.12.2009 - 11:31) *
Закончил вчерне свой труд, конструктивная критика приветствуется.

1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы.
2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать.
3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе.
Цитата(DrgLena @ 7.12.2009 - 04:05) *
программы считают по мнению Игоря по ошибочным формулам

Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же.

Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.

Автор: nokh 7.12.2009 - 08:34

Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости.
2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение.
3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности.
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили.

Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION



Автор: Игорь 7.12.2009 - 08:45

Цитата(nokh @ 7.12.2009 - 08:34) *
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал.

Совершенно верно.
Цитата(nokh @ 7.12.2009 - 08:34) *
А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают.

Непонятно, комплимент или критика. Да неважно. У меня преимущество - программами своими не торгую, т.к. не считаю вправе. Поэтому вопрос правильности - чисто спортивный, да еще научной честности. Поэтому, даже (гипотетически) если один из "монстров" посчитал неверно, а другие не осмелились противоречить авторитету и постарались сделать результаты похожими на него, для меня данные авторитеты не имеют совершенно никакой ценности. Каждый раз - с начала, с чистого листа, все на равных сдают экзамен на правильность - проекты с оборотами в миллиарды долларов и студенты-первокурсники. Только так.

По поводу Excel могу предположить (что-то слишком много предположений сегодня), что разработчик лет 15 назад заказал программирование "Пакета анализа" и с тех пор не дорабатывал и не исправлял его. То ли денег мало, то ли разработчика того нет уже. Плюс неадекватный перевод. Плюс характерное для данного производителя игнорирование критики. Вот и имеем, что имеем, за свои деньги.

На самом деле Excel не так плох. У меня есть подборка статей по данному вопросу. То, что он может посчитать, считает, в-общем, верно. Но это совсем другая тема.

Автор: nokh 7.12.2009 - 09:03

Цитата(Игорь @ 7.12.2009 - 10:45) *
Непонятно, комплимент или критика...

По части добросовестности и скрупулёзности подхода к написанию софта - конечно комплимент. Да и почему бы не продавать? Например, бесплатную бета-версию обкатывать, а номерную продавать. Страна большая, пусть немного, но покупатели должны быть. Хотя в маркетинге не силён... Я в посте выше добавил название книги - может пригодится.

Автор: DrgLena 7.12.2009 - 12:41

Цитата(Игорь @ 7.12.2009 - 08:03) *
Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.

Нет, я это как раз заметила, но не считаю Exсel статистической программой задающей стандарты анализа данных.

Цитата(Игорь @ 5.12.2009 - 21:11) *
Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.

Именно это ваше предположение я и проверяла, с помощью, в том числе, и работы nokh и сделала вывод, что программы считают правильно.

Автор: Игорь 7.12.2009 - 18:33

Мне очень понравились формулы nokh. Если считать по ним, все совпадает с "большими" программами, но не совпадает с Excel. Да и бог с ним.

Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения? Если делать так, то ни в одном наборе данных (и nokh, и Fisher iris) нет критических значений. Если же брать критическое значение для статистики Кука как у Коленикова (с. 40), т.е 4 / (n - k), то критическими оказываются точно те же наблюдения, что и выделяемые статистикой DFFITS:
- Для данных nokh - это наблюдения с номерами 4 и 10.
- Для данных Фишера - это наблюдения с номерами 123, 132, 135, 142, 145, 146.

Все вычисления выполнены в новой версии AtteStat. DrgLena, для данных Фишера (наблюдение 1) получается стандартизованное отклонение -0,102020725, стьдентизированное -0,102731401.

Пока не размещаю для скачивания - не решена указанная выше проблема со статистикой Кука.

Автор: DrgLena 7.12.2009 - 19:49

Отличная работа, как говорят математики, что и следовало доказать. С Куком тоже разберемся мирным путем. Но есть еще одна заморочка, видно я вышла за рамки спортивного интереса, непонятен один слайд в ссыле. Можно ли получить эти самые остатки, уж и не знаю как их теперь назвать, самые главные, не пересчитывая модель?
http://www.biostat.umn.edu/~chap/F22-MLR-Diagnostics.pdf

Автор: Игорь 8.12.2009 - 12:52

Цитата(Игорь @ 7.12.2009 - 18:33) *
Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения?

Если брать 50% процентиль F-распределения со степенями свободы k и (n - k), то для данных nokh получается значение, равное 0,75682846. Это плохое значение. Вообще ни к чему, ибо при предлагаемом подходе данных с влияющими наблюдениями вообще не встречалось в природе. Надо считать по формуле из монографии Коленикова. Тогда расчет сходится с DFFITS (в смысле выводов). Почему обязан сходиться? Потому что (см. Cohen, с. 404) мера Кука и мера DFFITS эквивалентны. Следовательно, выводы должны полностью совпадать.

Еще маленькое замечание. Если уж называть меры (именно меры - measures, а не расстояния и проч.) именами первооткрывателей, то DFFITS следовало бы назвать мерой Welsch и Kuh (они назвали меру DFITS). Источник - Chatterjee S., Hadi A.S. Regression Analysis by Examle. В источнике много и других мер есть.

И ссылку на McDonald убрал бы. А вот на Chatterjee бы добавил. Кстати, Гигапедия по поиску на слово "regression" дает 1000 наименований. Это только монографий.

Автор: Pinus 8.12.2009 - 15:33

Не берусь утверждать, но может быть, когда берется квантиль Фишера, то проверяются сугубо влияющие наблюдения (с большим плечом); в нескольких источниках дистанция Кука упоминалась исключительно для детекции влияющих наблюдений (не для выбросов). Критическое значение по Фишеру является большим, поскольку только влияющее наблюдение с большим плечом может дать такие значения дистанции Кука. Чтобы обеспечить такое значение для выброса это должно быть ну очень большое отклонение.
Если же использовать дистанцию Кука для выбросов, то формула критического значения как приводит Колеников.

Автор: nokh 8.12.2009 - 16:09

>Игорь. Не знаю можно ли эти меры считать эквивалентами. Действительно обе объединяют стьюд. остаток и h. Но в DFFITS стьюдентизация внешняя, остаток соответственно больше: в моём примере для наблюдения 4 аж в 2,5 раза. Не исключаю, что поэтому и результаты DFFITS получаются контрастнее. Но ещё нужно с цифрами и литературой покопаться.

>DrgLena. Проверял сегодня формулу для стьюд. удалённого остатка из вашего источника на стр. 26 - не работает. Но исходное выражение для связи между MSEi и MSE(i) верное, из него и вывел формулу, в итоге все сошлось. Для получения правильной формулы нужно в приведённой выражение в квадратных скобках возвести в степень 0,5 (- невнимательность автора презентации). Т.о. действительно можно не пересчитывать многократно модель с удалённым i-тым наблюдением, а получить всё из исходной. Такой алгоритм нахождения стьюд. удалённых остатков получается вообще очень экономичным, правда точность страдает и нужно больше десятичных знаков задействовать. И ещё непонятно со степенями свободы: здесь авторы из n-p ещё вычитают единицу...

Автор: avorotniak 8.12.2009 - 19:57

Думаю, что одной из причин различий в формулах расчета для влияющих наблюдений есть разделение стьюдентизации на внутреннюю и внешнюю.
С концептуальной точки зрения эти понятия кажутся довольно различными (при внешней стьюдентизации исключается одно наблюдение и нужно пересчитывать всю регрессию). Однако, можно математически показать связь между внутренней и внешней стьюдентизацией:

r (внешн) = r (внутр)*sqrt((n-p-1)/n-p-r(внутр)^2)

где n это количество наблюдений, р количество переменных, r (внешн) и r (внутр), соответственно, внешние и внутренние стьюдентизированные остатки.

S(i) = S*sqrt(n - p - r(внутр)^2/(n - p - 1))
где S(i) это mean square residuals без наблюдения i, а S - mean square residuals со всеми наблюдениями.

То есть, выбросив одно наблюдение, совсем не обязательно пересчитывать всю регрессию. Полное математическое доказательство этого факта не очень просто, его можно найти в книге C. Radhakrishna Rao, Helge Toutenburg ?Linear Models: Least Squares and Alternatives? на страницах 219-222.

Исходя из этого доказательства, можно найти связь между дистанцией Кука и DFFITS (Welsch-Kuh?s Distance)

Di = DFFITSi^2*(S(i)/p*S^2)
Где Di ? это дистанция Кука.

Если пренебречь разницей между S(i) и S, и принять как граничное значение для DFFITS, 2*sqrt(p/n), то граничным значением для дистанции Кука будет 4/n.
Из формулы, связывающей дистанцию Кука и DFFITS, можно сказать, что между ними имеется квадратическая зависимость, то есть дистанция Кука более чувствительна к изменениям остатков.

Автор: DrgLena 8.12.2009 - 21:50

Мне удалось найти один из двух источников на которые ссылаются в документациях к статпакетам, там показана связь внешних и внутренних стьюдентизированных остатков, которую приводит avorotniak, формула 2.2.10, стр 20. Вопрос с df тоже снимается.
Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall

Прикрепить не удалось 16,6 Мгб pdf

Но можно забрать с разрешения самого автора

http://www.stat.umn.edu/rir/

Автор: Игорь 9.12.2009 - 07:32

Цитата(DrgLena @ 8.12.2009 - 22:50) *
Но можно забрать с разрешения самого автора

Спасибо. Какие молодцы авторы.

Только регрессию при удалении остатка все-равно пересчитывать придется, т.к. иногда нужны еще и коэффициенты регрессий (при удаленных наблюдениях).

Автор: DrgLena 9.12.2009 - 13:31

Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Пожелание к работе nokh, в конце работы подвести итог диагностики для пользователя, с обоснованием удаления выбросов и сравнение прогноза для конкретного значения х по первой и окончательной модели, чтобы было ясно зачем все эти многочисленные инструменты, которые для одновариантной регрессии являются явным перебором. Если на линии регрессии провести 95% ДИ, то 4 значение в него не войдет и его исключение приводит к R^2=0,94.

Автор: avorotniak 10.12.2009 - 02:20

[quote name='DrgLena' date='9.12.2009 - 13:31' post='9081']
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Рад правильному пониманию не совсем четко изложенных мною рассуждений.

Автор: Игорь 10.12.2009 - 07:22

Только факты.

1. Chattejee, Hadi, 1988.
С. 117, формула (4.43). Распределение статистики (не Кука) следует F(a,k,n-k), где a=0,5.
С. 119, формула (4.44c). Статистика Кука.
С. 120. По аналогии с (4.43), т.е. бездоказательно (?), Кук предложил (1977, а предложил ли - см. п. 6 ниже) считать распределение статистики Кука также F(a,k,n-k). Далее Chattejee, Hadi доказано, что это не так.
Изложенное Chattejee, Hadi (1988) подчистую (номера формул только поменяли) списано Radhakrishna, Toutenburg, 1995 (с. 226).

2. Те же авторы (Chattejee, Hadi), 2006.
С. 104, формула (4.21). Статистика Кука. Ниже - распределение уже следует F(a,k,n-k).

3. Расчеты на ряде примеров (в том числе на данных nokh, 2009) свидетельствуют, что считая распределение F(a,k,n-k), влияющих наблюдений в природе не встречается (даже искусственно, к примеру, завысив одно из наблюдений в 5-10 раз). Считая порог как у Коленикова, результаты статистики Кука в большинстве случаев совпадают (один случай на ирисах, где не совпадает, но очень близко) со статистикой Welsch-Kuh (DFITS, DFFITS).

4. Не представлена (хотя исторически упоминается) статистика Кука в монографии Belsley, Kuh, Welsch (2004).

5. Von Eye, Schuster, 1998.
С. 88. Оригинальный подход. Ниже вольный перевод с иностранного с комментариями.
"Расстояние Кука Di имеет характеристики:
1) Хотя Di не распределена как F (точнее, не имеет ничего общего), она обычно оценивается (!) как Fa с k и n - k степенями свободы (пример "изумительной" логики).
2) Применяются следующие эмпирические правила:
- если p(Di) < 0.10, случай i имеет небольшое влияние на величину оценок параметра;
- если p(Di) > 0.50, случай i имеет значительное влияние на отклонение модели".
Т.е. по статистике Di вычисляется P-значение, затем сравнивается с двумя порогами. Впрочем, это не помогает.

6. Бегло просмотрел работу Cook R.D. Detection of influential observations in linear regression // Technometrics, 1977, vol. 19, no. 1, pp. 15-18. Она есть в свободном доступе http://www.ime.usp.br/~abe/lista/pdfWiH1zqnMHo.pdf.
Упоминаний (тем более строгого вывода) об F распределении не найдено.

AtteStat поправлен. Все совпадает с материалами nokh (спасибо большое ему). Кроме критических значений Кука и DFBETAS - взяты у Коленикова. Еще теория немного отличается (матрицы широко используются).

Автор: Pinus 22.01.2010 - 05:43

Цитата(avorotniak @ 20.11.2009 - 02:05) *
Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.

Не встречал ли кто, где об этом можно почитать. Выборка 230 наблюдений, выбросов получается 15 (по стьюд. остаткам). R^2=0,93 (вместе с выбросами). Стоит ли говорить о наличиии неоднородности совокупности?

Автор: Pinus 2.02.2010 - 10:37

Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?

Автор: Игорь 2.02.2010 - 17:02

Цитата(Pinus @ 2.02.2010 - 11:37) *
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?

Думаю, что второй и т.д. раз проверять будет некорректно. А в какой программе считали?

Автор: nokh 2.02.2010 - 18:17

Цитата(Pinus @ 2.02.2010 - 12:37) *
Возникла такая проблема...

У меня получилось такое рассуждение. Мы выбрали в качестве уровня значимости 5%-ный уровень. Он оставляет на ошибку первого рода (лжеоткрытие) 5%, т.е. 5% могут лишь показаться нам выбросами в силу выбранного уровня значимости. 10/160=6,25%, что весьма близко к 5%. Удалим их и получим ту же картину снова. Как и Игорь, думаю что многократное применение процедуры проверки на выбросы некорректно и уводит в строну от исходных данных. В качестве решения можно предложить использовать для детекции выбросов более строгий уровень значимости, например 1%-ный. Если рассуждения ошибочны - поправьте.

Автор: Pinus 3.02.2010 - 03:06

Цитата(Игорь @ 3.02.2010 - 00:02) *
А в какой программе считали?

Считал в NCSS 2004. Правильность расчета критериев сверена с другими программами и примерами с форума. Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).

Автор: Pinus 3.02.2010 - 03:11

Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать.
Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть?

Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения.
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?


 D1_3_от_Dпня.rar ( 2,74 килобайт ) : 414
 

Автор: Игорь 3.02.2010 - 12:12

Цитата(Pinus @ 3.02.2010 - 04:11) *
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Предположим, есть зависимость (функциональная) Y от X. При этом X точно задается, а Y измеряется с ошибками. Требование к данным ошибкам измерений Y - нормальность распределения [ошибок относительно неизвестного истинного Y, а не относительно среднего Y].

Но тут возможны разные ситуации. Во-первых, функция Y от X может быть известной [с точностью до параметров]. Во-вторых, она может быть неизвестной, но мы подберем нечто похожее, анализируя имеющиеся опытные данные - это параметрический подход. В-третьих, такую функцию подобрать не удастся (она может не иметь представления в виде совокупности элементарных функций) - это непараметрический подход (пример - метод скользящего среднего).

Обычно в регрессионном анализе рассматривают параметрические модели, основанные на нормальности ошибок. Что такое выбросы в такой трактовке - это наблюдения, критически отклоняющиеся от МОДЕЛИ (для ДРУГОЙ модели они могут не быть выбросами). Обнаружив и удалив данные выбросы, мы получим более хорошую МОДЕЛЬ (если она, естественно, была адекватно выбрана). Поэтому такая ситуация, когда после n прогонов из массива численностью n у нас ничего не останется, не должна иметь места при адекватной МОДЕЛИ.

К примеру, тестируя одноименный модуль AtteStat, я взял некоторую функциональную зависимость. 1. Затем слегка "испортил" ее. Затем подобрал [известную мне] регрессионную кривую. Все получилось хорошо. Параметры функции вычислены похожими на истинные. Выбросов не обнаружилось. 2. Теперь "испортил" один из Y сильно (раз в 5). Построил кривую. Данная испорченная варианта было локализована AtteStat как выброс. Убрал ее. Снова построил кривую. Выбросов нет. Все в порядке.
Цитата(Pinus @ 3.02.2010 - 04:06) *
Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).

DFFITS в регрессионном анализе AtteStat нет. Он есть во множественной регрессии (в модуле "Распознавание образов..."). Но расчеты показывают, что обычная проверка на равенство стандартизованного остатка нулю по критерию Стьюдента (это в AtteStat имеется) дает точно такой же результат. Так нужно ли загромождать? А вот DFBETAS для исследования влияния измерений на параметры модели, наверное, нужно сделать.

Автор: nokh 3.02.2010 - 20:28

Цитата(Pinus @ 3.02.2010 - 05:11) *
Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет. Наблюдаемая картина - типичный случай гетероскедастичности и бороться с ней можно преобразованием данных. Используя Бокса-Кокса из AtteStat для D1.3 лямбда = 0,607337058, а для Dпня лямбда = 0,503564775. Т.е более нормально распределены не исходные показатели а исходные в степени около 0,5 - т.е. квадратные корни из них. Почему - не знаю. Но попробуйте работать не с диаметрами, а корнями из них.


Автор: Pinus 4.02.2010 - 01:59

Цитата(nokh @ 4.02.2010 - 03:28) *
А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет.

Я имел ввиду не для выложенного примера, а вообще общий случай, если распределение предиктора сильно асимметрично. В моем исследовании в принципе такое наблюдается. Деревья в городе садят по большей мере стихийно (кто попало, где попало и сколько попало). Поэтому распределение возраста имеющихся насаждений не является отражением каких-то биологических закономерностей, а просто случайно. А если еще учесть, что для измерений берутся особи нормального роста и развития (без дефектов), то случайность структуры еще более усиливается. Предположим, оно сильно асимметрично (кол-во молодых деревьев сильно преобладает над кол-вом старых). И если делать выборку, например, простым случайным отбором или направленную выборку по какой-то схеме, то в целом распределение в выборке будет подобно распределению общей совокупности, а значит такими же будут и распределения переменных, которые сильно коррелируют с возрастом (в т.ч. диаметр ствола). И стало быть, если строить регрессию по такой выборке, то получим смещение центра тяжести, что может существенно повлиять на оценку влияния отдельных наблюдений.
Поэтому в качестве варианта выхода из ситуации предлагаю расслоенный отбор с непропорциональным размещением. Т.е. разбить первичную совокупность на слои (страты), однородные например по возрасту. И производить случайную выборку в каждом слое в таких пропорциях, которые обеспечат нам более-менее симметричное распределение предикторов. Поскольку нас не интересуют параметры стихийно образованного и потом искусственно преобразованного распределения (нас интересуют просто пары значений предиктора и отклика для изучения регрессии), то нам не надо заботится об особых пропорциях объемов в стратах для минимизации дисперсии этих параметров. А несмещенность оценок параметров, если бы они были нам нужны, при непропорциональном размещении все равно обеспечивается. Если же говорить о несмещенности оценок регрессии, то она обеспечивается случайным отбором в каждом из стратов.
Таким образом, мы можем не довольствоваться тем распределением переменных, которое у нас имеется (и соответственно не мучиться вопросом соответствует ли оно регрессионному или любому другому анализу), а получать такое распределение, какое нам надо. Если же выборка уже получена, то также можно сделать расслоенный отбор, но только в каких-то стратах взять все наблюдения, а в каких-то часть. Может быть конечно это не совсем та цель, которая обычно ставится перед расслоенным отбором, но вроде бы нарушений нет.
А то получается так, что мы говорим, что распределение переменных неважно и задаемся определенным необходимым объемом выборки, а может быть получится, что этот объем почти весь обеспечен за счет небольшого интервала предиктора, а в остальных интервалах представленность данных маленькая. Вот и будут разные перекосы (в т.ч. в оценках влияния).
Такие вот мысли. А как Вы по этому поводу думаете?


Автор: Pinus 4.03.2010 - 01:38

Nokh, в Вашем конспекте по выбросам и влияющим наблюдениям сказано, что критические значения для DFFITS и DFBETAS в случае малых и средних выборок принимаются равными 1 (в отчетах NCSS тоже также пишут). По критическим значениям в случае больших выборок я ссылаюсь на Коленикова, а для средних не могу найти литературного источника. Подскажите, пожалуйста, из какой книги Вы брали эту информацию? И, если не затруднит, ссылку где можно эту книгу скачать.
У меня сложилось, что малые выборки - это до 30 единиц, средние 30-100, большие свыше 100. Там такая же градация или как-то иначе?

Автор: nokh 6.03.2010 - 19:49

В конспекте все основные ссылки были. Пока нет времени смотреть подробнее, после праздников буду свободнее.

Автор: Pinus 7.03.2010 - 00:08

Спасибо, Nokh, был бы очень благодарен. Особо за ссылки download.

Автор: Pinus 24.06.2010 - 04:13

Существуют ли какие-либо специальные способы (критерии) для детекции выбросов в регрессиях с гетероскедастичными остатками? Корректно ли применение рассмотренных в этой ветке критериев (стьюд. остатки, DFFITS, DFBETTAS) для взвешенных остатков?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)