Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 > »   
Добавить ответ в эту темуОткрыть тему
> Выбросы и влияющие наблюдения
Pinus
сообщение 15.11.2009 - 14:04
Сообщение #16





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Андрей, получается, что статистика Кука и для выбросов, и для влияющих наблюдений определяется одинаково, и критическое значение статистики тоже?


Сообщение отредактировал Pinus - 15.11.2009 - 14:05
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 15.11.2009 - 16:55
Сообщение #17





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Кто может подсказать, как правильно перевести Linthurst Data? В словарях (в т.ч. математическом) не могу найти.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 15.11.2009 - 17:10
Сообщение #18





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Интересный и глубокий вопрос.
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.
Расстояние Кука учитывает 2 фактора leverage (расстояние от цента облака, также иногда его называют расстоянием Махаланобиса) и величину остатка.
На практике, выбросы и влияющие наблюдение определяются раздельно, однако, в принципе, можно использовать расстояние Кука для детекции выбросов, хотя это не совсем правильно с концептуальной точки зрения.

В отношении Linthurst Data
Rick Linthurst (1979) из North Carolina State University использовал эти данные для своей диссертации, то есть эти данные взяты из диссертации Rick Linthurst.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 16.11.2009 - 05:44
Сообщение #19





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(avorotniak @ 16.11.2009 - 00:10) *
Хотелось бы еще раз подчеркнуть, что выброс - это мера расстояния от центра облака, а влияющее наблюдение определяется совокупностью двух факторов - расстоянием от центра облака и величиной соответствующего остатка, то есть выброс не всегда будет влияющим наблюдением. Представьте себе график для двух переменных и одно наблюдение отдаленное от облака, находящееся на продолжении регрессионной прямой (в правом верхнем углу графика), такое наблюдение будет выбросом, но не обязательно оказывает существенное влияние на коэффициенты регрессии.

Тогда как понимать такую ситуацию: простая линейная регрессия; одно значение, подозреваемое нами как выброс, находится на прямой, проходящей через центр облака и параллельной оси ординат; второе значение, подозреваемое нами как выброс, находится в правой крайней верхней части облака (за пределы облака не выходит); расстояние от центра облака до первого значения меньше, чем расстояние от центра облака до второго значения, но остаток для первого значения в несколько раз больше средней величины всех остатков, а остаток для второго значения от среднего значения остатков сильно не отличается.
Если выброс определяется расстоянием до центра облака, а не величиной остатка, то первое значение выбросом не будет, хотя оно находится далеко за ?границей? облака, а второе будет, хотя оно находится внутри облака, но в периферической его части. Разве это так?
Наверно правильно будет, что выброс определяется величиной остатка, а влияющее наблюдение совокупностью двух факторов - расстоянием от центра облака и величиной остатка.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 16.11.2009 - 07:34
Сообщение #20





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Абсолютно согласен. Извините за дезинформацию.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 16.11.2009 - 15:53
Сообщение #21





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Вообще книги на русском, в которых в той или иной степени рассматривается проблема выбросов, есть, но там неизменно речь идет о выбросах вариационного ряда. Нашел, например, такие:
Закс Л. Статистическое оценивание. - М.: Статистика, 1976.
Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973.
Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Ч.1, 1980.
Реброва О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ Statistica, 2002.

О выбросах, как об остатках регрессии, нашел только в двухтомнике Дрейпер Н., Смит Г. Прикладной регрессионный анализ, том 1, 1986. Очень короткая информация, где выброс определяется так:
(Выбросом среди остатков называется остаток, который по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений) ? том 1, с. 199. Там есть ссылка на статью Anscombe F. J. Rejection of outliers. ? Technometrics, 1960, 2, p. 123-147.

Есть инфа, что в книге Химмельблау Д. Анализ процессов статистическими методами. - М.: Мир, 1973. - 957 с. тоже есть что-то о выбросах. В инете ее не могу найти, если у кого есть, гляньте, пожалуйста, о чем там речь (о регрессии или о вариационном ряде). Судя по названию, может быть и о регрессии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 16.11.2009 - 15:58
Сообщение #22





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(avorotniak @ 12.11.2009 - 12:46) *
Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Согласно с Tukey, критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot.

Андрей, Вы имели ввиду вариационный ряд?

Цитата(avorotniak @ 12.11.2009 - 12:46) *
В случае многовариантного анализа, определение выбросов очень сложно.

Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 16.11.2009 - 22:06
Сообщение #23





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Цитата(Pinus @ 16.11.2009 - 15:58) *
Андрей, Вы имели ввиду вариационный ряд?


Многовариантный анализ ? это множественная регрессия или имеется ввиду что-то другое?



Хотел бы уточнить мои комментарии по поводу выбросов при анализе одной переменной:
Вариационный ряд - упорядоченная по величине последовательность выборочных значений наблюдаемой случайной величины. Для построения boxplot используется вариационный ряд. Вначале определяется нижняя (Qi) и верхняя (Qs) квантили, затем - разница между наблюдениями соответствующими этим квантилям, d = Qs - Qi. Наблюдения, находящиеся на дистанции более 1,5d от верхней или нижней квантили называются умеренными выбросами, а те наблюдения, которые находятся на расстоянии 3d от соответствующих квантилей - значительными (тяжелыми) выбросами.

Извините, я употребил не совсем удачный термин - лучше сказать многомерный анализ. В многомерном анализе, в отличие от многофакторного (множественная регрессия), нет зависимой переменной. Я зацепил в моих комментариях многомерный анализ, чтобы показать понятие выбросов в различных контекстах: при анализе одной переменной, при анализе остатков линейной регрессии, в многомерном анализе. Однако, многомерный анализ не имеет отношения к обсуждаемой нами теме регрессии.



Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 17.11.2009 - 17:09
Сообщение #24





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.11.2009 - 18:15
Сообщение #25





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pinus @ 17.11.2009 - 20:09) *
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?

Тема оказалась интересной и не менее сложной. Анализ интернет-ресурсов в течение нескольких последних вечеров позволил выявить насколько всё запущено. Анализ остатков и влияющих наблюдений в существующем виде сложился в середине 1980-х гг, но (1) до сих пор нет единственного источника, где бы все эти меры были понятно описаны. Там где описаны все - широко используется векторно-матричная форма записи без подробностей, где есть подробные описания с примерами - есть только малое число мер. Сводить информацию воедино из разных источников мешает (2) отсутствие устоявшихся символьных обозначений и (3) повсеместные ошибки в формулах: как в книгах, так и в статьях и интернет-ресурсах. (4) Компьютерные программы для одних и тех же мер могут давать разные значения. (5) На русский язык многие термины ещё не переведены (поэтому, думаю, мы вправе использовать свои переводы приводя в скобках англ. термины).
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл. Если остаток разделить на стандартное отклонение ошибки регрессии (корень из среднего квадрата MSe ошибки регрессии), то получим стандартизованный остаток. Он показывает насколько наблюдение выделяется своим остатком от других, но много это или мало - мы решаем сами. Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток, который имеет t-распределение Стьюдента (если исходные данные были нормально распределены). Это позволяет оценить статистическую значимость выброса. Если посмотреть таблицу t-распределения, то видно, что при 5%-ном уровне значимости для большинства степеней свободы критическое значение близко к 2. На основании этого рекомендуют обращать внимание на стьюдентизированные остатки более 2 как на подозрительные - 95% из них являются выбросами. Однако есть одна сложность - в зависимости от своего расположения выброс может оказывать столь сильное искажающее влияние на подгонку всей модели, что его остаток (в т.ч. стьюдентизированный) будет относительно невелик. Поэтому для более надёжной детекции выброса при оценке дисперсии рассеяния наблюдений относительно линии регресии (МS ошибки) тестируемое на выброс наблюдение исключается из расчётов - отсюда и "Deleted". Т.о. теряется одна степень свободы, но получается независимая оценка дисперсии ошибки - независимая от влияния потенциального выброса. Когда выброс делится на соответствующую такой независимой дисперсии стандартную ошибку получается стьюдентизированный Deleted Residual. Поскольку в русском языке слово "удалённый" имеет ещё и значение "отдалённый" я бы перевел его как "исключённый стьюдентизированный остаток" или "стьюдентизированный остаток с удалением". Варианты принимаются smile.gif. Собственно Deleted Residual не считал, но принцип там такой-же, а практическая ценность - никакая по сравнению со стьюдентизированным Deleted Residual.
Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.
Рассчитанные стюдентизированные остатки и, особенно, стьюдентизированные остатки с удалением позволили признать наблюдение # 4 выбросом. Значимость для дистанции Кука посчитаю, но ее величина позволяет отнести к выбросу скорее наблюдение # 10 (0,7296), чем # 4 (0,5904), хотя даже на глаз видно что дело обстоит наоборот. Думаю и в множественной регресии дистанция Кука проявит такие же свойства и для детекции выбросов лучше ориентироваться на стьюдентизированные остатки. Оценка влияющих наблюдений - совсем другое дело (именно точка 10 во многом (на 29,6%) задаёт направление регрессионой линии), но я пока не разобрался что даёт обнаружение наиболее влияющих наблюдений на практике.

PS Удивительно, но программа Statistica не выдаёт ни leverage (показатель воздействия?), ни стьюдентизированных остатков, ни мер влияния кроме дистанций Кука и Махаланобиса. А если делать анализ не через модуль множественной регресссии, так анализ остатков ещё слабее. Любимый мной KyPlot (v.2.15) и то считает больше, хотя терминологическая путаница и здесь присутствует.

Сообщение отредактировал nokh - 19.11.2009 - 14:00
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 18.11.2009 - 22:18
Сообщение #26





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



[quote name='nokh' date='18.11.2009 - 18:15' post='8915']
На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл.

Принцип определения дистанции Кука, DFFIT, DFBeta и CovRatio одинаков: удаляем наблюдение и считаем насколько изменяются параметры регрессии (по-английски такой метод называется leave-one-out). Leverage это то же самое, что и расстояние Махаланобиса. На русский язык я бы перевел это слово как рычаг. Для того, чтобы отдельное наблюдение значительно влияло на регрессионные коэфициенты оно должно иметь большой остаток и длинный рычаг (расстояние от центра облака).

Для упражнений предлагаю следующий набор данных:
X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12
Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10.

Вот что дает программа R:

round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)

0.0004 0.0173 0.0499 0.5904 0.0062 0.0277 0.0045 0.0368 0.0068 0.7296

round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

0.0436 -0.3522 -0.7438 6.7472 -0.2956 -0.6818 -0.2565 -0.6551 -0.2287 1.0048

round(rstandard(g),4) Стандартизированные остатки (более 1)
0.0466 -0.3732 -0.7655 2.6332 -0.3140 -0.7058 -0.2730 -0.6798 -0.2436 1.0042

round(hatvalues(g),4) Рычаги или расстояние Махаланобиса оно же leverage (критическое значение 2р/n, 0,4)
0.2735 0.1992 0.1455 0.1455 0.1125 0.1001 0.1084 0.1373 0.1868 0.5913

round(dffits(g),4) DFFIT (критическое значение 2*sqrt(p/n), для нашего примера 0,9)
0.0267 -0.1756 -0.3069 2.7843 -0.1052 -0.2274 -0.0894 -0.2613 -0.1096 1.2087

Определение влияющих наблюдений служит для лучшей подгонки модели (model fitting). Исключаем эти наблюдения и проводим наново оценку модели. Тем самым снижаем ошибку предсказания.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.11.2009 - 15:06
Сообщение #27





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Сегодня исправил описку в своём предыдущем посте - вместо влияющих переменных конечно нужно было влияющие наблюдения. В эконометрике встретил "влиятельные наблюдения", что ближе к сути: влияют все, но не все из них влиятельные. Хорошей возможностью увидеть профессиональный перевод порадовал PASW (SPSS 18), где отныне по желанию всё по-русски. Поэтому приведу переводы оттуда:
Influence Statistics - статистики влияния
Deleted residuals - удаленные остатки
Centered Leverage - разбалансировка (отличается от Leverage, пока не понял что это).
CovRatio - ковариационное отношение

С R - та же петрушка, что и с KyPlot, видимо по одной книге составляли алгоритмы. То что в них называется "стандартизованные остатки" на самом деле является стьюдентизированными остатками.С калькулятором это становится очевидным. Стандартизация - деление на стандартное отклонение, стьюдентизация - деление на стандартную ошибку. Поэтому деля остаток на ст. ошибку мы никак не можем получить стандартизованные остатки, - только стьюдентизированные. В R эти функции скорее всего в самой старой библиотеке mass, нужно поискать что-то посовременнее и скорее всего эконометрическое. А стандартизованные остатки для этого примера таковы:
0,0397 -0,3340 -0,7076 2,4341 -0,2959 -0,6695 -0,2578 -0,6314 -0,2197 0,6420
Именно эти значения выдают в качестве standardized residual и PASW, и Statistica, - и они правы. Аналогично со стьюдентизированными остатками в R и KyPlot, которые на самом деле являются стьюдентизированными удалёнными остатками (проверял всё вручную - совпадает с PASW и Statistica).

Цитата(avorotniak @ 19.11.2009 - 01:18) *
... round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1)
... round(rstudent(g),4) Это студентизированные остатки (критическое значение 2)

По части критических значений указанные Вами величины - ориентировочные. В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k (10-2=8). Т.о. критическое значение здесь 0,7568. Аналогично для всех стьюдентизированных показателей. Число степеней свободы равно n-k (8) и критическое значение для альфа 0,05 = 2,3060. Можно и конкретно рассчитать достигнутый уровень значимости: например для наблюдения #4 для стьюд. остатка (2,6332) P=0.030028, для удалённого стьюд. остатка (6,7472) P=0.000145. Однозначно выброс.
Расстояние Махаланобиса отличается от Leverage, хотя пропорционально (еще не решал). Для нашего примера.
Leverage: 0,27348 0,19917 0,14551 0,14551 0,11249 0,100010 0,10836 0,13725 0,18679 0,59133
Махаланобис: 1,56130 0,89257 0,40960 0,40960 0,11238 0,00093 0,07523 0,33529 0,78111 4,42198

Пройду тему до конца - подошью к теме страничку с правильными формулами (кое-как насобирал) и названиями.

Сообщение отредактировал nokh - 19.11.2009 - 15:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 19.11.2009 - 15:20
Сообщение #28





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Leverage - видела перевод как "воздействие", "индекс воздействия"


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 19.11.2009 - 16:16
Сообщение #29





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Я не специалист по выбросам, но с точки зрения статистики, для выявления сильно отклоняющихся наблюдений нужно проверять 0-ю гипотезу "выбросов нет" против альтернативной гипотезы "выбросы есть". Т.е. забиваешь данные в программу с этим тестом, а она в качестве результата выдает сильно уклоняющиеся наблюдения. Если такой программы еще не придумали, то следовательно дело обстоит намного сложнее, чем кажется. Скорее всего, без знания функции распределения наблюдений, невозможно определить наличие выбросов.

Сообщение отредактировал DoctorStat - 19.11.2009 - 16:17


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 19.11.2009 - 16:50
Сообщение #30





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Пересчитал вручную стандартизированые остатки. Согласен с nokh, спасибо. Доверяй, но проверяй.

По поводу расчета стандартизированных и стьюдентизированных остатков
residual / sigma это стандартизированный остаток
residual /(sigma*sqrt(1-leverage)) это стьюдентизированный остаток

Расстояние Махаланобиса и leverage определяют расстояние одного из наблюдений независимой переменной (фактора) до среднего арифметического этой переменной. То есть, концептуально, они измеряют одну и ту же меру, однако отличаются в своих масштабах. Методы расчета этих величин различны: leverage это элементы на диагонали проекционной матрицы (значения leverage находятся в пределах от 0 до 1), а расстояние Махаланобиса это стандартизированное расстояние от наблюдения до среднего арифметического, где стандартизация проводится при помощи обратной ковариационной матрицы линейной регрессии XX (Х это матрица плана).


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  < 1 2 3 4 > » 
Добавить ответ в эту темуОткрыть тему