Выбросы и влияющие наблюдения |
Здравствуйте, гость ( Вход | Регистрация )
Выбросы и влияющие наблюдения |
11.11.2009 - 02:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
17.11.2009 - 17:09
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются?
|
|
18.11.2009 - 18:15
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Как понять Deleted Residual (удаленные остатки)? Это каким-то образом преобразованные остатки, наподобие Standard Residual? Как они определяются и интерпретируются? Тема оказалась интересной и не менее сложной. Анализ интернет-ресурсов в течение нескольких последних вечеров позволил выявить насколько всё запущено. Анализ остатков и влияющих наблюдений в существующем виде сложился в середине 1980-х гг, но (1) до сих пор нет единственного источника, где бы все эти меры были понятно описаны. Там где описаны все - широко используется векторно-матричная форма записи без подробностей, где есть подробные описания с примерами - есть только малое число мер. Сводить информацию воедино из разных источников мешает (2) отсутствие устоявшихся символьных обозначений и (3) повсеместные ошибки в формулах: как в книгах, так и в статьях и интернет-ресурсах. (4) Компьютерные программы для одних и тех же мер могут давать разные значения. (5) На русский язык многие термины ещё не переведены (поэтому, думаю, мы вправе использовать свои переводы приводя в скобках англ. термины). На сегодня. Пока для детекции выбросов мне однозначно понравились стьюдентизированные остатки по сравнению как с дистанцией Кука, так и расстоянием Махаланобиса. Другие меры влияния (нестандартизованные и стандартизованные DFFIT, DFBeta, а также CovRatio) ещё не прошёл. Если остаток разделить на стандартное отклонение ошибки регрессии (корень из среднего квадрата MSe ошибки регрессии), то получим стандартизованный остаток. Он показывает насколько наблюдение выделяется своим остатком от других, но много это или мало - мы решаем сами. Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток, который имеет t-распределение Стьюдента (если исходные данные были нормально распределены). Это позволяет оценить статистическую значимость выброса. Если посмотреть таблицу t-распределения, то видно, что при 5%-ном уровне значимости для большинства степеней свободы критическое значение близко к 2. На основании этого рекомендуют обращать внимание на стьюдентизированные остатки более 2 как на подозрительные - 95% из них являются выбросами. Однако есть одна сложность - в зависимости от своего расположения выброс может оказывать столь сильное искажающее влияние на подгонку всей модели, что его остаток (в т.ч. стьюдентизированный) будет относительно невелик. Поэтому для более надёжной детекции выброса при оценке дисперсии рассеяния наблюдений относительно линии регресии (МS ошибки) тестируемое на выброс наблюдение исключается из расчётов - отсюда и "Deleted". Т.о. теряется одна степень свободы, но получается независимая оценка дисперсии ошибки - независимая от влияния потенциального выброса. Когда выброс делится на соответствующую такой независимой дисперсии стандартную ошибку получается стьюдентизированный Deleted Residual. Поскольку в русском языке слово "удалённый" имеет ещё и значение "отдалённый" я бы перевел его как "исключённый стьюдентизированный остаток" или "стьюдентизированный остаток с удалением". Варианты принимаются . Собственно Deleted Residual не считал, но принцип там такой-же, а практическая ценность - никакая по сравнению со стьюдентизированным Deleted Residual. Для упражнений предлагаю следующий набор данных: X: 1, 2, 3, 3, 4, 5, 6, 7, 8, 12 Y: 4, 4, 4, 8, 5, 5, 6, 6, 7, 10. Рассчитанные стюдентизированные остатки и, особенно, стьюдентизированные остатки с удалением позволили признать наблюдение # 4 выбросом. Значимость для дистанции Кука посчитаю, но ее величина позволяет отнести к выбросу скорее наблюдение # 10 (0,7296), чем # 4 (0,5904), хотя даже на глаз видно что дело обстоит наоборот. Думаю и в множественной регресии дистанция Кука проявит такие же свойства и для детекции выбросов лучше ориентироваться на стьюдентизированные остатки. Оценка влияющих наблюдений - совсем другое дело (именно точка 10 во многом (на 29,6%) задаёт направление регрессионой линии), но я пока не разобрался что даёт обнаружение наиболее влияющих наблюдений на практике. PS Удивительно, но программа Statistica не выдаёт ни leverage (показатель воздействия?), ни стьюдентизированных остатков, ни мер влияния кроме дистанций Кука и Махаланобиса. А если делать анализ не через модуль множественной регресссии, так анализ остатков ещё слабее. Любимый мной KyPlot (v.2.15) и то считает больше, хотя терминологическая путаница и здесь присутствует. Сообщение отредактировал nokh - 19.11.2009 - 14:00 |
|
30.11.2009 - 10:13
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Лучше разделить остаток не на ст. отклонение, а на ст. ошибку регрессии - при этом получим стьюдентизированный остаток Не получим. Стьюдентизированный остаток считается так же, как обычный (в смысле - по тем же формулам), за исключением того, что для вычисления стьюдентизированного остатка данного наблюдения само это наблюдение исключается из расчета коэффициентов регрессии и прочих параметров. Т.о., прогноз для данного наблюдения делается на основе всех остальных наблюдений, за исключением его самого. Благодаря такому подходу стандартная ошибка для каждого наблюдения отличается от прочих наблюдений. Такой подход предполагает большое число вычислений - регрессия фактически строится столько раз, сколько наблюдений мы имеем. Хотя при современном уровне развития вычислительной техники это не проблема. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|