Выбросы и влияющие наблюдения |
Здравствуйте, гость ( Вход | Регистрация )
Выбросы и влияющие наблюдения |
11.11.2009 - 02:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
10.12.2009 - 07:22
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Только факты.
1. Chattejee, Hadi, 1988. С. 117, формула (4.43). Распределение статистики (не Кука) следует F(a,k,n-k), где a=0,5. С. 119, формула (4.44c). Статистика Кука. С. 120. По аналогии с (4.43), т.е. бездоказательно (?), Кук предложил (1977, а предложил ли - см. п. 6 ниже) считать распределение статистики Кука также F(a,k,n-k). Далее Chattejee, Hadi доказано, что это не так. Изложенное Chattejee, Hadi (1988) подчистую (номера формул только поменяли) списано Radhakrishna, Toutenburg, 1995 (с. 226). 2. Те же авторы (Chattejee, Hadi), 2006. С. 104, формула (4.21). Статистика Кука. Ниже - распределение уже следует F(a,k,n-k). 3. Расчеты на ряде примеров (в том числе на данных nokh, 2009) свидетельствуют, что считая распределение F(a,k,n-k), влияющих наблюдений в природе не встречается (даже искусственно, к примеру, завысив одно из наблюдений в 5-10 раз). Считая порог как у Коленикова, результаты статистики Кука в большинстве случаев совпадают (один случай на ирисах, где не совпадает, но очень близко) со статистикой Welsch-Kuh (DFITS, DFFITS). 4. Не представлена (хотя исторически упоминается) статистика Кука в монографии Belsley, Kuh, Welsch (2004). 5. Von Eye, Schuster, 1998. С. 88. Оригинальный подход. Ниже вольный перевод с иностранного с комментариями. "Расстояние Кука Di имеет характеристики: 1) Хотя Di не распределена как F (точнее, не имеет ничего общего), она обычно оценивается (!) как Fa с k и n - k степенями свободы (пример "изумительной" логики). 2) Применяются следующие эмпирические правила: - если p(Di) < 0.10, случай i имеет небольшое влияние на величину оценок параметра; - если p(Di) > 0.50, случай i имеет значительное влияние на отклонение модели". Т.е. по статистике Di вычисляется P-значение, затем сравнивается с двумя порогами. Впрочем, это не помогает. 6. Бегло просмотрел работу Cook R.D. Detection of influential observations in linear regression // Technometrics, 1977, vol. 19, no. 1, pp. 15-18. Она есть в свободном доступе http://www.ime.usp.br/~abe/lista/pdfWiH1zqnMHo.pdf. Упоминаний (тем более строгого вывода) об F распределении не найдено. AtteStat поправлен. Все совпадает с материалами nokh (спасибо большое ему). Кроме критических значений Кука и DFBETAS - взяты у Коленикова. Еще теория немного отличается (матрицы широко используются). Сообщение отредактировал Игорь - 11.12.2009 - 18:29 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|