![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Сегодня исправил описку в своём предыдущем посте - вместо влияющих переменных конечно нужно было влияющие наблюдения. В эконометрике встретил "влиятельные наблюдения", что ближе к сути: влияют все, но не все из них влиятельные. Хорошей возможностью увидеть профессиональный перевод порадовал PASW (SPSS 18), где отныне по желанию всё по-русски. Поэтому приведу переводы оттуда:
Influence Statistics - статистики влияния Deleted residuals - удаленные остатки Centered Leverage - разбалансировка (отличается от Leverage, пока не понял что это). CovRatio - ковариационное отношение С R - та же петрушка, что и с KyPlot, видимо по одной книге составляли алгоритмы. То что в них называется "стандартизованные остатки" на самом деле является стьюдентизированными остатками.С калькулятором это становится очевидным. Стандартизация - деление на стандартное отклонение, стьюдентизация - деление на стандартную ошибку. Поэтому деля остаток на ст. ошибку мы никак не можем получить стандартизованные остатки, - только стьюдентизированные. В R эти функции скорее всего в самой старой библиотеке mass, нужно поискать что-то посовременнее и скорее всего эконометрическое. А стандартизованные остатки для этого примера таковы: 0,0397 -0,3340 -0,7076 2,4341 -0,2959 -0,6695 -0,2578 -0,6314 -0,2197 0,6420 Именно эти значения выдают в качестве standardized residual и PASW, и Statistica, - и они правы. Аналогично со стьюдентизированными остатками в R и KyPlot, которые на самом деле являются стьюдентизированными удалёнными остатками (проверял всё вручную - совпадает с PASW и Statistica). ... round(cooks.distance(g),4) Это расстояние Кука (критическое значение между 0,8 и 1) ... round(rstudent(g),4) Это студентизированные остатки (критическое значение 2) По части критических значений указанные Вами величины - ориентировочные. В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k (10-2=8). Т.о. критическое значение здесь 0,7568. Аналогично для всех стьюдентизированных показателей. Число степеней свободы равно n-k (8) и критическое значение для альфа 0,05 = 2,3060. Можно и конкретно рассчитать достигнутый уровень значимости: например для наблюдения #4 для стьюд. остатка (2,6332) P=0.030028, для удалённого стьюд. остатка (6,7472) P=0.000145. Однозначно выброс. Расстояние Махаланобиса отличается от Leverage, хотя пропорционально (еще не решал). Для нашего примера. Leverage: 0,27348 0,19917 0,14551 0,14551 0,11249 0,100010 0,10836 0,13725 0,18679 0,59133 Махаланобис: 1,56130 0,89257 0,40960 0,40960 0,11238 0,00093 0,07523 0,33529 0,78111 4,42198 Пройду тему до конца - подошью к теме страничку с правильными формулами (кое-как насобирал) и названиями. Сообщение отредактировал nokh - 19.11.2009 - 15:14 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
В нашем примере критическое значение для статистики Кука меньше 0,8. Это медиана F-распределения при числе степеней свободы df1=k (кол-во параметров в модели, для линейной регрессии=2), df2=n-k ... Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Кол-во параметров в модели (число k) ? это число коэффициентов уравнения? |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Почему берется именно медиана F-распределения? Nokh, поделитесь, пожалуйста, ссылкой на источник, в котором Вы это взяли. Почему так - не знаю, англоязычных источников где это прописано - много, например этот: http://www.massey.ac.nz/~wwiims/research/l...1/macdonald.pdf Кол-во параметров в модели (число k) ? это число коэффициентов уравнения? Да, включая свободный член. |
|
![]() |
![]() |
![]() ![]() |