Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  « < 4 5 6 7 >  
Добавить ответ в эту темуОткрыть тему
> Выбросы и влияющие наблюдения
Игорь
сообщение 7.12.2009 - 08:45
Сообщение #76





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 7.12.2009 - 08:34) *
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал.

Совершенно верно.
Цитата(nokh @ 7.12.2009 - 08:34) *
А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают.

Непонятно, комплимент или критика. Да неважно. У меня преимущество - программами своими не торгую, т.к. не считаю вправе. Поэтому вопрос правильности - чисто спортивный, да еще научной честности. Поэтому, даже (гипотетически) если один из "монстров" посчитал неверно, а другие не осмелились противоречить авторитету и постарались сделать результаты похожими на него, для меня данные авторитеты не имеют совершенно никакой ценности. Каждый раз - с начала, с чистого листа, все на равных сдают экзамен на правильность - проекты с оборотами в миллиарды долларов и студенты-первокурсники. Только так.

По поводу Excel могу предположить (что-то слишком много предположений сегодня), что разработчик лет 15 назад заказал программирование "Пакета анализа" и с тех пор не дорабатывал и не исправлял его. То ли денег мало, то ли разработчика того нет уже. Плюс неадекватный перевод. Плюс характерное для данного производителя игнорирование критики. Вот и имеем, что имеем, за свои деньги.

На самом деле Excel не так плох. У меня есть подборка статей по данному вопросу. То, что он может посчитать, считает, в-общем, верно. Но это совсем другая тема.

Сообщение отредактировал Игорь - 7.12.2009 - 08:50


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.12.2009 - 09:03
Сообщение #77





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 7.12.2009 - 10:45) *
Непонятно, комплимент или критика...

По части добросовестности и скрупулёзности подхода к написанию софта - конечно комплимент. Да и почему бы не продавать? Например, бесплатную бета-версию обкатывать, а номерную продавать. Страна большая, пусть немного, но покупатели должны быть. Хотя в маркетинге не силён... Я в посте выше добавил название книги - может пригодится.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 7.12.2009 - 12:41
Сообщение #78





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Игорь @ 7.12.2009 - 08:03) *
Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.

Нет, я это как раз заметила, но не считаю Exсel статистической программой задающей стандарты анализа данных.

Цитата(Игорь @ 5.12.2009 - 21:11) *
Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.

Именно это ваше предположение я и проверяла, с помощью, в том числе, и работы nokh и сделала вывод, что программы считают правильно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 7.12.2009 - 18:33
Сообщение #79





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Мне очень понравились формулы nokh. Если считать по ним, все совпадает с "большими" программами, но не совпадает с Excel. Да и бог с ним.

Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения? Если делать так, то ни в одном наборе данных (и nokh, и Fisher iris) нет критических значений. Если же брать критическое значение для статистики Кука как у Коленикова (с. 40), т.е 4 / (n - k), то критическими оказываются точно те же наблюдения, что и выделяемые статистикой DFFITS:
- Для данных nokh - это наблюдения с номерами 4 и 10.
- Для данных Фишера - это наблюдения с номерами 123, 132, 135, 142, 145, 146.

Все вычисления выполнены в новой версии AtteStat. DrgLena, для данных Фишера (наблюдение 1) получается стандартизованное отклонение -0,102020725, стьдентизированное -0,102731401.

Пока не размещаю для скачивания - не решена указанная выше проблема со статистикой Кука.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 7.12.2009 - 19:49
Сообщение #80





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Отличная работа, как говорят математики, что и следовало доказать. С Куком тоже разберемся мирным путем. Но есть еще одна заморочка, видно я вышла за рамки спортивного интереса, непонятен один слайд в ссыле. Можно ли получить эти самые остатки, уж и не знаю как их теперь назвать, самые главные, не пересчитывая модель?
http://www.biostat.umn.edu/~chap/F22-MLR-Diagnostics.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 8.12.2009 - 12:52
Сообщение #81





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Игорь @ 7.12.2009 - 18:33) *
Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения?

Если брать 50% процентиль F-распределения со степенями свободы k и (n - k), то для данных nokh получается значение, равное 0,75682846. Это плохое значение. Вообще ни к чему, ибо при предлагаемом подходе данных с влияющими наблюдениями вообще не встречалось в природе. Надо считать по формуле из монографии Коленикова. Тогда расчет сходится с DFFITS (в смысле выводов). Почему обязан сходиться? Потому что (см. Cohen, с. 404) мера Кука и мера DFFITS эквивалентны. Следовательно, выводы должны полностью совпадать.

Еще маленькое замечание. Если уж называть меры (именно меры - measures, а не расстояния и проч.) именами первооткрывателей, то DFFITS следовало бы назвать мерой Welsch и Kuh (они назвали меру DFITS). Источник - Chatterjee S., Hadi A.S. Regression Analysis by Examle. В источнике много и других мер есть.

И ссылку на McDonald убрал бы. А вот на Chatterjee бы добавил. Кстати, Гигапедия по поиску на слово "regression" дает 1000 наименований. Это только монографий.

Сообщение отредактировал Игорь - 9.12.2009 - 07:02


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 8.12.2009 - 15:33
Сообщение #82





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Не берусь утверждать, но может быть, когда берется квантиль Фишера, то проверяются сугубо влияющие наблюдения (с большим плечом); в нескольких источниках дистанция Кука упоминалась исключительно для детекции влияющих наблюдений (не для выбросов). Критическое значение по Фишеру является большим, поскольку только влияющее наблюдение с большим плечом может дать такие значения дистанции Кука. Чтобы обеспечить такое значение для выброса это должно быть ну очень большое отклонение.
Если же использовать дистанцию Кука для выбросов, то формула критического значения как приводит Колеников.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 8.12.2009 - 16:09
Сообщение #83





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



>Игорь. Не знаю можно ли эти меры считать эквивалентами. Действительно обе объединяют стьюд. остаток и h. Но в DFFITS стьюдентизация внешняя, остаток соответственно больше: в моём примере для наблюдения 4 аж в 2,5 раза. Не исключаю, что поэтому и результаты DFFITS получаются контрастнее. Но ещё нужно с цифрами и литературой покопаться.

>DrgLena. Проверял сегодня формулу для стьюд. удалённого остатка из вашего источника на стр. 26 - не работает. Но исходное выражение для связи между MSEi и MSE(i) верное, из него и вывел формулу, в итоге все сошлось. Для получения правильной формулы нужно в приведённой выражение в квадратных скобках возвести в степень 0,5 (- невнимательность автора презентации). Т.о. действительно можно не пересчитывать многократно модель с удалённым i-тым наблюдением, а получить всё из исходной. Такой алгоритм нахождения стьюд. удалённых остатков получается вообще очень экономичным, правда точность страдает и нужно больше десятичных знаков задействовать. И ещё непонятно со степенями свободы: здесь авторы из n-p ещё вычитают единицу...

Сообщение отредактировал nokh - 8.12.2009 - 16:31
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 8.12.2009 - 19:57
Сообщение #84





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Думаю, что одной из причин различий в формулах расчета для влияющих наблюдений есть разделение стьюдентизации на внутреннюю и внешнюю.
С концептуальной точки зрения эти понятия кажутся довольно различными (при внешней стьюдентизации исключается одно наблюдение и нужно пересчитывать всю регрессию). Однако, можно математически показать связь между внутренней и внешней стьюдентизацией:

r (внешн) = r (внутр)*sqrt((n-p-1)/n-p-r(внутр)^2)

где n это количество наблюдений, р количество переменных, r (внешн) и r (внутр), соответственно, внешние и внутренние стьюдентизированные остатки.

S(i) = S*sqrt(n - p - r(внутр)^2/(n - p - 1))
где S(i) это mean square residuals без наблюдения i, а S - mean square residuals со всеми наблюдениями.

То есть, выбросив одно наблюдение, совсем не обязательно пересчитывать всю регрессию. Полное математическое доказательство этого факта не очень просто, его можно найти в книге C. Radhakrishna Rao, Helge Toutenburg ?Linear Models: Least Squares and Alternatives? на страницах 219-222.

Исходя из этого доказательства, можно найти связь между дистанцией Кука и DFFITS (Welsch-Kuh?s Distance)

Di = DFFITSi^2*(S(i)/p*S^2)
Где Di ? это дистанция Кука.

Если пренебречь разницей между S(i) и S, и принять как граничное значение для DFFITS, 2*sqrt(p/n), то граничным значением для дистанции Кука будет 4/n.
Из формулы, связывающей дистанцию Кука и DFFITS, можно сказать, что между ними имеется квадратическая зависимость, то есть дистанция Кука более чувствительна к изменениям остатков.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 8.12.2009 - 21:50
Сообщение #85





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Мне удалось найти один из двух источников на которые ссылаются в документациях к статпакетам, там показана связь внешних и внутренних стьюдентизированных остатков, которую приводит avorotniak, формула 2.2.10, стр 20. Вопрос с df тоже снимается.
Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall

Прикрепить не удалось 16,6 Мгб pdf

Но можно забрать с разрешения самого автора

http://www.stat.umn.edu/rir/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 9.12.2009 - 07:32
Сообщение #86





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 8.12.2009 - 22:50) *
Но можно забрать с разрешения самого автора

Спасибо. Какие молодцы авторы.

Только регрессию при удалении остатка все-равно пересчитывать придется, т.к. иногда нужны еще и коэффициенты регрессий (при удаленных наблюдениях).


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 9.12.2009 - 13:31
Сообщение #87





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Пожелание к работе nokh, в конце работы подвести итог диагностики для пользователя, с обоснованием удаления выбросов и сравнение прогноза для конкретного значения х по первой и окончательной модели, чтобы было ясно зачем все эти многочисленные инструменты, которые для одновариантной регрессии являются явным перебором. Если на линии регрессии провести 95% ДИ, то 4 значение в него не войдет и его исключение приводит к R^2=0,94.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 10.12.2009 - 02:20
Сообщение #88





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



[quote name='DrgLena' date='9.12.2009 - 13:31' post='9081']
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Рад правильному пониманию не совсем четко изложенных мною рассуждений.

Сообщение отредактировал avorotniak - 10.12.2009 - 02:23


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 10.12.2009 - 07:22
Сообщение #89





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Только факты.

1. Chattejee, Hadi, 1988.
С. 117, формула (4.43). Распределение статистики (не Кука) следует F(a,k,n-k), где a=0,5.
С. 119, формула (4.44c). Статистика Кука.
С. 120. По аналогии с (4.43), т.е. бездоказательно (?), Кук предложил (1977, а предложил ли - см. п. 6 ниже) считать распределение статистики Кука также F(a,k,n-k). Далее Chattejee, Hadi доказано, что это не так.
Изложенное Chattejee, Hadi (1988) подчистую (номера формул только поменяли) списано Radhakrishna, Toutenburg, 1995 (с. 226).

2. Те же авторы (Chattejee, Hadi), 2006.
С. 104, формула (4.21). Статистика Кука. Ниже - распределение уже следует F(a,k,n-k).

3. Расчеты на ряде примеров (в том числе на данных nokh, 2009) свидетельствуют, что считая распределение F(a,k,n-k), влияющих наблюдений в природе не встречается (даже искусственно, к примеру, завысив одно из наблюдений в 5-10 раз). Считая порог как у Коленикова, результаты статистики Кука в большинстве случаев совпадают (один случай на ирисах, где не совпадает, но очень близко) со статистикой Welsch-Kuh (DFITS, DFFITS).

4. Не представлена (хотя исторически упоминается) статистика Кука в монографии Belsley, Kuh, Welsch (2004).

5. Von Eye, Schuster, 1998.
С. 88. Оригинальный подход. Ниже вольный перевод с иностранного с комментариями.
"Расстояние Кука Di имеет характеристики:
1) Хотя Di не распределена как F (точнее, не имеет ничего общего), она обычно оценивается (!) как Fa с k и n - k степенями свободы (пример "изумительной" логики).
2) Применяются следующие эмпирические правила:
- если p(Di) < 0.10, случай i имеет небольшое влияние на величину оценок параметра;
- если p(Di) > 0.50, случай i имеет значительное влияние на отклонение модели".
Т.е. по статистике Di вычисляется P-значение, затем сравнивается с двумя порогами. Впрочем, это не помогает.

6. Бегло просмотрел работу Cook R.D. Detection of influential observations in linear regression // Technometrics, 1977, vol. 19, no. 1, pp. 15-18. Она есть в свободном доступе http://www.ime.usp.br/~abe/lista/pdfWiH1zqnMHo.pdf.
Упоминаний (тем более строгого вывода) об F распределении не найдено.

AtteStat поправлен. Все совпадает с материалами nokh (спасибо большое ему). Кроме критических значений Кука и DFBETAS - взяты у Коленикова. Еще теория немного отличается (матрицы широко используются).

Сообщение отредактировал Игорь - 11.12.2009 - 18:29


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 22.01.2010 - 05:43
Сообщение #90





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(avorotniak @ 20.11.2009 - 02:05) *
Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.

Не встречал ли кто, где об этом можно почитать. Выборка 230 наблюдений, выбросов получается 15 (по стьюд. остаткам). R^2=0,93 (вместе с выбросами). Стоит ли говорить о наличиии неоднородности совокупности?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  « < 4 5 6 7 >
Добавить ответ в эту темуОткрыть тему