![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).
Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки. Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно: Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS). Но эти программы считают не только эти, но и другие остатки. По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения. Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки. Где эти программы берут формулы: 1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley. 2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall Сообщение отредактировал DrgLena - 7.12.2009 - 04:07 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Закончил вчерне свой труд, конструктивная критика приветствуется. 1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы. 2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать. 3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе. программы считают по мнению Игоря по ошибочным формулам Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же. Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat. Сообщение отредактировал Игорь - 7.12.2009 - 08:35 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости. 2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение. 3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности. Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили. Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION Сообщение отредактировал nokh - 7.12.2009 - 08:49 |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. Совершенно верно. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Непонятно, комплимент или критика. Да неважно. У меня преимущество - программами своими не торгую, т.к. не считаю вправе. Поэтому вопрос правильности - чисто спортивный, да еще научной честности. Поэтому, даже (гипотетически) если один из "монстров" посчитал неверно, а другие не осмелились противоречить авторитету и постарались сделать результаты похожими на него, для меня данные авторитеты не имеют совершенно никакой ценности. Каждый раз - с начала, с чистого листа, все на равных сдают экзамен на правильность - проекты с оборотами в миллиарды долларов и студенты-первокурсники. Только так. По поводу Excel могу предположить (что-то слишком много предположений сегодня), что разработчик лет 15 назад заказал программирование "Пакета анализа" и с тех пор не дорабатывал и не исправлял его. То ли денег мало, то ли разработчика того нет уже. Плюс неадекватный перевод. Плюс характерное для данного производителя игнорирование критики. Вот и имеем, что имеем, за свои деньги. На самом деле Excel не так плох. У меня есть подборка статей по данному вопросу. То, что он может посчитать, считает, в-общем, верно. Но это совсем другая тема. Сообщение отредактировал Игорь - 7.12.2009 - 08:50 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() ![]() |