Выбросы и влияющие наблюдения |
Здравствуйте, гость ( Вход | Регистрация )
Выбросы и влияющие наблюдения |
4.12.2009 - 12:01
Сообщение
#61
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной. Игорь, давайте подробно разберем. Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор). Интервал номеров классов или оценок ? это вектор зависимой переменной. Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов. Данные следует располагать в столбцах. Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка? |
|
4.12.2009 - 13:27
Сообщение
#62
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
В чем может быть ошибка? Единицу забыли (единичный столбец, соответствующий свободному члену регрессии). На картинке в одном из моих постов ее хорошо видно. Результат полностью совпадает с монографией Von Eye и с известной программой - "Пакет анализа" Microsoft Excel. Конечно, в тех результатах, что есть в книге и в Excel. Мы немного от темы отвлеклись и перешли к обсуждению работы с конкретным ПО. Надо будет в Справку пример поместить. Как раз и ирисы Фишера сгодятся. Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно ... множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае... Ну конечно, для этого. Есть данные, есть готовые ответы - что еще лучше для тестирования ПО. И хорошо, что есть репозитории данных, на которых можно протестировать разработанные алгоритмы. Кстати, на вопросы темы мы общими усилиями ответили, нашли весьма неплохие источники, указали ПО. Задача выполнена. Сообщение отредактировал Игорь - 4.12.2009 - 13:59 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.12.2009 - 14:47
Сообщение
#63
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.
|
|
4.12.2009 - 21:02
Сообщение
#64
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки. Ирисы Фишера настолько известны, что удостоились того, что вся матрица данных (!) лежит в Википедии http://en.wikipedia.org/wiki/Fisher_Iris. Оттуда их можно скопировать (через буфер обмена) в текстовый файл, а уже данный файл можно без потерь импортировать в Excel. Отмечу, что по Интернету ходят и неправильные ирисы (встречал на сайте одного из американских университетов - видимо, Вы там их и взяли). Поэтому брать их рекомендую с указанного источника. Кстати, в Википедии есть ссылка на оригинальную работу Фишера. Дело в том, что все труды Фишера доступны для свободного скачивания с сайта университета Аделаиды. Что может быть лучше для увековечивания памяти великого ученого! Пример посчитан в книге Smith W.F. Experimental design for formulation - Alexandria, VA: Society for Industrial and Applied Mathematics, 2005. Правда, там опечатки есть в формулах. Правильные формулы в книге Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm или http://www.exponenta.ru/soft/others/stata/stata.asp Сообщение отредактировал Игорь - 4.12.2009 - 21:12 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
5.12.2009 - 01:36
Сообщение
#65
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза. |
|
5.12.2009 - 02:06
Сообщение
#66
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится?
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов). |
|
5.12.2009 - 02:44
Сообщение
#67
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica.
Сообщение отредактировал nokh - 5.12.2009 - 03:10 |
|
5.12.2009 - 12:36
Сообщение
#68
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные? Вот на этот вопрос ответ очень прост. Стандартизованные остатки считает метод "Регрессия" в стандартной надстройке "Пакет анализа" Microsoft Excel. Они полностью сходятся с AtteStat. Так что по поводу программы Statistica сделайте вывод сами. В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза. На ирисы очень хорошо ложится множественная регрессия. Следовательно, стандартизованные остатки и стьюдентизированные остатки не должны сильно различаться (навскидку - стьюдентизированные должны быть чуть-чуть большими, чем стандартизованные). Что подтверждают результаты AtteStat и не подтверждают результаты упомянутой Вами программы. Вывод аналогичен предыдущему абзацу. Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов). Я уже писал, где и как взять правильные ирисы. Это потребует полминуты щелканья мышкой. Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем... Суть не в ирисах (назовем их хоть гладиолусами - ничего не изменится), а в правильности той или иной программы, к обсуждению которых мы перешли. Поэтому факт правильности или неправильности той или иной программы - по моему, очень полезный результат. Сообщение отредактировал Игорь - 5.12.2009 - 12:43 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
5.12.2009 - 17:29
Сообщение
#69
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам.
Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO): Standardized Residual -0,10202 (MedCallc) -0,10202 (Statistica) -0,10306 (NCSS) -0,10306 (AtteStat) -0.10202 (SPSS) SPSS: Standardized Residual -0.10202 Studentized Residual -0.10308 Studentized Deleted Residual -0.10273 NCSS: Standardized Residual -0,10306 Studentized Residual -0,1027 StatXact Standardised Residuals -0.102 Studentised Residuals -0.1031 Deleted Residuals -0.1027 Сообщение отредактировал DrgLena - 5.12.2009 - 17:59 |
|
5.12.2009 - 21:11
Сообщение
#70
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
NCSS: Standardized Residual -0,10306 Studentized Residual -0,1027 Могу ответить, почему в примере Studentized Residual = -0,1027. Данная величина получается, если (формула 2.47 на с. 39 Коленикова) не делить на величину Корень(1 - hi). Если делить, получается как в AtteStat, а именно -0,10378. Откорректировав функцию SLeverage в AtteStat (исходные коды доступны), мы получим и в AtteStat аналогичный результат -0,1027. Верно ли это будет? Справедливости ради отмечу, что данную ошибку выше допустили и мы (там, где я говорил, что стьюдентизированный остаток считается по тем же формулам). Вот в упомянутых программах - действительно по тем же. Почему надо делить, поясняется у Коленикова (формула 2.47), на с. 185 у Smith (формула 9.7), на с. 226 у Rousseeuw. Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток. Сообщение отредактировал Игорь - 6.12.2009 - 15:51 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
6.12.2009 - 00:32
Сообщение
#71
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
|
|
6.12.2009 - 11:31
Сообщение
#72
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Закончил вчерне свой труд, конструктивная критика приветствуется.
Прикрепленные файлы
|
|
7.12.2009 - 04:05
Сообщение
#73
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).
Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки. Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно: Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS). Но эти программы считают не только эти, но и другие остатки. По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения. Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки. Где эти программы берут формулы: 1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley. 2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall Сообщение отредактировал DrgLena - 7.12.2009 - 04:07 |
|
7.12.2009 - 08:03
Сообщение
#74
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Закончил вчерне свой труд, конструктивная критика приветствуется. 1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы. 2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать. 3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе. программы считают по мнению Игоря по ошибочным формулам Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же. Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat. Сообщение отредактировал Игорь - 7.12.2009 - 08:35 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
7.12.2009 - 08:34
Сообщение
#75
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости. 2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение. 3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности. Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили. Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION Сообщение отредактировал nokh - 7.12.2009 - 08:49 |
|