Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  « < 3 4 5 6 7 >  
Добавить ответ в эту темуОткрыть тему
> Выбросы и влияющие наблюдения
Pinus
сообщение 4.12.2009 - 12:01
Сообщение #61





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 4.12.2009 - 01:44) *
Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной.

Игорь, давайте подробно разберем.
Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор).
Интервал номеров классов или оценок ? это вектор зависимой переменной.
Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов.
Данные следует располагать в столбцах.
Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 4.12.2009 - 13:27
Сообщение #62





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 4.12.2009 - 13:01) *
В чем может быть ошибка?

Единицу забыли (единичный столбец, соответствующий свободному члену регрессии). На картинке в одном из моих постов ее хорошо видно.

Результат полностью совпадает с монографией Von Eye и с известной программой - "Пакет анализа" Microsoft Excel. Конечно, в тех результатах, что есть в книге и в Excel.

Мы немного от темы отвлеклись и перешли к обсуждению работы с конкретным ПО.

Надо будет в Справку пример поместить. Как раз и ирисы Фишера сгодятся.
Цитата(nokh @ 3.12.2009 - 21:05) *
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно ... множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае...

Ну конечно, для этого. Есть данные, есть готовые ответы - что еще лучше для тестирования ПО. И хорошо, что есть репозитории данных, на которых можно протестировать разработанные алгоритмы. Кстати, на вопросы темы мы общими усилиями ответили, нашли весьма неплохие источники, указали ПО. Задача выполнена.

Сообщение отредактировал Игорь - 4.12.2009 - 13:59


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 4.12.2009 - 14:47
Сообщение #63





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 4.12.2009 - 21:02
Сообщение #64





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 4.12.2009 - 15:47) *
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.

Ирисы Фишера настолько известны, что удостоились того, что вся матрица данных (!) лежит в Википедии http://en.wikipedia.org/wiki/Fisher_Iris. Оттуда их можно скопировать (через буфер обмена) в текстовый файл, а уже данный файл можно без потерь импортировать в Excel.

Отмечу, что по Интернету ходят и неправильные ирисы (встречал на сайте одного из американских университетов - видимо, Вы там их и взяли). Поэтому брать их рекомендую с указанного источника.

Кстати, в Википедии есть ссылка на оригинальную работу Фишера. Дело в том, что все труды Фишера доступны для свободного скачивания с сайта университета Аделаиды. Что может быть лучше для увековечивания памяти великого ученого!

Пример посчитан в книге Smith W.F. Experimental design for formulation - Alexandria, VA: Society for Industrial and Applied Mathematics, 2005. Правда, там опечатки есть в формулах. Правильные формулы в книге Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm или
http://www.exponenta.ru/soft/others/stata/stata.asp



Сообщение отредактировал Игорь - 4.12.2009 - 21:12


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 5.12.2009 - 01:36
Сообщение #65





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Цитата(Игорь @ 1.12.2009 - 15:55) *
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя.
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 5.12.2009 - 02:06
Сообщение #66





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится?
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.12.2009 - 02:44
Сообщение #67





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica.

Сообщение отредактировал nokh - 5.12.2009 - 03:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.12.2009 - 12:36
Сообщение #68





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 5.12.2009 - 01:36) *
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Вот на этот вопрос ответ очень прост. Стандартизованные остатки считает метод "Регрессия" в стандартной надстройке "Пакет анализа" Microsoft Excel. Они полностью сходятся с AtteStat. Так что по поводу программы Statistica сделайте вывод сами.
Цитата(Pinus @ 5.12.2009 - 01:36) *
В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.

На ирисы очень хорошо ложится множественная регрессия. Следовательно, стандартизованные остатки и стьюдентизированные остатки не должны сильно различаться (навскидку - стьюдентизированные должны быть чуть-чуть большими, чем стандартизованные). Что подтверждают результаты AtteStat и не подтверждают результаты упомянутой Вами программы. Вывод аналогичен предыдущему абзацу.
Цитата(Pinus @ 5.12.2009 - 02:06) *
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).

Я уже писал, где и как взять правильные ирисы. Это потребует полминуты щелканья мышкой.
Цитата(nokh @ 5.12.2009 - 02:44) *
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем...

Суть не в ирисах (назовем их хоть гладиолусами - ничего не изменится), а в правильности той или иной программы, к обсуждению которых мы перешли. Поэтому факт правильности или неправильности той или иной программы - по моему, очень полезный результат.

Сообщение отредактировал Игорь - 5.12.2009 - 12:43


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.12.2009 - 17:29
Сообщение #69





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO):

Standardized Residual
-0,10202 (MedCallc)
-0,10202 (Statistica)
-0,10306 (NCSS)
-0,10306 (AtteStat)
-0.10202 (SPSS)

SPSS:
Standardized Residual -0.10202
Studentized Residual -0.10308
Studentized Deleted Residual -0.10273

NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

StatXact
Standardised Residuals -0.102
Studentised Residuals -0.1031
Deleted Residuals -0.1027


Сообщение отредактировал DrgLena - 5.12.2009 - 17:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.12.2009 - 21:11
Сообщение #70





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 5.12.2009 - 17:29) *
NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

Могу ответить, почему в примере Studentized Residual = -0,1027. Данная величина получается, если (формула 2.47 на с. 39 Коленикова) не делить на величину Корень(1 - hi). Если делить, получается как в AtteStat, а именно -0,10378. Откорректировав функцию SLeverage в AtteStat (исходные коды доступны), мы получим и в AtteStat аналогичный результат -0,1027. Верно ли это будет?

Справедливости ради отмечу, что данную ошибку выше допустили и мы (там, где я говорил, что стьюдентизированный остаток считается по тем же формулам). Вот в упомянутых программах - действительно по тем же. Почему надо делить, поясняется у Коленикова (формула 2.47), на с. 185 у Smith (формула 9.7), на с. 226 у Rousseeuw. Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.


Сообщение отредактировал Игорь - 6.12.2009 - 15:51


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 6.12.2009 - 00:32
Сообщение #71





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(DrgLena @ 6.12.2009 - 00:29) *
Интерес чисто спортивный.. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Конечно поможет. Большое спасибо, DrgLena!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.12.2009 - 11:31
Сообщение #72





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Закончил вчерне свой труд, конструктивная критика приветствуется.
Прикрепленные файлы
Прикрепленный файл  Обнаружение_выбросов_в_регрессии.pdf ( 210,85 килобайт ) Кол-во скачиваний: 13362
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 7.12.2009 - 04:05
Сообщение #73





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).

Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки.
Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно:
Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS).

Но эти программы считают не только эти, но и другие остатки.

По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения.

Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки.

Где эти программы берут формулы:
1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley.
2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall

Сообщение отредактировал DrgLena - 7.12.2009 - 04:07
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 7.12.2009 - 08:03
Сообщение #74





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 6.12.2009 - 11:31) *
Закончил вчерне свой труд, конструктивная критика приветствуется.

1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы.
2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать.
3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе.
Цитата(DrgLena @ 7.12.2009 - 04:05) *
программы считают по мнению Игоря по ошибочным формулам

Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же.

Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.

Сообщение отредактировал Игорь - 7.12.2009 - 08:35


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.12.2009 - 08:34
Сообщение #75





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости.
2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение.
3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности.
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили.

Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION




Сообщение отредактировал nokh - 7.12.2009 - 08:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  « < 3 4 5 6 7 >
Добавить ответ в эту темуОткрыть тему