Выбросы и влияющие наблюдения - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

7 страниц

« < 3 4 5 6 7 >

Добавить ответ в эту тему

Открыть тему

Выбросы и влияющие наблюдения

Pinus Просмотр профиля	4.12.2009 - 12:01 Сообщение #61
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Игорь @ 4.12.2009 - 01:44) Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной. Игорь, давайте подробно разберем. Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор). Интервал номеров классов или оценок ? это вектор зависимой переменной. Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов. Данные следует располагать в столбцах. Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка?

Игорь Просмотр профиля	4.12.2009 - 13:27 Сообщение #62
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 4.12.2009 - 13:01) В чем может быть ошибка? Единицу забыли (единичный столбец, соответствующий свободному члену регрессии). На картинке в одном из моих постов ее хорошо видно. Результат полностью совпадает с монографией Von Eye и с известной программой - "Пакет анализа" Microsoft Excel. Конечно, в тех результатах, что есть в книге и в Excel. Мы немного от темы отвлеклись и перешли к обсуждению работы с конкретным ПО. Надо будет в Справку пример поместить. Как раз и ирисы Фишера сгодятся. Цитата(nokh @ 3.12.2009 - 21:05) Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно ... множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае... Ну конечно, для этого. Есть данные, есть готовые ответы - что еще лучше для тестирования ПО. И хорошо, что есть репозитории данных, на которых можно протестировать разработанные алгоритмы. Кстати, на вопросы темы мы общими усилиями ответили, нашли весьма неплохие источники, указали ПО. Задача выполнена. Сообщение отредактировал Игорь - 4.12.2009 - 13:59 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	4.12.2009 - 14:47 Сообщение #63
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.

Игорь Просмотр профиля	4.12.2009 - 21:02 Сообщение #64
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 4.12.2009 - 15:47) Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки. Ирисы Фишера настолько известны, что удостоились того, что вся матрица данных (!) лежит в Википедии http://en.wikipedia.org/wiki/Fisher_Iris. Оттуда их можно скопировать (через буфер обмена) в текстовый файл, а уже данный файл можно без потерь импортировать в Excel. Отмечу, что по Интернету ходят и неправильные ирисы (встречал на сайте одного из американских университетов - видимо, Вы там их и взяли). Поэтому брать их рекомендую с указанного источника. Кстати, в Википедии есть ссылка на оригинальную работу Фишера. Дело в том, что все труды Фишера доступны для свободного скачивания с сайта университета Аделаиды. Что может быть лучше для увековечивания памяти великого ученого! Пример посчитан в книге Smith W.F. Experimental design for formulation - Alexandria, VA: Society for Industrial and Applied Mathematics, 2005. Правда, там опечатки есть в формулах. Правильные формулы в книге Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm или http://www.exponenta.ru/soft/others/stata/stata.asp Сообщение отредактировал Игорь - 4.12.2009 - 21:12 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	5.12.2009 - 01:36 Сообщение #65
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные? Цитата(Игорь @ 1.12.2009 - 15:55) Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.

Pinus Просмотр профиля	5.12.2009 - 02:06 Сообщение #66
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится? Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).

nokh Просмотр профиля	5.12.2009 - 02:44 Сообщение #67
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica. Сообщение отредактировал nokh - 5.12.2009 - 03:10

Игорь Просмотр профиля	5.12.2009 - 12:36 Сообщение #68
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 5.12.2009 - 01:36) Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные? Вот на этот вопрос ответ очень прост. Стандартизованные остатки считает метод "Регрессия" в стандартной надстройке "Пакет анализа" Microsoft Excel. Они полностью сходятся с AtteStat. Так что по поводу программы Statistica сделайте вывод сами. Цитата(Pinus @ 5.12.2009 - 01:36) В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза. На ирисы очень хорошо ложится множественная регрессия. Следовательно, стандартизованные остатки и стьюдентизированные остатки не должны сильно различаться (навскидку - стьюдентизированные должны быть чуть-чуть большими, чем стандартизованные). Что подтверждают результаты AtteStat и не подтверждают результаты упомянутой Вами программы. Вывод аналогичен предыдущему абзацу. Цитата(Pinus @ 5.12.2009 - 02:06) Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов). Я уже писал, где и как взять правильные ирисы. Это потребует полминуты щелканья мышкой. Цитата(nokh @ 5.12.2009 - 02:44) Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем... Суть не в ирисах (назовем их хоть гладиолусами - ничего не изменится), а в правильности той или иной программы, к обсуждению которых мы перешли. Поэтому факт правильности или неправильности той или иной программы - по моему, очень полезный результат. Сообщение отредактировал Игорь - 5.12.2009 - 12:43 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	5.12.2009 - 17:29 Сообщение #69
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам. Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO): Standardized Residual -0,10202 (MedCallc) -0,10202 (Statistica) -0,10306 (NCSS) -0,10306 (AtteStat) -0.10202 (SPSS) SPSS: Standardized Residual -0.10202 Studentized Residual -0.10308 Studentized Deleted Residual -0.10273 NCSS: Standardized Residual -0,10306 Studentized Residual -0,1027 StatXact Standardised Residuals -0.102 Studentised Residuals -0.1031 Deleted Residuals -0.1027 Сообщение отредактировал DrgLena - 5.12.2009 - 17:59

Игорь Просмотр профиля	5.12.2009 - 21:11 Сообщение #70
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(DrgLena @ 5.12.2009 - 17:29) NCSS: Standardized Residual -0,10306 Studentized Residual -0,1027 Могу ответить, почему в примере Studentized Residual = -0,1027. Данная величина получается, если (формула 2.47 на с. 39 Коленикова) не делить на величину Корень(1 - hi). Если делить, получается как в AtteStat, а именно -0,10378. Откорректировав функцию SLeverage в AtteStat (исходные коды доступны), мы получим и в AtteStat аналогичный результат -0,1027. Верно ли это будет? Справедливости ради отмечу, что данную ошибку выше допустили и мы (там, где я говорил, что стьюдентизированный остаток считается по тем же формулам). Вот в упомянутых программах - действительно по тем же. Почему надо делить, поясняется у Коленикова (формула 2.47), на с. 185 у Smith (формула 9.7), на с. 226 у Rousseeuw. Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток. Сообщение отредактировал Игорь - 6.12.2009 - 15:51 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	6.12.2009 - 00:32 Сообщение #71
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(DrgLena @ 6.12.2009 - 00:29) Интерес чисто спортивный.. Но может кому то поможет в анализе алгоритмов, результат по ирисам. Конечно поможет. Большое спасибо, DrgLena!

nokh Просмотр профиля	6.12.2009 - 11:31 Сообщение #72
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Закончил вчерне свой труд, конструктивная критика приветствуется. Прикрепленные файлы Обнаружение_выбросов_в_регрессии.pdf ( 210,85 килобайт ) Кол-во скачиваний: 13362

DrgLena Просмотр профиля	7.12.2009 - 04:05 Сообщение #73
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h). Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки. Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно: Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS). Но эти программы считают не только эти, но и другие остатки. По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения. Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки. Где эти программы берут формулы: 1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley. 2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall Сообщение отредактировал DrgLena - 7.12.2009 - 04:07

Игорь Просмотр профиля	7.12.2009 - 08:03 Сообщение #74
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 6.12.2009 - 11:31) Закончил вчерне свой труд, конструктивная критика приветствуется. 1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы. 2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать. 3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе. Цитата(DrgLena @ 7.12.2009 - 04:05) программы считают по мнению Игоря по ошибочным формулам Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же. Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat. Сообщение отредактировал Игорь - 7.12.2009 - 08:35 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	7.12.2009 - 08:34 Сообщение #75
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Как показал анализ, необходимых и достаточных мер всего 3: 1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости. 2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение. 3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности. Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили. Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION Сообщение отредактировал nokh - 7.12.2009 - 08:49

« Предыдущая тема · Медицинская статистика · Следующая тема »

7 страниц

« < 3 4 5 6 7 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.