Выбросы и влияющие наблюдения - Форум врачей-аспирантов

Выбросы и влияющие наблюдения

Pinus Просмотр профиля	11.11.2009 - 02:55 Сообщение #1
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения? Сообщение отредактировал Pinus - 11.11.2009 - 02:56

Ответов

DrgLena Просмотр профиля	7.12.2009 - 04:05 Сообщение #2
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h). Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки. Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно: Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS). Но эти программы считают не только эти, но и другие остатки. По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения. Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки. Где эти программы берут формулы: 1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley. 2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall Сообщение отредактировал DrgLena - 7.12.2009 - 04:07

Игорь Просмотр профиля	7.12.2009 - 08:03 Сообщение #3
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 6.12.2009 - 11:31) Закончил вчерне свой труд, конструктивная критика приветствуется. 1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы. 2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать. 3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе. Цитата(DrgLena @ 7.12.2009 - 04:05) программы считают по мнению Игоря по ошибочным формулам Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же. Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat. Сообщение отредактировал Игорь - 7.12.2009 - 08:35 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	7.12.2009 - 08:34 Сообщение #4
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Как показал анализ, необходимых и достаточных мер всего 3: 1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости. 2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение. 3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности. Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили. Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION Сообщение отредактировал nokh - 7.12.2009 - 08:49

Игорь Просмотр профиля	7.12.2009 - 08:45 Сообщение #5
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 7.12.2009 - 08:34) Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. Совершенно верно. Цитата(nokh @ 7.12.2009 - 08:34) А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Непонятно, комплимент или критика. Да неважно. У меня преимущество - программами своими не торгую, т.к. не считаю вправе. Поэтому вопрос правильности - чисто спортивный, да еще научной честности. Поэтому, даже (гипотетически) если один из "монстров" посчитал неверно, а другие не осмелились противоречить авторитету и постарались сделать результаты похожими на него, для меня данные авторитеты не имеют совершенно никакой ценности. Каждый раз - с начала, с чистого листа, все на равных сдают экзамен на правильность - проекты с оборотами в миллиарды долларов и студенты-первокурсники. Только так. По поводу Excel могу предположить (что-то слишком много предположений сегодня), что разработчик лет 15 назад заказал программирование "Пакета анализа" и с тех пор не дорабатывал и не исправлял его. То ли денег мало, то ли разработчика того нет уже. Плюс неадекватный перевод. Плюс характерное для данного производителя игнорирование критики. Вот и имеем, что имеем, за свои деньги. На самом деле Excel не так плох. У меня есть подборка статей по данному вопросу. То, что он может посчитать, считает, в-общем, верно. Но это совсем другая тема. Сообщение отредактировал Игорь - 7.12.2009 - 08:50 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Сообщений в этой теме

Pinus Выбросы и влияющие наблюдения 11.11.2009 - 02:55

DrgLena Я использую статистику критерия Граббса, если про... 11.11.2009 - 14:58

Pinus Мне для регрессии. В Statistica предлагается два к... 12.11.2009 - 02:14

avorotniak Выброс (outlier) определяется отдаленностью отдель... 12.11.2009 - 05:46

Pinus Цитата(avorotniak @ 12.11.2009 - 13... 14.11.2009 - 08:10

Pinus Цитата(avorotniak @ 12.11.2009 - 12... 16.11.2009 - 15:58

avorotniak Цитата(Pinus @ 16.11.2009 - 15:58) А... 16.11.2009 - 22:06

nokh > Pinus. Посмотрел в нескольких русскоязычных к... 12.11.2009 - 17:28

avorotniak Сразу хотелось бы уточнить, что дистанция Махалано... 12.11.2009 - 21:50

nokh Большое спасибо, посмотрю. Кому нужно: http://phot... 12.11.2009 - 22:24

Pinus Avorotniak, большое спасибо за ответ! Если не ... 13.11.2009 - 14:24

avorotniak Вопрос: Регрессия простая нелинейная (полином 2-го... 13.11.2009 - 17:37

Pinus nokh, не встречали ли где про Кука? При каких усло... 13.11.2009 - 14:42

avorotniak Извините, небольшая поправка к следующей фразе: О... 13.11.2009 - 18:16

DrgLena Цитата(Pinus @ 14.11.2009 - 08:10) Н... 14.11.2009 - 14:24

avorotniak Правильно по поводу перцентиля 50, однако поищите ... 14.11.2009 - 14:28

Pinus DrgLena, спасибо! Андрей, тоже спасибо! Ск... 15.11.2009 - 02:30

Pinus Андрей, получается, что статистика Кука и для выбр... 15.11.2009 - 14:04

Pinus Кто может подсказать, как правильно перевести Lint... 15.11.2009 - 16:55

avorotniak Интересный и глубокий вопрос. Хотелось бы еще раз ... 15.11.2009 - 17:10

Pinus Цитата(avorotniak @ 16.11.2009 - 00... 16.11.2009 - 05:44

avorotniak Абсолютно согласен. Извините за дезинформацию. 16.11.2009 - 07:34

Pinus Вообще книги на русском, в которых в той или иной ... 16.11.2009 - 15:53

Pinus Как понять Deleted Residual (удаленные остатки)? Э... 17.11.2009 - 17:09

nokh Цитата(Pinus @ 17.11.2009 - 20:09) К... 18.11.2009 - 18:15

avorotniak [quote name='nokh' date='18.11.2009 - ... 18.11.2009 - 22:18

Игорь Цитата(nokh @ 18.11.2009 - 19:15) Лу... 30.11.2009 - 10:13

Pinus Цитата(Игорь @ 30.11.2009 - 17:13) С... 30.11.2009 - 16:58

nokh Цитата(Игорь @ 30.11.2009 - 12:13) Н... 30.11.2009 - 19:11

Игорь Цитата(nokh @ 30.11.2009 - 20:11) ст... 30.11.2009 - 20:58

nokh Цитата(Игорь @ 30.11.2009 - 22:58) М... 30.11.2009 - 21:43

nokh Сегодня исправил описку в своём предыдущем посте -... 19.11.2009 - 15:06

Pinus Цитата(nokh @ 19.11.2009 - 22:06) В ... 23.11.2009 - 12:48

nokh Цитата(Pinus @ 23.11.2009 - 15:48) П... 25.11.2009 - 05:45

Green Leverage - видела перевод как "воздействие... 19.11.2009 - 15:20

DoctorStat Я не специалист по выбросам, но с точки зрения ста... 19.11.2009 - 16:16

avorotniak Пересчитал вручную стандартизированые остатки. Сог... 19.11.2009 - 16:50

avorotniak DoctorStat затронул очень интересную тему. Обрати... 19.11.2009 - 17:19

Pinus Цитата(avorotniak @ 20.11.2009 - 00... 19.11.2009 - 17:55

avorotniak Цитата(Pinus @ 19.11.2009 - 17:55) Я... 19.11.2009 - 19:05

Pinus Цитата(avorotniak @ 20.11.2009 - 02... 22.01.2010 - 05:43

Pinus Позвольте внести мой скромный вклад. Вчера тоже ра... 19.11.2009 - 17:36

Pinus nokh, развейте мои дилетантские соображения. Не по... 20.11.2009 - 13:58

nokh Пока не готов ответить, ещё почитаю. 20.11.2009 - 15:50

nokh Вот что по этому поводу есть в википедии: "..... 23.11.2009 - 08:08

Pinus Цитата(nokh @ 23.11.2009 - 15:08) Т.... 23.11.2009 - 12:44

Pinus Спасибо! 25.11.2009 - 13:14

Игорь По рассматриваемой теме очень рекомендую источник:... 29.11.2009 - 19:50

Игорь 1. В книге Дэйвида "Порядковые статистики... 1.12.2009 - 08:55

Pinus Цитата(Игорь @ 1.12.2009 - 15:55) Ка... 3.12.2009 - 07:57

Игорь Цитата(Pinus @ 3.12.2009 - 07:57) Иг... 3.12.2009 - 08:02

Pinus Игорь, я просчитал. С Вашим примером сошлось. Но п... 5.12.2009 - 01:36

Игорь Цитата(Pinus @ 5.12.2009 - 01:36) Иг... 5.12.2009 - 12:36

DrgLena Цитата(Игорь @ 1.12.2009 - 09:55) а ... 1.12.2009 - 12:29

Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 1.12.2009 - 12:55

Pinus Цитата(DrgLena @ 1.12.2009 - 19:29) ... 3.12.2009 - 08:50

Игорь Цитата(DrgLena @ 1.12.2009 - 13:29) ... 3.12.2009 - 10:48

DrgLena Игорь, за AtteStat ВАМ не просто большое спасибо, ... 1.12.2009 - 13:34

Pinus Игорь, спасибо за ссылки! 3.12.2009 - 12:21

Pinus Игорь, что-то совсем другие цифры у меня получаютс... 3.12.2009 - 14:35

Игорь Цитата(Pinus @ 3.12.2009 - 15:35) Иг... 3.12.2009 - 18:44

Pinus Цитата(Игорь @ 4.12.2009 - 01:44) Ко... 4.12.2009 - 12:01

Игорь Цитата(Pinus @ 4.12.2009 - 13:01) В ... 4.12.2009 - 13:27

DrgLena Игорь, если готовите дополнение к AtteStat, посмо... 3.12.2009 - 15:37

nokh Рассмотрение классического примера об ирисах Фишер... 3.12.2009 - 20:05

Pinus Игорь, если не трудно дайте ссылку откуда вы брали... 4.12.2009 - 14:47

Игорь Цитата(Pinus @ 4.12.2009 - 15:47) Иг... 4.12.2009 - 21:02

Pinus Nokh, попробуйте на своем софте (в программах, кот... 5.12.2009 - 02:06

nokh Ирисы считать не хочу: поскольку использовать OLS-... 5.12.2009 - 02:44

DrgLena Задачка имеет два решения относительно анализа ост... 5.12.2009 - 17:29

Игорь Цитата(DrgLena @ 5.12.2009 - 17:29) ... 5.12.2009 - 21:11

Pinus Цитата(DrgLena @ 6.12.2009 - 00:29) ... 6.12.2009 - 00:32

nokh Закончил вчерне свой труд, конструктивная критика ... 6.12.2009 - 11:31

DrgLena Nokh, спасибо большое, хорошая работа, многое стан... 7.12.2009 - 04:05

Игорь Цитата(nokh @ 6.12.2009 - 11:31) Зак... 7.12.2009 - 08:03

nokh Как показал анализ, необходимых и достаточных мер ... 7.12.2009 - 08:34

Игорь Цитата(nokh @ 7.12.2009 - 08:34) Все... 7.12.2009 - 08:45

nokh Цитата(Игорь @ 7.12.2009 - 10:45) Не... 7.12.2009 - 09:03

Игорь Мне очень понравились формулы nokh. Если считать п... 7.12.2009 - 18:33

Игорь Цитата(Игорь @ 7.12.2009 - 18:33) Вы... 8.12.2009 - 12:52

DrgLena Цитата(Игорь @ 7.12.2009 - 08:03) Уж... 7.12.2009 - 12:41

DrgLena Отличная работа, как говорят математики, что и сле... 7.12.2009 - 19:49

Pinus Не берусь утверждать, но может быть, когда берется... 8.12.2009 - 15:33

nokh >Игорь. Не знаю можно ли эти меры считать эквив... 8.12.2009 - 16:09

avorotniak Думаю, что одной из причин различий в формулах рас... 8.12.2009 - 19:57

DrgLena Мне удалось найти один из двух источников на котор... 8.12.2009 - 21:50

Игорь Цитата(DrgLena @ 8.12.2009 - 22:50) ... 9.12.2009 - 07:32

DrgLena Речь шла о диагностике, обязательно ли для получен... 9.12.2009 - 13:31

avorotniak [quote name='DrgLena' date='9.12.2009 ... 10.12.2009 - 02:20

Игорь Только факты. 1. Chattejee, Hadi, 1988. С. 117, ф... 10.12.2009 - 07:22

Pinus Возникла такая проблема. Простая линейная регресси... 2.02.2010 - 10:37

Игорь Цитата(Pinus @ 2.02.2010 - 11:37) Во... 2.02.2010 - 17:02

Pinus Цитата(Игорь @ 3.02.2010 - 00:02) А ... 3.02.2010 - 03:06

nokh Цитата(Pinus @ 2.02.2010 - 12:37) Во... 2.02.2010 - 18:17

Pinus Я вот вчера размышлял, по всей видимости тут в дру... 3.02.2010 - 03:11

Игорь Цитата(Pinus @ 3.02.2010 - 04:11) Ес... 3.02.2010 - 12:12

nokh Цитата(Pinus @ 3.02.2010 - 05:11) Мы... 3.02.2010 - 20:28

Pinus Цитата(nokh @ 4.02.2010 - 03:28) А з... 4.02.2010 - 01:59

Pinus Nokh, в Вашем конспекте по выбросам и влияющим наб... 4.03.2010 - 01:38

nokh В конспекте все основные ссылки были. Пока нет вре... 6.03.2010 - 19:49

2 страниц

1 2 >

« Предыдущая тема · Медицинская статистика · Следующая тема »