Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Выбросы и влияющие наблюдения
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3
DrgLena
Игорь, за AtteStat ВАМ не просто большое спасибо, но низкий поклон.
Pinus
Цитата(Игорь @ 1.12.2009 - 15:55) *
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя.
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже.
Игорь
Цитата(Pinus @ 3.12.2009 - 07:57) *
Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже.

Модуль "Распознавание образов с обучением" (начиная с предпоследней версии), метод "множественный регрессионный анализ". Формулы, пояснения и ссылки в Справке.

Вывод будет примерно таким, как на прикрепленном рисунке. В примере использовался классический набор данных об ирисах Фишера (есть в Википедии). Результат полностью совпадает с опубликованными примерами (также с Microsoft Excel - там тоже в "Пакете анализа" есть множественная регрессия, кроме стьюдентизированных остатков и анализа на выбросы). Кстати, для ирисов Фишера получилось 11 подозрительных на выбросы наблюдений из 150 представленных.

Я бы вообще отказался от термина "удаленные" в применении к "стьюдентизированные", т.к. словосочетание предполагает, что могут быть и "неудаленные", а это нонсенс. К тому же у читателя сразу возникает вопрос, а что именно удалено в "удаленном остатке"? Тогда уж "стьюдентизированный остаток в случае удаления текущего наблюдения". Тогда понятно, что удален не остаток, а наблюдение. Словом, некачественный перевод и полная чепуха.
Pinus
Цитата(DrgLena @ 1.12.2009 - 19:29) *
Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных.

На с.42 приводится эмпирическое значение порога тревожности для дистанции Кука D(i)>4/(n-p), где р ? количество предикторов. Для примера, который предложил Nokh, D(i)=0,4444. Если определять критическое значение, как квантиль F(0,5; k; n-k), т.е. так, как мы обсуждали раннее, то для того же примера F(0,5; k; n-k)= 0,7568. Разница приличная.
Если посмотреть на график, то претендентом на выброс является наблюдение 4 (Cook's Distance 0,5904), а претендентом на влияющее наблюдение ? 10 (Cook's Distance 0,7296). Если использовать порог тревожности, приведенный в пришпиленном Вами фрагменте книги, то оба наблюдения ? выбросы. Если использовать квантиль Фишера, то ни тот ни другой, хотя наблюдение 10 близко.
Может быть порог тревожности можно применять для детекции выделяющихся наблюдений вообще (и выбросов, и влияющих наблюдений), а квантиль Фишера только для влияющих наблюдений?
Игорь
Цитата(DrgLena @ 1.12.2009 - 13:29) *
Стр 39-42 в пришпиленном файле

Хочу прояснить ситуацию насчет источника, на который ссылается DrgLena. Тем более, что источник очень хорош.

Название и официальные ссылки:
Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002.
http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm
http://www.exponenta.ru/soft/others/stata/stata.asp

Что характерно, версия книги от 2003 г. (якобы должна быть тут http://ideas.repec.org/c/boc/bocode/s417006.html, но не грузится, хотя у меня она есть) страниц на 20 расширена, но и утратила часть материала, например, по расстоянию Кука. Почему-то автор не счел нужным включить его в новую генерацию книги.

Еще замечание насчет AtteStat. Там не совсем точно считается стьюдентизированный размах (не делится на поправочный коэффициент к дисперсии) и нет расстояния Кука. Исправление (это несложно) и дополнение будет в ближайшее время в версии 10.9.10.
Pinus
Игорь, спасибо за ссылки!
Pinus
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?
DrgLena
Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.
Игорь
Цитата(Pinus @ 3.12.2009 - 15:35) *
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?

Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной.

Терминология немного необычна для регрессионного анализа. В модуле представлены методы распознавания. Множественную регрессию можно также рассматривать с этой точки зрения. Как-то нужно было ввод упорядочить для различных методов.
Цитата(DrgLena @ 3.12.2009 - 16:37) *
Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.

Могут различаться по разным причинам. Во-первых, разные авторы имеют в виду не то же самое под одними и теми же терминами. Во-вторых, иногда не совсем понятно, как формулы вычислять. Так, к примеру, при вычислении стьюдентизтрованного остатка для вычисления MSE (в знаменателе) данное наблюдение исключается и модель ПОЛНОСТЬЮ строится без него, затем для него делается прогноз. А остаток (в числителе) как вычислять? В источниках (Колеников, Smith) - вроде бы не исключается наблюдение, берется из полной модели. НО! Разве это логично - брать остаток для полной модели? Обращаясь к Эфрону, исключать его надо! По идее бутстрепа. Хотя расхождения незначительны, честно говоря.

Далее, важно не "переборщить" в выводе. Например, я могу понять необходимость в ДИ оценки наблюдения. Но ДИ для весовых коэффициентов регрессии - зачем? Кому уж сильно надо, легко посчитать - дисперсия-то имеется, функции распределения в Excel есть. Зато дополнительно - выбросы помечаются красным цветом, влияющие наблюдения (по Куку) - синим. В примере с ирисами Фишера, правда, влияющих наблюдений не обнаружилось, но можно одно из наблюдений для проверки программы установить, скажем, в значение 10 - сразу виден эффект.
nokh
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно. Все три показателя взяты из популяции и т.о. ошибки любого признака из трёх, выбранного в качестве предиктора, а также двух из них вместе не могут рассматриваться ни малыми, ни находящимися под контролем исследователя. Более того эти ошибки будут, вероятно, ещё и коррелированы между собой и с ошибками отклика. Т.о. множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае, а в худшем - как вводящий в заблуждение. В пока соседней теме "Регрессионный анализ при ошибках в предикторах" выложил статью, где это подробно обсуждается.
Pinus
Цитата(Игорь @ 4.12.2009 - 01:44) *
Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной.

Игорь, давайте подробно разберем.
Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор).
Интервал номеров классов или оценок ? это вектор зависимой переменной.
Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов.
Данные следует располагать в столбцах.
Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка?
Игорь
Цитата(Pinus @ 4.12.2009 - 13:01) *
В чем может быть ошибка?

Единицу забыли (единичный столбец, соответствующий свободному члену регрессии). На картинке в одном из моих постов ее хорошо видно.

Результат полностью совпадает с монографией Von Eye и с известной программой - "Пакет анализа" Microsoft Excel. Конечно, в тех результатах, что есть в книге и в Excel.

Мы немного от темы отвлеклись и перешли к обсуждению работы с конкретным ПО.

Надо будет в Справку пример поместить. Как раз и ирисы Фишера сгодятся.
Цитата(nokh @ 3.12.2009 - 21:05) *
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно ... множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае...

Ну конечно, для этого. Есть данные, есть готовые ответы - что еще лучше для тестирования ПО. И хорошо, что есть репозитории данных, на которых можно протестировать разработанные алгоритмы. Кстати, на вопросы темы мы общими усилиями ответили, нашли весьма неплохие источники, указали ПО. Задача выполнена.
Pinus
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.
Игорь
Цитата(Pinus @ 4.12.2009 - 15:47) *
Игорь, если не трудно дайте ссылку откуда вы брали ирисы. Может я не оттуда беру, не сходятся станд. и стьюд. остатки.

Ирисы Фишера настолько известны, что удостоились того, что вся матрица данных (!) лежит в Википедии http://en.wikipedia.org/wiki/Fisher_Iris. Оттуда их можно скопировать (через буфер обмена) в текстовый файл, а уже данный файл можно без потерь импортировать в Excel.

Отмечу, что по Интернету ходят и неправильные ирисы (встречал на сайте одного из американских университетов - видимо, Вы там их и взяли). Поэтому брать их рекомендую с указанного источника.

Кстати, в Википедии есть ссылка на оригинальную работу Фишера. Дело в том, что все труды Фишера доступны для свободного скачивания с сайта университета Аделаиды. Что может быть лучше для увековечивания памяти великого ученого!

Пример посчитан в книге Smith W.F. Experimental design for formulation - Alexandria, VA: Society for Industrial and Applied Mathematics, 2005. Правда, там опечатки есть в формулах. Правильные формулы в книге Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm или
http://www.exponenta.ru/soft/others/stata/stata.asp

Pinus
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Цитата(Игорь @ 1.12.2009 - 15:55) *
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя.
Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный smile.gif

В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.
Pinus
Nokh, попробуйте на своем софте (в программах, которые озвучивались в начале темы) просчитать ирисы. Потом сравним несколько первых строк. Что получится?
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).
nokh
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем. Закончу ручную верификацию формул и прогоню в AtteStat свой пример. Кстати можете это сами посмотреть - выкладывал результаты PASW и Statistica.
Игорь
Цитата(Pinus @ 5.12.2009 - 01:36) *
Игорь, я просчитал. С Вашим примером сошлось. Но при расчетах в Statistica 6, как правильно писала DrgLena, станд. остатки не сходятся. Если стьюд. остатки объясняются расхождениями в формулах из разных источников, как Вы пишите, то станд. остатки почему разные?

Вот на этот вопрос ответ очень прост. Стандартизованные остатки считает метод "Регрессия" в стандартной надстройке "Пакет анализа" Microsoft Excel. Они полностью сходятся с AtteStat. Так что по поводу программы Statistica сделайте вывод сами.
Цитата(Pinus @ 5.12.2009 - 01:36) *
В STATISTICA, Вы имели ввиду, удаленные остатки это Deleted Residual? Если станд. остатки при расчетах в STATISTICA и AtteStat еще близки (сходятся до двух знаков), то Deleted Residual расходятся почти в два раза.

На ирисы очень хорошо ложится множественная регрессия. Следовательно, стандартизованные остатки и стьюдентизированные остатки не должны сильно различаться (навскидку - стьюдентизированные должны быть чуть-чуть большими, чем стандартизованные). Что подтверждают результаты AtteStat и не подтверждают результаты упомянутой Вами программы. Вывод аналогичен предыдущему абзацу.
Цитата(Pinus @ 5.12.2009 - 02:06) *
Могу Вам куда-нибудь сбросить те ирисы в Excel (форум не поддерживает этот формат для прикремленных файлов).

Я уже писал, где и как взять правильные ирисы. Это потребует полминуты щелканья мышкой.
Цитата(nokh @ 5.12.2009 - 02:44) *
Ирисы считать не хочу: поскольку использовать OLS-регрессию для этих данных статистически некорректно, то не смогу нигде использовать эту работу в дальнейшем...

Суть не в ирисах (назовем их хоть гладиолусами - ничего не изменится), а в правильности той или иной программы, к обсуждению которых мы перешли. Поэтому факт правильности или неправильности той или иной программы - по моему, очень полезный результат.
DrgLena
Задачка имеет два решения относительно анализа остатков, но очень близкие. Интерес чисто спортивный, гораздо важнее понять что с ними делать, а главное где вообще мы вправе применить множественную линейную регрессию. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Для первого ириса (у Игоря) и 64 ириса в файле irisregr.sta и FISHER.SO):

Standardized Residual
-0,10202 (MedCallc)
-0,10202 (Statistica)
-0,10306 (NCSS)
-0,10306 (AtteStat)
-0.10202 (SPSS)

SPSS:
Standardized Residual -0.10202
Studentized Residual -0.10308
Studentized Deleted Residual -0.10273

NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

StatXact
Standardised Residuals -0.102
Studentised Residuals -0.1031
Deleted Residuals -0.1027
Игорь
Цитата(DrgLena @ 5.12.2009 - 17:29) *
NCSS:
Standardized Residual -0,10306
Studentized Residual -0,1027

Могу ответить, почему в примере Studentized Residual = -0,1027. Данная величина получается, если (формула 2.47 на с. 39 Коленикова) не делить на величину Корень(1 - hi). Если делить, получается как в AtteStat, а именно -0,10378. Откорректировав функцию SLeverage в AtteStat (исходные коды доступны), мы получим и в AtteStat аналогичный результат -0,1027. Верно ли это будет?

Справедливости ради отмечу, что данную ошибку выше допустили и мы (там, где я говорил, что стьюдентизированный остаток считается по тем же формулам). Вот в упомянутых программах - действительно по тем же. Почему надо делить, поясняется у Коленикова (формула 2.47), на с. 185 у Smith (формула 9.7), на с. 226 у Rousseeuw. Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.
Pinus
Цитата(DrgLena @ 6.12.2009 - 00:29) *
Интерес чисто спортивный.. Но может кому то поможет в анализе алгоритмов, результат по ирисам.

Конечно поможет. Большое спасибо, DrgLena!
nokh
Закончил вчерне свой труд, конструктивная критика приветствуется.
DrgLena
Nokh, спасибо большое, хорошая работа, многое становится ясно, когда можно руками все проверить. Пока глубоко не вникла, чтобы конструктивно обсудить, но главную свою проблему решила (h).

Дело не в том, что перечисленные и не перечисленные (SAS и R ) программы считают по мнению Игоря по ошибочным формулам, формулы как раз одинаковые из нескольких фундаментальных источников. Все дело в терминологии, кто как называет эти самые остатки.
Игорь пишет, что формула 2.47 правильная, но ее и используют все программы при расчете стьюдентизированных удаленных остатков. Но называют разным образом, а именно:
Стьюдентизированные остатки, которые называются также остатками по методу складного ножа, они же называются внешние стьюдентизированные остатки, а также удаленные стьюдентизированные остатки. Программы StatXact, SPSS, NCSS выдают совпадающие результаты и приводят одинаковые формулы в документациях по этому типу остатков, которые имеют следующие названия (обозначения): Deleted Residuals (StatXact), Studentized Deleted Residual (SPSS), RStudent (NCSS).

Но эти программы считают не только эти, но и другие остатки.

По той же формуле считаются стьюдентизированные остатки, они же внутренние стьюдентизированные остатки, но без удаления i-го наблюдения.

Но, если в знаменателе нет корень (1-h) то такие остатки называют studentized (or standardized) residual или ?semi-studentized residual? (R). Поэтому в NCSS под названием standardized выдаются стьюдентизорованные, а под названием RStudent стьюдентизированные удаленные остатки.

Где эти программы берут формулы:
1. Belsley, D. A., Kuh, E. & Welsch, R. E. (1980). Regression Diagnostics: Identifying influential data and sources of collinearity. New York: John Wiley.
2. Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall
Игорь
Цитата(nokh @ 6.12.2009 - 11:31) *
Закончил вчерне свой труд, конструктивная критика приветствуется.

1. Не стал бы отказываться от матричной записи. Я, кстати, совсем недавно в аналогичном разделе статистики отказался от развернутой записи (хотя было жаль красивых "махровых" формул) в пользу матричной, ибо 1) только матричная запись позволяет получить компактное изображение математических фактов и 2) матричная запись ближе к тексту аккуратной компьютерной программы.
2. Рассмотрел бы все формулы не для 2-х параметров, а для n параметров (см. п.1). А пример для 2-х - это хорошо, т.к. вручную недолго посчитать.
3. Если упоминать лицензионные и трофейные программы в подтверждение своих ручных расчетов, хорошо бы привести листинг (так делается во многих зарубежных работах). Или не упоминать вовсе.
Цитата(DrgLena @ 7.12.2009 - 04:05) *
программы считают по мнению Игоря по ошибочным формулам

Ничего подобного в моем посте не было. Не по ошибочным формулам (ибо в источниках иные и не встречались - только правильные). Я предположил, что программы считают неверно. Это не одно и то же.

Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.
nokh
Как показал анализ, необходимых и достаточных мер всего 3:
1). Внешние (удалённые) стьюдентизированные остатки - для детекции выбросов. Желательно сопровождать достигнутым уровнем значимости.
2). DFFITS - как интегральная мера для обнаружения влияющих наблюдений. Т.к. в отличие от расстояния Кука использует не внутренние, а внешние стьюдентизированные остатки - ей и нужно отдать предпочтение.
3). DFBETAS - как специализированная мера для обнаружения влияющих наблюдений на каждый параметр регрессии в отдельности.
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал. А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают. Поэтому то, что AtteStat считает как Eхcel - сомнительный комплимент. Хотя и монстры не без изъяна. Поищу, где-то у меня была статья с коротеньким тестом для статистических компьютерных программ - насколько помню, мало какие пакеты на то время его проходили.

Спасибо за замечания и пожелания. Отказ от матричной формы - мера вынужденная: осваивал самостоятельно, но не овладел + мои студенты тоже не понимают, видимо и им не читают. По данной узкой теме нашёл в гигапедии книгу практически целиком написанную в матричной форме: DAVID A. BELSLEY, EDWIN KUH, ROY E. WELSCH. Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. A JOHN WILEY & SONS, INC., PUBLICATION


Игорь
Цитата(nokh @ 7.12.2009 - 08:34) *
Все остальное - шум, создающий к тому же терминологическую неразбериху, что я выше описал.

Совершенно верно.
Цитата(nokh @ 7.12.2009 - 08:34) *
А если сравнивать статистических монстров и Excel, то вопрос авторитетности для меня давно не стоит. Дать бы им все свои статистические DLL'ы Игорю на переписку, сами-то работ над ошибками не делают.

Непонятно, комплимент или критика. Да неважно. У меня преимущество - программами своими не торгую, т.к. не считаю вправе. Поэтому вопрос правильности - чисто спортивный, да еще научной честности. Поэтому, даже (гипотетически) если один из "монстров" посчитал неверно, а другие не осмелились противоречить авторитету и постарались сделать результаты похожими на него, для меня данные авторитеты не имеют совершенно никакой ценности. Каждый раз - с начала, с чистого листа, все на равных сдают экзамен на правильность - проекты с оборотами в миллиарды долларов и студенты-первокурсники. Только так.

По поводу Excel могу предположить (что-то слишком много предположений сегодня), что разработчик лет 15 назад заказал программирование "Пакета анализа" и с тех пор не дорабатывал и не исправлял его. То ли денег мало, то ли разработчика того нет уже. Плюс неадекватный перевод. Плюс характерное для данного производителя игнорирование критики. Вот и имеем, что имеем, за свои деньги.

На самом деле Excel не так плох. У меня есть подборка статей по данному вопросу. То, что он может посчитать, считает, в-общем, верно. Но это совсем другая тема.
nokh
Цитата(Игорь @ 7.12.2009 - 10:45) *
Непонятно, комплимент или критика...

По части добросовестности и скрупулёзности подхода к написанию софта - конечно комплимент. Да и почему бы не продавать? Например, бесплатную бета-версию обкатывать, а номерную продавать. Страна большая, пусть немного, но покупатели должны быть. Хотя в маркетинге не силён... Я в посте выше добавил название книги - может пригодится.
DrgLena
Цитата(Игорь @ 7.12.2009 - 08:03) *
Уже говорил (первый пост на данном листе форума), а Вы, уважаемая DrgLena это не заметили, что посчитанные в Excel стандартизованные остатки также отличаются от приводимых в упомянутых Вами лицензионных программах. А именно - совпадают с AtteStat.

Нет, я это как раз заметила, но не считаю Exсel статистической программой задающей стандарты анализа данных.

Цитата(Игорь @ 5.12.2009 - 21:11) *
Поэтому можно предположить, что все упомянутые Вами программы неверно считают стьюдентизированный остаток.

Именно это ваше предположение я и проверяла, с помощью, в том числе, и работы nokh и сделала вывод, что программы считают правильно.
Игорь
Мне очень понравились формулы nokh. Если считать по ним, все совпадает с "большими" программами, но не совпадает с Excel. Да и бог с ним.

Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения? Если делать так, то ни в одном наборе данных (и nokh, и Fisher iris) нет критических значений. Если же брать критическое значение для статистики Кука как у Коленикова (с. 40), т.е 4 / (n - k), то критическими оказываются точно те же наблюдения, что и выделяемые статистикой DFFITS:
- Для данных nokh - это наблюдения с номерами 4 и 10.
- Для данных Фишера - это наблюдения с номерами 123, 132, 135, 142, 145, 146.

Все вычисления выполнены в новой версии AtteStat. DrgLena, для данных Фишера (наблюдение 1) получается стандартизованное отклонение -0,102020725, стьдентизированное -0,102731401.

Пока не размещаю для скачивания - не решена указанная выше проблема со статистикой Кука.
DrgLena
Отличная работа, как говорят математики, что и следовало доказать. С Куком тоже разберемся мирным путем. Но есть еще одна заморочка, видно я вышла за рамки спортивного интереса, непонятен один слайд в ссыле. Можно ли получить эти самые остатки, уж и не знаю как их теперь назвать, самые главные, не пересчитывая модель?
http://www.biostat.umn.edu/~chap/F22-MLR-Diagnostics.pdf
Игорь
Цитата(Игорь @ 7.12.2009 - 18:33) *
Вызвал вопрос только один момент - действительно ли критическое значение статистики Кука нужно брать как значение обратной функции F-распределения?

Если брать 50% процентиль F-распределения со степенями свободы k и (n - k), то для данных nokh получается значение, равное 0,75682846. Это плохое значение. Вообще ни к чему, ибо при предлагаемом подходе данных с влияющими наблюдениями вообще не встречалось в природе. Надо считать по формуле из монографии Коленикова. Тогда расчет сходится с DFFITS (в смысле выводов). Почему обязан сходиться? Потому что (см. Cohen, с. 404) мера Кука и мера DFFITS эквивалентны. Следовательно, выводы должны полностью совпадать.

Еще маленькое замечание. Если уж называть меры (именно меры - measures, а не расстояния и проч.) именами первооткрывателей, то DFFITS следовало бы назвать мерой Welsch и Kuh (они назвали меру DFITS). Источник - Chatterjee S., Hadi A.S. Regression Analysis by Examle. В источнике много и других мер есть.

И ссылку на McDonald убрал бы. А вот на Chatterjee бы добавил. Кстати, Гигапедия по поиску на слово "regression" дает 1000 наименований. Это только монографий.
Pinus
Не берусь утверждать, но может быть, когда берется квантиль Фишера, то проверяются сугубо влияющие наблюдения (с большим плечом); в нескольких источниках дистанция Кука упоминалась исключительно для детекции влияющих наблюдений (не для выбросов). Критическое значение по Фишеру является большим, поскольку только влияющее наблюдение с большим плечом может дать такие значения дистанции Кука. Чтобы обеспечить такое значение для выброса это должно быть ну очень большое отклонение.
Если же использовать дистанцию Кука для выбросов, то формула критического значения как приводит Колеников.
nokh
>Игорь. Не знаю можно ли эти меры считать эквивалентами. Действительно обе объединяют стьюд. остаток и h. Но в DFFITS стьюдентизация внешняя, остаток соответственно больше: в моём примере для наблюдения 4 аж в 2,5 раза. Не исключаю, что поэтому и результаты DFFITS получаются контрастнее. Но ещё нужно с цифрами и литературой покопаться.

>DrgLena. Проверял сегодня формулу для стьюд. удалённого остатка из вашего источника на стр. 26 - не работает. Но исходное выражение для связи между MSEi и MSE(i) верное, из него и вывел формулу, в итоге все сошлось. Для получения правильной формулы нужно в приведённой выражение в квадратных скобках возвести в степень 0,5 (- невнимательность автора презентации). Т.о. действительно можно не пересчитывать многократно модель с удалённым i-тым наблюдением, а получить всё из исходной. Такой алгоритм нахождения стьюд. удалённых остатков получается вообще очень экономичным, правда точность страдает и нужно больше десятичных знаков задействовать. И ещё непонятно со степенями свободы: здесь авторы из n-p ещё вычитают единицу...
avorotniak
Думаю, что одной из причин различий в формулах расчета для влияющих наблюдений есть разделение стьюдентизации на внутреннюю и внешнюю.
С концептуальной точки зрения эти понятия кажутся довольно различными (при внешней стьюдентизации исключается одно наблюдение и нужно пересчитывать всю регрессию). Однако, можно математически показать связь между внутренней и внешней стьюдентизацией:

r (внешн) = r (внутр)*sqrt((n-p-1)/n-p-r(внутр)^2)

где n это количество наблюдений, р количество переменных, r (внешн) и r (внутр), соответственно, внешние и внутренние стьюдентизированные остатки.

S(i) = S*sqrt(n - p - r(внутр)^2/(n - p - 1))
где S(i) это mean square residuals без наблюдения i, а S - mean square residuals со всеми наблюдениями.

То есть, выбросив одно наблюдение, совсем не обязательно пересчитывать всю регрессию. Полное математическое доказательство этого факта не очень просто, его можно найти в книге C. Radhakrishna Rao, Helge Toutenburg ?Linear Models: Least Squares and Alternatives? на страницах 219-222.

Исходя из этого доказательства, можно найти связь между дистанцией Кука и DFFITS (Welsch-Kuh?s Distance)

Di = DFFITSi^2*(S(i)/p*S^2)
Где Di ? это дистанция Кука.

Если пренебречь разницей между S(i) и S, и принять как граничное значение для DFFITS, 2*sqrt(p/n), то граничным значением для дистанции Кука будет 4/n.
Из формулы, связывающей дистанцию Кука и DFFITS, можно сказать, что между ними имеется квадратическая зависимость, то есть дистанция Кука более чувствительна к изменениям остатков.
DrgLena
Мне удалось найти один из двух источников на которые ссылаются в документациях к статпакетам, там показана связь внешних и внутренних стьюдентизированных остатков, которую приводит avorotniak, формула 2.2.10, стр 20. Вопрос с df тоже снимается.
Cook, R. D. and S. Weisberg (1982). Residuals and Influence in Regression. London: Chapman and Hall

Прикрепить не удалось 16,6 Мгб pdf

Но можно забрать с разрешения самого автора

http://www.stat.umn.edu/rir/
Игорь
Цитата(DrgLena @ 8.12.2009 - 22:50) *
Но можно забрать с разрешения самого автора

Спасибо. Какие молодцы авторы.

Только регрессию при удалении остатка все-равно пересчитывать придется, т.к. иногда нужны еще и коэффициенты регрессий (при удаленных наблюдениях).
DrgLena
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Пожелание к работе nokh, в конце работы подвести итог диагностики для пользователя, с обоснованием удаления выбросов и сравнение прогноза для конкретного значения х по первой и окончательной модели, чтобы было ясно зачем все эти многочисленные инструменты, которые для одновариантной регрессии являются явным перебором. Если на линии регрессии провести 95% ДИ, то 4 значение в него не войдет и его исключение приводит к R^2=0,94.
avorotniak
[quote name='DrgLena' date='9.12.2009 - 13:31' post='9081']
Речь шла о диагностике, обязательно ли для получения SDR пересчитывать модель n раз. Ответ, не обязательно. Но если выбросы диагностированы, после их удаления, естественно, нужно получить новую модель. Коэффициенты нужны только для окончательной модели, диагностика которой удовлетворяет.

Рад правильному пониманию не совсем четко изложенных мною рассуждений.
Игорь
Только факты.

1. Chattejee, Hadi, 1988.
С. 117, формула (4.43). Распределение статистики (не Кука) следует F(a,k,n-k), где a=0,5.
С. 119, формула (4.44c). Статистика Кука.
С. 120. По аналогии с (4.43), т.е. бездоказательно (?), Кук предложил (1977, а предложил ли - см. п. 6 ниже) считать распределение статистики Кука также F(a,k,n-k). Далее Chattejee, Hadi доказано, что это не так.
Изложенное Chattejee, Hadi (1988) подчистую (номера формул только поменяли) списано Radhakrishna, Toutenburg, 1995 (с. 226).

2. Те же авторы (Chattejee, Hadi), 2006.
С. 104, формула (4.21). Статистика Кука. Ниже - распределение уже следует F(a,k,n-k).

3. Расчеты на ряде примеров (в том числе на данных nokh, 2009) свидетельствуют, что считая распределение F(a,k,n-k), влияющих наблюдений в природе не встречается (даже искусственно, к примеру, завысив одно из наблюдений в 5-10 раз). Считая порог как у Коленикова, результаты статистики Кука в большинстве случаев совпадают (один случай на ирисах, где не совпадает, но очень близко) со статистикой Welsch-Kuh (DFITS, DFFITS).

4. Не представлена (хотя исторически упоминается) статистика Кука в монографии Belsley, Kuh, Welsch (2004).

5. Von Eye, Schuster, 1998.
С. 88. Оригинальный подход. Ниже вольный перевод с иностранного с комментариями.
"Расстояние Кука Di имеет характеристики:
1) Хотя Di не распределена как F (точнее, не имеет ничего общего), она обычно оценивается (!) как Fa с k и n - k степенями свободы (пример "изумительной" логики).
2) Применяются следующие эмпирические правила:
- если p(Di) < 0.10, случай i имеет небольшое влияние на величину оценок параметра;
- если p(Di) > 0.50, случай i имеет значительное влияние на отклонение модели".
Т.е. по статистике Di вычисляется P-значение, затем сравнивается с двумя порогами. Впрочем, это не помогает.

6. Бегло просмотрел работу Cook R.D. Detection of influential observations in linear regression // Technometrics, 1977, vol. 19, no. 1, pp. 15-18. Она есть в свободном доступе http://www.ime.usp.br/~abe/lista/pdfWiH1zqnMHo.pdf.
Упоминаний (тем более строгого вывода) об F распределении не найдено.

AtteStat поправлен. Все совпадает с материалами nokh (спасибо большое ему). Кроме критических значений Кука и DFBETAS - взяты у Коленикова. Еще теория немного отличается (матрицы широко используются).
Pinus
Цитата(avorotniak @ 20.11.2009 - 02:05) *
Согласен, но лучше говорить о процентном числе выбросов в отношении ко всем наблюдениям. Для одних целей 5-10% выбросов является допустимым, для других подходит и 10-20%. Все это довольно относительно.

Не встречал ли кто, где об этом можно почитать. Выборка 230 наблюдений, выбросов получается 15 (по стьюд. остаткам). R^2=0,93 (вместе с выбросами). Стоит ли говорить о наличиии неоднородности совокупности?
Pinus
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?
Игорь
Цитата(Pinus @ 2.02.2010 - 11:37) *
Возникла такая проблема.
Простая линейная регрессия (прямолинейная модель). Выборка 160 единиц. При проверке (стьюд. остатки, DFFITS, DFBETAS) получается около 10 выбросов и где-то столько же влияющих наблюдений. Если подойти формально и убрать все такие наблюдения, то естественно уменьшается стандартная ошибка регрессии, и если опять проверить уже новую модель, то те наблюдения, которые имели небольшие стьюд. остатки, становятся выбросами. Также появляются новые влияющие наблюдения. Если опять убрать эти выбросы, то появляются новые примерно в таком же количестве, и т.д. (пробовал четыре раза подряд). При этом постепенно суживается рассеяние и уменьшается размах предиктора. Почему такое может быть и как из этой ситуации выйти?

Думаю, что второй и т.д. раз проверять будет некорректно. А в какой программе считали?
nokh
Цитата(Pinus @ 2.02.2010 - 12:37) *
Возникла такая проблема...

У меня получилось такое рассуждение. Мы выбрали в качестве уровня значимости 5%-ный уровень. Он оставляет на ошибку первого рода (лжеоткрытие) 5%, т.е. 5% могут лишь показаться нам выбросами в силу выбранного уровня значимости. 10/160=6,25%, что весьма близко к 5%. Удалим их и получим ту же картину снова. Как и Игорь, думаю что многократное применение процедуры проверки на выбросы некорректно и уводит в строну от исходных данных. В качестве решения можно предложить использовать для детекции выбросов более строгий уровень значимости, например 1%-ный. Если рассуждения ошибочны - поправьте.
Pinus
Цитата(Игорь @ 3.02.2010 - 00:02) *
А в какой программе считали?

Считал в NCSS 2004. Правильность расчета критериев сверена с другими программами и примерами с форума. Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).
Pinus
Я вот вчера размышлял, по всей видимости тут в другом дело. Судя по данным, остатки зависят от изменения переменных. На диаграмме рассеяния поле корреляции представляет собой сектор, расширяющийся от меньших значений предиктора к большим. Изучается зависимость диаметра древесного ствола на высоте 1,3 м от диаметра ствола у поверхности земли (модель находит применение при определении диаметра ствола по оставшемуся от нелегальной рубки пню для определения ущерба и начисления штрафов). Биологическая особенность такова, что с увеличением возраста дисперсия диаметра в нижней части ствола, особенно у шейки корня, увеличивается (у разных древесных пород в различной степени, но тем не менее это закономерность). Соответственно неизбежно увеличение остатков.
По идее такой повторный подход вполне должен быть корректен, если дисперсия остатков постоянна. Т.е. если изначально есть несколько наблюдений, остатки которых резко выделяются по отношению к однородной дисперсии остатков остальных наблюдений. И даже если на втором повторе какие-то из пограничных значений из-за уменьшения стандартной ошибки тоже стали выбросами, то на этой второй проверке все должно и заканчиваться. Это вполне должно работать.
Если же наблюдается постепенное увеличение дисперсии остатков и если такое увеличение не связано с ошибками получения данных или аномалиями изучаемого процесса, а обусловлено особой естественной структурой данных, то тогда наверно будет некорректно. Если делать повторные проверки при таких данных, то пожалуй может дойти до того, что в конечном счете из первоначальной выборки останется какая-нибудь треть, а то и того меньше. Но можно ли в такой ситуации вообще применять рассматриваемые критерии проверки на выбросы? И если нет, то как тогда быть?

Детекция влияющих наблюдений в такой ситуации тоже проблематична. Если в максимальных значениях предиктора наблюдаются максимальные остатки (расширяющийся сектор), то все крайние наблюдения (за исключением тех, которые находятся на самой линии регрессии или близко к ней) неизбежно будут влияющими. И если их формально исключать, то при повторных проверках другие крайние значения тоже становятся влияющими, и так до изнеможения.
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?
Игорь
Цитата(Pinus @ 3.02.2010 - 04:11) *
Есть еще такие мысли. Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

Предположим, есть зависимость (функциональная) Y от X. При этом X точно задается, а Y измеряется с ошибками. Требование к данным ошибкам измерений Y - нормальность распределения [ошибок относительно неизвестного истинного Y, а не относительно среднего Y].

Но тут возможны разные ситуации. Во-первых, функция Y от X может быть известной [с точностью до параметров]. Во-вторых, она может быть неизвестной, но мы подберем нечто похожее, анализируя имеющиеся опытные данные - это параметрический подход. В-третьих, такую функцию подобрать не удастся (она может не иметь представления в виде совокупности элементарных функций) - это непараметрический подход (пример - метод скользящего среднего).

Обычно в регрессионном анализе рассматривают параметрические модели, основанные на нормальности ошибок. Что такое выбросы в такой трактовке - это наблюдения, критически отклоняющиеся от МОДЕЛИ (для ДРУГОЙ модели они могут не быть выбросами). Обнаружив и удалив данные выбросы, мы получим более хорошую МОДЕЛЬ (если она, естественно, была адекватно выбрана). Поэтому такая ситуация, когда после n прогонов из массива численностью n у нас ничего не останется, не должна иметь места при адекватной МОДЕЛИ.

К примеру, тестируя одноименный модуль AtteStat, я взял некоторую функциональную зависимость. 1. Затем слегка "испортил" ее. Затем подобрал [известную мне] регрессионную кривую. Все получилось хорошо. Параметры функции вычислены похожими на истинные. Выбросов не обнаружилось. 2. Теперь "испортил" один из Y сильно (раз в 5). Построил кривую. Данная испорченная варианта было локализована AtteStat как выброс. Убрал ее. Снова построил кривую. Выбросов нет. Все в порядке.
Цитата(Pinus @ 3.02.2010 - 04:06) *
Считал в Attestate, но там нет DFFITS и DFBETAS (Игорь, если у Вас будет на это время, то хорошо бы включить, в т.ч. и другие меры влияния).

DFFITS в регрессионном анализе AtteStat нет. Он есть во множественной регрессии (в модуле "Распознавание образов..."). Но расчеты показывают, что обычная проверка на равенство стандартизованного остатка нулю по критерию Стьюдента (это в AtteStat имеется) дает точно такой же результат. Так нужно ли загромождать? А вот DFBETAS для исследования влияния измерений на параметры модели, наверное, нужно сделать.
nokh
Цитата(Pinus @ 3.02.2010 - 05:11) *
Мы в разных темах говорили о том, что распределение переменных не является предпосылкой для регрессионного анализа. Но ведь влияние наблюдений на регрессию зависит от положения центра тяжести совокупности, и если распределение предиктора асимметрично, то центр тяжести смещен, а значит увеличивается плечо воздействия. Поэтому может быть в регрессионном анализе все таки (для некоторых его аспектов) желательны нормальные, равномерные или другие симметричные (пусть и мультимодальные) и не имеющие тяжелых хвостов распределения предикторов? Если распределения не являются таковыми, то можно преобразовать выборочную совокупность, скажем применением расслоенного отбора. Как думаете?

А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет. Наблюдаемая картина - типичный случай гетероскедастичности и бороться с ней можно преобразованием данных. Используя Бокса-Кокса из AtteStat для D1.3 лямбда = 0,607337058, а для Dпня лямбда = 0,503564775. Т.е более нормально распределены не исходные показатели а исходные в степени около 0,5 - т.е. квадратные корни из них. Почему - не знаю. Но попробуйте работать не с диаметрами, а корнями из них.

Pinus
Цитата(nokh @ 4.02.2010 - 03:28) *
А зачем расслоенный отбор - никаких признаков качественных различий в регрессиях молодых и более старых деревьев нет.

Я имел ввиду не для выложенного примера, а вообще общий случай, если распределение предиктора сильно асимметрично. В моем исследовании в принципе такое наблюдается. Деревья в городе садят по большей мере стихийно (кто попало, где попало и сколько попало). Поэтому распределение возраста имеющихся насаждений не является отражением каких-то биологических закономерностей, а просто случайно. А если еще учесть, что для измерений берутся особи нормального роста и развития (без дефектов), то случайность структуры еще более усиливается. Предположим, оно сильно асимметрично (кол-во молодых деревьев сильно преобладает над кол-вом старых). И если делать выборку, например, простым случайным отбором или направленную выборку по какой-то схеме, то в целом распределение в выборке будет подобно распределению общей совокупности, а значит такими же будут и распределения переменных, которые сильно коррелируют с возрастом (в т.ч. диаметр ствола). И стало быть, если строить регрессию по такой выборке, то получим смещение центра тяжести, что может существенно повлиять на оценку влияния отдельных наблюдений.
Поэтому в качестве варианта выхода из ситуации предлагаю расслоенный отбор с непропорциональным размещением. Т.е. разбить первичную совокупность на слои (страты), однородные например по возрасту. И производить случайную выборку в каждом слое в таких пропорциях, которые обеспечат нам более-менее симметричное распределение предикторов. Поскольку нас не интересуют параметры стихийно образованного и потом искусственно преобразованного распределения (нас интересуют просто пары значений предиктора и отклика для изучения регрессии), то нам не надо заботится об особых пропорциях объемов в стратах для минимизации дисперсии этих параметров. А несмещенность оценок параметров, если бы они были нам нужны, при непропорциональном размещении все равно обеспечивается. Если же говорить о несмещенности оценок регрессии, то она обеспечивается случайным отбором в каждом из стратов.
Таким образом, мы можем не довольствоваться тем распределением переменных, которое у нас имеется (и соответственно не мучиться вопросом соответствует ли оно регрессионному или любому другому анализу), а получать такое распределение, какое нам надо. Если же выборка уже получена, то также можно сделать расслоенный отбор, но только в каких-то стратах взять все наблюдения, а в каких-то часть. Может быть конечно это не совсем та цель, которая обычно ставится перед расслоенным отбором, но вроде бы нарушений нет.
А то получается так, что мы говорим, что распределение переменных неважно и задаемся определенным необходимым объемом выборки, а может быть получится, что этот объем почти весь обеспечен за счет небольшого интервала предиктора, а в остальных интервалах представленность данных маленькая. Вот и будут разные перекосы (в т.ч. в оценках влияния).
Такие вот мысли. А как Вы по этому поводу думаете?

Pinus
Nokh, в Вашем конспекте по выбросам и влияющим наблюдениям сказано, что критические значения для DFFITS и DFBETAS в случае малых и средних выборок принимаются равными 1 (в отчетах NCSS тоже также пишут). По критическим значениям в случае больших выборок я ссылаюсь на Коленикова, а для средних не могу найти литературного источника. Подскажите, пожалуйста, из какой книги Вы брали эту информацию? И, если не затруднит, ссылку где можно эту книгу скачать.
У меня сложилось, что малые выборки - это до 30 единиц, средние 30-100, большие свыше 100. Там такая же градация или как-то иначе?
nokh
В конспекте все основные ссылки были. Пока нет времени смотреть подробнее, после праздников буду свободнее.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.