![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#46
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
стьюдентизированные остатки как пишете Вы считает R (видимо, mass) и KyPlot Еще AtteStat, начиная с версии 10.9.8. (модуль "Распознавание образов с обучением") а то как написал я - Statistica и SPSS. Может, там это как-то иначе называется. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#47
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#48
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
1. В книге Дэйвида "Порядковые статистики" (встречается в электронном виде) разъясняется суть стьюдентизации (с. 94). Он различает внешнюю стьюдентизацию и внутреннюю. Внешняя - это когда для стандартизации используется независимая от числителя среднеквадратичная оценка знаменателя. Внутренняя - когда оценка по исходной выборке. См. также книгу Кендалла, Стьюарта "Статистические выводы и связи" (в электронном виде встречается также), с. 170 и далее. Т.о., резюмируем: суть стьюдентизации (как способа стандартизации) - в независимости (!) оценок числителя и знаменателя. Следователь, т.н. внутренняя стьюдентизация - нонсенс. Это - просто стандартизация (с несколько иной оценкой знаменателя), а игры в терминологию только запутывают читателя и пользователя.
2. Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Перевод нехорош в обоих программах (почему - см. п. 1). Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный ![]() Сообщение отредактировал Игорь - 1.12.2009 - 12:44 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#49
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
а игры в терминологию только запутывают читателя и пользователя. Вот я, как раз, запуталась. В поисках выхода - обращение к классике и англоязычная википедия, Игорь совершенно прав, разделяя внутреннюю и внешнюю стоюдентизацию. В принципе и Statistica и STATA, для анализа остатков для стьюдентизированных остатков приводит в хелпах одну формулу. Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных. Мне кажется весьма полезным до проведения регрессионного анализа провести вначале анализ выбросов, в AttеStat большой выбор, а в Statistica последних версиях появился критерий Граббса. После чего провести многомерный контроль качества, в последних версиях статистики, карты Хотеллинга (T^2) по двум переменным у и х, что помогает исключить выскакивающие наблюдения до проведения регрессионного анализа. Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий. И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#50
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Вопрос к Игорю, AtteStat у меня 8 версии, там нет ссылки на родной сайт для скачивания следующих версий. http://attestatsoft.narod.ru. Это бесплатный хостинг. Раньше был коммерческий, но 1000 руб. за полгода жалко. Проект дохода не приносит, потому за коммерческий платить ни из чего. И, критерий Граббса и Смирнова- Граббса это один критерий (один выброс) или разные. Разные. Но связанные простой зависимостью. Потому эквивалентные. Когда о выбросах говорим, нужно уточнить - относительно чего. Относительно одной модели - это выбросы. Относительно другой могут и не быть таковыми. В теме обсуждались выбросы относительно гиперплоскости множественной регрессии. В источнике, который я указал пару постов назад, все хорошо описано. Насчет выбросов тоже. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#51
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Игорь, за AtteStat ВАМ не просто большое спасибо, но низкий поклон.
|
|
![]() |
![]() |
![]()
Сообщение
#52
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Как понял, в PASW стьюдентизированные остатки - это стьюдентизация внутренняя, а стьюдентизированные удаленные остатки (в STATISTICA - просто удаленные остатки) - внешняя. Поэтому в PASW применяются оба подхода, в STATISTICA и AtteStat - только один, зато правильный ![]() Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже. |
|
![]() |
![]() |
![]()
Сообщение
#53
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Игорь, а где в AtteStat можно посчитать удаленные стьюд. остатки и посмотреть формулы? В модуле обработки выбросов не нашел, в множественной линейной регрессии тоже. Модуль "Распознавание образов с обучением" (начиная с предпоследней версии), метод "множественный регрессионный анализ". Формулы, пояснения и ссылки в Справке. Вывод будет примерно таким, как на прикрепленном рисунке. В примере использовался классический набор данных об ирисах Фишера (есть в Википедии). Результат полностью совпадает с опубликованными примерами (также с Microsoft Excel - там тоже в "Пакете анализа" есть множественная регрессия, кроме стьюдентизированных остатков и анализа на выбросы). Кстати, для ирисов Фишера получилось 11 подозрительных на выбросы наблюдений из 150 представленных. Я бы вообще отказался от термина "удаленные" в применении к "стьюдентизированные", т.к. словосочетание предполагает, что могут быть и "неудаленные", а это нонсенс. К тому же у читателя сразу возникает вопрос, а что именно удалено в "удаленном остатке"? Тогда уж "стьюдентизированный остаток в случае удаления текущего наблюдения". Тогда понятно, что удален не остаток, а наблюдение. Словом, некачественный перевод и полная чепуха. Сообщение отредактировал Игорь - 3.12.2009 - 08:22 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#54
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Стр 39-42 в пришпиленном файле могут быть полезны при изучении выбросов и влияющих переменных. На с.42 приводится эмпирическое значение порога тревожности для дистанции Кука D(i)>4/(n-p), где р ? количество предикторов. Для примера, который предложил Nokh, D(i)=0,4444. Если определять критическое значение, как квантиль F(0,5; k; n-k), т.е. так, как мы обсуждали раннее, то для того же примера F(0,5; k; n-k)= 0,7568. Разница приличная. Если посмотреть на график, то претендентом на выброс является наблюдение 4 (Cook's Distance 0,5904), а претендентом на влияющее наблюдение ? 10 (Cook's Distance 0,7296). Если использовать порог тревожности, приведенный в пришпиленном Вами фрагменте книги, то оба наблюдения ? выбросы. Если использовать квантиль Фишера, то ни тот ни другой, хотя наблюдение 10 близко. Может быть порог тревожности можно применять для детекции выделяющихся наблюдений вообще (и выбросов, и влияющих наблюдений), а квантиль Фишера только для влияющих наблюдений? |
|
![]() |
![]() |
![]()
Сообщение
#55
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Стр 39-42 в пришпиленном файле Хочу прояснить ситуацию насчет источника, на который ссылается DrgLena. Тем более, что источник очень хорош. Название и официальные ссылки: Колеников С. О. Прикладной эконометрический анализ в статистическом пакете Stata. KL/2001/02. - М.: Российская Экономическая Школа, 2002. http://www.nes.ru/russian/research/abstrac...olenikov-r-.htm http://www.exponenta.ru/soft/others/stata/stata.asp Что характерно, версия книги от 2003 г. (якобы должна быть тут http://ideas.repec.org/c/boc/bocode/s417006.html, но не грузится, хотя у меня она есть) страниц на 20 расширена, но и утратила часть материала, например, по расстоянию Кука. Почему-то автор не счел нужным включить его в новую генерацию книги. Еще замечание насчет AtteStat. Там не совсем точно считается стьюдентизированный размах (не делится на поправочный коэффициент к дисперсии) и нет расстояния Кука. Исправление (это несложно) и дополнение будет в ближайшее время в версии 10.9.10. Сообщение отредактировал Игорь - 3.12.2009 - 11:16 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#56
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Игорь, спасибо за ссылки!
|
|
![]() |
![]() |
![]()
Сообщение
#57
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?
|
|
![]() |
![]() |
![]()
Сообщение
#58
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#59
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение? Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной. Терминология немного необычна для регрессионного анализа. В модуле представлены методы распознавания. Множественную регрессию можно также рассматривать с этой точки зрения. Как-то нужно было ввод упорядочить для различных методов. Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal. Могут различаться по разным причинам. Во-первых, разные авторы имеют в виду не то же самое под одними и теми же терминами. Во-вторых, иногда не совсем понятно, как формулы вычислять. Так, к примеру, при вычислении стьюдентизтрованного остатка для вычисления MSE (в знаменателе) данное наблюдение исключается и модель ПОЛНОСТЬЮ строится без него, затем для него делается прогноз. А остаток (в числителе) как вычислять? В источниках (Колеников, Smith) - вроде бы не исключается наблюдение, берется из полной модели. НО! Разве это логично - брать остаток для полной модели? Обращаясь к Эфрону, исключать его надо! По идее бутстрепа. Хотя расхождения незначительны, честно говоря. Далее, важно не "переборщить" в выводе. Например, я могу понять необходимость в ДИ оценки наблюдения. Но ДИ для весовых коэффициентов регрессии - зачем? Кому уж сильно надо, легко посчитать - дисперсия-то имеется, функции распределения в Excel есть. Зато дополнительно - выбросы помечаются красным цветом, влияющие наблюдения (по Куку) - синим. В примере с ирисами Фишера, правда, влияющих наблюдений не обнаружилось, но можно одно из наблюдений для проверки программы установить, скажем, в значение 10 - сразу виден эффект. Сообщение отредактировал Игорь - 3.12.2009 - 19:14 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#60
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Рассмотрение классического примера об ирисах Фишера в рамках модели множественной регрессии статистически некорректно. Все три показателя взяты из популяции и т.о. ошибки любого признака из трёх, выбранного в качестве предиктора, а также двух из них вместе не могут рассматриваться ни малыми, ни находящимися под контролем исследователя. Более того эти ошибки будут, вероятно, ещё и коррелированы между собой и с ошибками отклика. Т.о. множественный регрессионный подход применительно к этим данным в лучшем случае может рассматриваться как абстрактная модель для демонстрации техник выявления выбросов и влияющих наблюдений в многопеременном случае, а в худшем - как вводящий в заблуждение. В пока соседней теме "Регрессионный анализ при ошибках в предикторах" выложил статью, где это подробно обсуждается.
|
|
![]() |
![]() |
![]() ![]() |