![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?
Сообщение отредактировал Pinus - 11.11.2009 - 02:56 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение?
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Игорь, что-то совсем другие цифры у меня получаются. Вероятно не правильно ввожу интервалы. Что такое: интервал обучающей выборки, интервал номеров классов или оценок, интервал вывода результатов во вкладке Обучение? Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной. Терминология немного необычна для регрессионного анализа. В модуле представлены методы распознавания. Множественную регрессию можно также рассматривать с этой точки зрения. Как-то нужно было ввод упорядочить для различных методов. Игорь, если готовите дополнение к AtteStat, посмотрите, что выдают две программы по классическому примеру ирисы, по той же модели, что у вас. У меня нет 6 статистики, сделано в 8 версии, стьюдентизированные остатки я там не нашла. NCSS дает наиболее подробный отчет по диагностике. В фале данных, который имеется в пакете поставки Statistica данные в другом порядке, но легко найти нужную строку. Безусловно, модель абсолютно сходится. Но стандартизированные остатки сходятся в Attestat и NCSS (первая строка в файле Игоря, это 64 строка файла iris.sta -0,1031), но не с Statistica8 (-0,1022). А стьюдентизированные в Attestat и NCSS не сходятся. Полезно, на мой взгляд иметь некоторые показатели из отчета NCSS, например, абс. процент ошибки, что обсуждалось на форуме или HAT Diagonal. Могут различаться по разным причинам. Во-первых, разные авторы имеют в виду не то же самое под одними и теми же терминами. Во-вторых, иногда не совсем понятно, как формулы вычислять. Так, к примеру, при вычислении стьюдентизтрованного остатка для вычисления MSE (в знаменателе) данное наблюдение исключается и модель ПОЛНОСТЬЮ строится без него, затем для него делается прогноз. А остаток (в числителе) как вычислять? В источниках (Колеников, Smith) - вроде бы не исключается наблюдение, берется из полной модели. НО! Разве это логично - брать остаток для полной модели? Обращаясь к Эфрону, исключать его надо! По идее бутстрепа. Хотя расхождения незначительны, честно говоря. Далее, важно не "переборщить" в выводе. Например, я могу понять необходимость в ДИ оценки наблюдения. Но ДИ для весовых коэффициентов регрессии - зачем? Кому уж сильно надо, легко посчитать - дисперсия-то имеется, функции распределения в Excel есть. Зато дополнительно - выбросы помечаются красным цветом, влияющие наблюдения (по Куку) - синим. В примере с ирисами Фишера, правда, влияющих наблюдений не обнаружилось, но можно одно из наблюдений для проверки программы установить, скажем, в значение 10 - сразу виден эффект. Сообщение отредактировал Игорь - 3.12.2009 - 19:14 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Конечно, неправильно. Обучающая выборка - это матрица регрессоров. Интервал оценок - вектор зависимой переменной. Игорь, давайте подробно разберем. Интервал обучающей выборки ? это матрица регрессоров (независимых переменных). Если регрессор один ? тоже можно (не матрица, а вектор). Интервал номеров классов или оценок ? это вектор зависимой переменной. Интервал вывода результатов ? просто обозначить место на листе (можно одну ячейку), относительно которого будут размещены результаты расчетов. Данные следует располагать в столбцах. Если делать так, то не сходятся ни предсказанные значения, ни остатки. В чем может быть ошибка? |
|
![]() |
![]() |
![]() ![]() |