Взвешенный метод наименьших квадратов |
Здравствуйте, гость ( Вход | Регистрация )
Взвешенный метод наименьших квадратов |
17.02.2010 - 00:56
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Разбираю взвешенный МНК (для регрессий с неоднородной дисперсией остатков). Никак не могу подобрать веса. Диаграммы рассеяния по взвешенным данным получаются какие-то кривые, и гетероскедастичность снимается не так уж хорошо. Использую подход, описанный в кн. Дрейпер, Смит Прикладной регрессионный анализ Т1, с. 149.
Есть ли какие-нибудь хорошие опробованные методы определения весов и алгоритмы взвешивания? Как взвесить две переменные в Statistica (одну переменную вроде бы можно)? |
|
18.02.2010 - 00:44
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
С переменными вроде бы разобрался. Там задается одна переменная с весами, а взвешивание происходит на все переменные, участвующие в анализе.
Большая просьба, если кто встречал в книгах примеры проведения взвешенного МНК с исходными данными и промежуточными результатами, дайте пожалуйста ссылки (без разницы на каком языке; если матричный подход - тоже можно). |
|
18.02.2010 - 05:52
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Если Вы решаете всё ту же задачу - мне путь представляется тупиковым. Если с ростом размера признака растёт и его дисперсия, значит распределение признака асимметричное и самый естественный путь - это привести в соответствие нашу линейку с той, которой измеряет природа, т.е. преобразовать данные. А взвешивание - чисто техническая надстройка над моделью, которая не устраняет глубинной проблемы - несоответствия шкал. Почему вы отказываетесь от преобразований признака?, насколько помню квадратный корень вроде подходил...
|
|
18.02.2010 - 12:35
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Nokh, я пока не отказываюсь от преобразования, просто рассматриваю разные варианты. Вообще, сколько я посмотрел книг по этому поводу (гетероскедастичность), везде в первую очередь предлагается взвешенный МНК. Метод для этого и разработан и позволяет получать хорошие оценки коэффициентов, а также доверительные интервалы и оценивать точность (все, что нужно для регрессионного анализа). И при этом не меняется (статистически) уравнение по сравнению с обычным МНК. Почему распределение признака асимметричное? Имеете ввиду распределение переменной в генеральной совокупности или остатков?
Преобразование тоже вариант. Но я памятую наше с Вами обсуждение насчет функций роста. Здесь похожая ситуация: уравнение (предлагаемая модель) должно быть уравнением прямой линии (общепринятое). А если после трансформации потом делать обратное преобразование, то вместо прямой получится какая-нибудь математическая фантазия с корнями n-ой степени (как я смотрел в примерах из книг). Да и Вы в одном из постов писали, что если гетероскедастичность естественна для данного процесса (а в данном случае это так и есть), то преобразование проблему не решит. Вот и ищу разные варианты. |
|
18.02.2010 - 20:13
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Разбираю взвешенный МНК (для регрессий с неоднородной дисперсией остатков). Никак не могу подобрать веса. См. монографию Носача В.В. "Решение задач аппроксимации...", с. 65. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
19.02.2010 - 00:05
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
|
|
23.02.2010 - 12:00
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Со взвешенным МНК в целом разобрался, но смущают некоторые моменты. Для взвешивания необходимо определить матрицу весов, которая определяется исходя из дисперсий наблюдений. В книгах пишут, что поскольку дисперсии для каждого наблюдения, как правило, неизвестны, то применяют различные приближенные методы (подход Глейсера, определение чистой ошибки на каждом уровне X и др.). Все это понятно и осуществимо, но на практике эффект от такого взвешивания не тот, что предполагается теоретически (по крайней мере, я не очень доволен). Вот и подумал о следующем.
Игорь, в одном из постов в теме Нелинейная регрессия Вы писали: Цитата Боюсь, у Афифи неточность (небрежность перевода + небрежность автора, знакомая по другим разделам, отмеченным на данном форуме). В этой формуле SD должно быть не Yi-го, а SD оценки - это корень квадратный из дисперсии ошибки регрессии. Хотя, в принципе, для каждого наблюдения можно построить свою дисперсию. Например, методом скользящего среднего. Данный подход как раз используется для построения ДИ в модуле "Анализ временных рядов" AtteStat. Но данный подход не предполагает формулировку параметрической модели. Тут же как раз параметрический случай. Посоветуйте, есть ли смысл, и вообще корректно и правильно ли это будет, использовать метод скользящего среднего для определения дисперсии каждого отдельного наблюдения в выборке с целью последующего задания матрицы весов? Сообщение отредактировал Pinus - 23.02.2010 - 12:03 |
|
28.06.2010 - 12:35
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Кто как думает? Можно ли, при необходимости (например, при наличии выделяющихся наблюдений) задавать большие веса для одних наблюдений, чем для других. Не внесет ли это существенных изменений в оценки параметров регрессии, и вообще насколько такой подход корректен?
|
|
23.01.2011 - 08:46
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Например, дисперсия остатков зависит от двух объясняющих переменных. Имеются, соответственно, два вектора весов. В стат.программах (Statistica, SPSS) есть возможность задавать только одну весовую переменную. Правильно ли я полагаю, что действие двух весовых переменных будет эквивалентно одной переменной, найденной как произведение векторов весов исходных двух? Другими словами, правильно ли будет поступить, если перемножить два имеющихся вектора весов, а затем использовать эту (одну) полученную весовую переменную?
|
|