Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Взвешенный метод наименьших квадратов
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Pinus
Разбираю взвешенный МНК (для регрессий с неоднородной дисперсией остатков). Никак не могу подобрать веса. Диаграммы рассеяния по взвешенным данным получаются какие-то кривые, и гетероскедастичность снимается не так уж хорошо. Использую подход, описанный в кн. Дрейпер, Смит Прикладной регрессионный анализ Т1, с. 149.
Есть ли какие-нибудь хорошие опробованные методы определения весов и алгоритмы взвешивания?
Как взвесить две переменные в Statistica (одну переменную вроде бы можно)?
Pinus
С переменными вроде бы разобрался. Там задается одна переменная с весами, а взвешивание происходит на все переменные, участвующие в анализе.
Большая просьба, если кто встречал в книгах примеры проведения взвешенного МНК с исходными данными и промежуточными результатами, дайте пожалуйста ссылки (без разницы на каком языке; если матричный подход - тоже можно).
nokh
Если Вы решаете всё ту же задачу - мне путь представляется тупиковым. Если с ростом размера признака растёт и его дисперсия, значит распределение признака асимметричное и самый естественный путь - это привести в соответствие нашу линейку с той, которой измеряет природа, т.е. преобразовать данные. А взвешивание - чисто техническая надстройка над моделью, которая не устраняет глубинной проблемы - несоответствия шкал. Почему вы отказываетесь от преобразований признака?, насколько помню квадратный корень вроде подходил...
Pinus
Nokh, я пока не отказываюсь от преобразования, просто рассматриваю разные варианты. Вообще, сколько я посмотрел книг по этому поводу (гетероскедастичность), везде в первую очередь предлагается взвешенный МНК. Метод для этого и разработан и позволяет получать хорошие оценки коэффициентов, а также доверительные интервалы и оценивать точность (все, что нужно для регрессионного анализа). И при этом не меняется (статистически) уравнение по сравнению с обычным МНК. Почему распределение признака асимметричное? Имеете ввиду распределение переменной в генеральной совокупности или остатков?
Преобразование тоже вариант. Но я памятую наше с Вами обсуждение насчет функций роста. Здесь похожая ситуация: уравнение (предлагаемая модель) должно быть уравнением прямой линии (общепринятое). А если после трансформации потом делать обратное преобразование, то вместо прямой получится какая-нибудь математическая фантазия с корнями n-ой степени (как я смотрел в примерах из книг). Да и Вы в одном из постов писали, что если гетероскедастичность естественна для данного процесса (а в данном случае это так и есть), то преобразование проблему не решит. Вот и ищу разные варианты.
Игорь
Цитата(Pinus @ 17.02.2010 - 01:56) *
Разбираю взвешенный МНК (для регрессий с неоднородной дисперсией остатков). Никак не могу подобрать веса.

См. монографию Носача В.В. "Решение задач аппроксимации...", с. 65.
nokh
Понятно.
Цитата(Pinus @ 18.02.2010 - 14:35) *
Имеете ввиду распределение переменной в генеральной совокупности или остатков?

В однородной генеральной совокупности, т.е. популяции ровесников. Но не буду отвлекать:)
Pinus
Со взвешенным МНК в целом разобрался, но смущают некоторые моменты. Для взвешивания необходимо определить матрицу весов, которая определяется исходя из дисперсий наблюдений. В книгах пишут, что поскольку дисперсии для каждого наблюдения, как правило, неизвестны, то применяют различные приближенные методы (подход Глейсера, определение чистой ошибки на каждом уровне X и др.). Все это понятно и осуществимо, но на практике эффект от такого взвешивания не тот, что предполагается теоретически (по крайней мере, я не очень доволен). Вот и подумал о следующем.
Игорь, в одном из постов в теме Нелинейная регрессия Вы писали:

Цитата
Боюсь, у Афифи неточность (небрежность перевода + небрежность автора, знакомая по другим разделам, отмеченным на данном форуме). В этой формуле SD должно быть не Yi-го, а SD оценки - это корень квадратный из дисперсии ошибки регрессии.
Хотя, в принципе, для каждого наблюдения можно построить свою дисперсию. Например, методом скользящего среднего. Данный подход как раз используется для построения ДИ в модуле "Анализ временных рядов" AtteStat. Но данный подход не предполагает формулировку параметрической модели. Тут же как раз параметрический случай.

Посоветуйте, есть ли смысл, и вообще корректно и правильно ли это будет, использовать метод скользящего среднего для определения дисперсии каждого отдельного наблюдения в выборке с целью последующего задания матрицы весов?
Pinus
Кто как думает? Можно ли, при необходимости (например, при наличии выделяющихся наблюдений) задавать большие веса для одних наблюдений, чем для других. Не внесет ли это существенных изменений в оценки параметров регрессии, и вообще насколько такой подход корректен?
Pinus
Например, дисперсия остатков зависит от двух объясняющих переменных. Имеются, соответственно, два вектора весов. В стат.программах (Statistica, SPSS) есть возможность задавать только одну весовую переменную. Правильно ли я полагаю, что действие двух весовых переменных будет эквивалентно одной переменной, найденной как произведение векторов весов исходных двух? Другими словами, правильно ли будет поступить, если перемножить два имеющихся вектора весов, а затем использовать эту (одну) полученную весовую переменную?
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.