Условие независимости остатков, при сравнении регрессий |
Здравствуйте, гость ( Вход | Регистрация )
Условие независимости остатков, при сравнении регрессий |
17.12.2010 - 07:25
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
В регрессионном анализе одной из предпосылок, выполнение которой следует проверять, является условие независимости остатков. Читал у Айвазяна, что на практике, если измерения проводятся на различных объектах, можно считать остатки некоррелированными, т.к. случайная составляющая, имеющая отношение к одному объекту, не может быть связана со случайной составляющей другого объекта.
Если рассмотреть, например такой случай: проводятся морфометрические исследования парных органов некоего организма (почки, легкие, уши, глаза и т.п.). Есть предположение, что например правый орган у данного организма меньше, чем левый. Как это доказать или опровергнуть статистически? Поскольку размеры органов зависят от возраста, то, при прочих равных условиях, имеем задачу сравнения двух регрессий. Понятно, что в пределах каждой регрессии (имеющей отношение или к правому, или к левому органу) остатки будут независимы, поскольку исследуются разные организмы. А вот как учесть (и нужно ли вообще это делать) возможные корреляционные связи между обоими органами (такие связи вполне могут быть, поскольку парные органы относятся к одному организму). Возможно ли решение такой задачи с использованием тех же фиктивных переменных, ведь в этом случае обе регрессии объединяются в один регрессионный комплекс? Как будет вести себя F-критерий в пределах омнибусного теста? Как работает ковариационный анализ (если полагать, что рост органов линеен)? Как вообще решаются подобные задачи (ведь они обязательно должны были решаться и в медицине, и в биологии)? Не встречал ли кто примеров в книгах? Сообщение отредактировал Pinus - 17.12.2010 - 07:28 |
|
20.12.2010 - 10:25
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Еще статистику Дарбина-Уотсона посмотрите.
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
20.12.2010 - 12:29
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Еще статистику Дарбина-Уотсона посмотрите. Игорь, мы с Вами как-то ее обсуждали, но, признаться, глубоко я так в нее и не пошел. Насколько помню, критерий Дарбина-Уотсона можно применять только для временных рядов или когда в регрессии имеется строгая упорядоченность наблюдений. Или там вскрылись еще какие-то особенности? |
|
21.12.2010 - 15:49
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Игорь, мы с Вами как-то ее обсуждали, но, признаться, глубоко я так в нее и не пошел. Насколько помню, критерий Дарбина-Уотсона можно применять только для временных рядов или когда в регрессии имеется строгая упорядоченность наблюдений. Или там вскрылись еще какие-то особенности? Pinus, позвольте и мне присоединиться к разговору. При использовании статистики Durbin-Watson необходимо помнить, что: 1. Она не является статистическим тестом в общепринятом понимании, поскольку существуют ситуации, когда по значению теста нельзя сделать никаких статистических выводов (зоны неопределенности). 2. Служит только для определения автокорреляции первого прядка. 3. Регрессия обязательно должна содержать константу. 4. В регресии не должны присутствовать лагированные значения объясняемой переменной (отклик нельзя употреблять в качестве регрессора). Все процитированные опасения из Вашего поста не имеют под собой никаких оснований. Но, воообще-то, при наличии теста множителей Лагранжа (LM - Lagrange Multiplier test), который применительно к остаткам называется тестом Бройша-Годфри (Breusch-Godfrey test, 1978), статистика Дарбина-Уотсона - это даже не вчерашний день, это - 1951 год. |
|
21.12.2010 - 16:04
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Все процитированные опасения из Вашего поста не имеют под собой никаких оснований. Мои основные опасения возникли, когда я всмотрелся в формулу статистики Дарбина-Уотсона, где в числителе стоит сумма квадратов разностей остатков в последовательности i = 2...n. Таким образом, если для обычной регрессии менять последовательность наблюдений в выборке, то получаются различные значения статистики. Как быть? |
|
21.12.2010 - 18:56
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Мои основные опасения возникли, когда я всмотрелся в формулу статистики Дарбина-Уотсона, где в числителе стоит сумма квадратов разностей остатков в последовательности i = 2...n. Таким образом, если для обычной регрессии менять последовательность наблюдений в выборке, то получаются различные значения статистики. Как быть? Если Вы в последовательности откликов измените порядок их следования, то тогда аналогичные перестановки надо делать и в наборе регрессоров, иначе у Вас получится просто куча различных регрессий с разными коэффициентами, стд. ошибками, остаточной суммой квадратов RSS и, соответственно, с разными значениями статистики Дарбина-Уотсона. Что касается ответа на вопрос "Как быть?", являющегося вариацией на вечно юную тему "Что делать?" и "Кто виноват?", то надо все-таки ориентироваться на численное значение статистики (оно для парной линейной регрессии в идеале должно находиться в районе 2), или при большем количестве объясняющих переменных чаще заглядывать в таблицы критических значений (первая ссылка в посте Игоря). Статистика DW табулируется в интервальном виде, так что даже при различных численных её значениях окончательные выводы могут остаться неизменными. Сообщение отредактировал 100$ - 21.12.2010 - 18:58 |
|
22.12.2010 - 06:30
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Если Вы в последовательности откликов измените порядок их следования, то тогда аналогичные перестановки надо делать и в наборе регрессоров, иначе у Вас получится просто куча различных регрессий с разными коэффициентами, стд. ошибками, остаточной суммой квадратов RSS и, соответственно, с разными значениями статистики Дарбина-Уотсона. Конечно, если менять последовательность откликов, то вместе с регрессорами. А проще сказать изменить последовательность остатков. При различной последовательности остатков все параметры регрессии остаются одними и теми же, а вот статистика Дарбина-Уотсона меняется. Статистика DW табулируется в интервальном виде, так что даже при различных численных её значениях окончательные выводы могут остаться неизменными. Так вот в том-то и вопрос, что неопределенность: могут остаться, а могут и не остаться. Где-нибудь можно прочитать, что при перестановке выводы в любом случае остаются неизменными? |
|
22.12.2010 - 10:51
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Так вот в том-то и вопрос, что неопределенность: могут остаться, а могут и не остаться. Где-нибудь можно прочитать, что при перестановке выводы в любом случае остаются неизменными? При наличии константы в уравнении регрессии остатки имеют нулевое среднее, а метод наименьших квадратов, которым Вы скорее всего будете ее оценивать, минимизирует остаточную дисперсию, делая ряд остатков очень похожим на стационарный (т.е. белый шум). При этом любая перестановка - это не просто иная последовательность регрессионных остаков, это - иная ситуация, для которой выбранная модель (т.е. вид регрессии) может оказаться неадекватным (ошибка спецификации модели). Тогда остатки перестанут проходить тесты на адекватность. Кроме того, если уж сторить регрессию, то с мыслью о будущем: на основе имеющихся данных построить прогноз. А это- временная категория. |
|
22.12.2010 - 11:39
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
При этом любая перестановка - это не просто иная последовательность регрессионных остаков, это - иная ситуация, для которой выбранная модель (т.е. вид регрессии) может оказаться неадекватным (ошибка спецификации модели). Тогда остатки перестанут проходить тесты на адекватность. Если найдено уравнение регрессии, и если коэффициенты уравнения от перестановки порядка наблюдений не меняются, то как может меняться степень адекватности? |
|
22.12.2010 - 13:51
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Если найдено уравнение регрессии, и если коэффициенты уравнения от перестановки порядка наблюдений не меняются, то как может меняться степень адекватности? Согласен, можно выразиться точнее: отправной точкой проверки адекватности модели является диагностика остатков. Тест Дарбина-Уотсона проверяет наличие автокорреляции остатков, а автокорреляция есть функция от времени. Поэтому любое изменение очередности следования остатков, связаное с перестановками в исходных данных, вызовет изменение статистики DW. Просто я хотел сказать, что тут возникает парадокс: с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW. Другое дело, насколько устойчивыми будут полученные статистические выводы. Сообщение отредактировал 100$ - 22.12.2010 - 14:25 |
|
22.12.2010 - 15:18
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Просто я хотел сказать, что тут возникает парадокс: с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW. Судя по всему, так оно и есть. Поэтому формула и предполагает наличие некой упорядоченности наблюдений, и поэтому применение DW для обычной регрессии остается под большим вопросом. Даже если с точки зрения проведения эксперимента посмотреть: мы можем получать значения отклика при постепенном увеличении значений регрессора, при уменьшении или в разнобой - регрессия получится в любом случае одна и та же, а значения DW разными. Была такая мысль, что для обычной регрессии с помощью DW можно посмотреть, например, не создает ли автокорреляцию изменение регрессора, т.е. можно отсортировать наблюдения в порядке возрастания регрессора и посмотреть нет ли каких-нибудь серий, но как тогда быть с повторяющимися наблюдениями (несколько значений отклика для одинакового значения регрессора)? Наверно еще можно использовать DW для проверки того, не создает ли автокорреляцию порядок проведения эксперимента (тогда используется соответствующая сортировка). Сообщение отредактировал Pinus - 22.12.2010 - 15:33 |
|
23.12.2010 - 14:55
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Во всех рассуждениях выше есть одна проблема - предполагается, что наблюдения можно переставить. Однако это не так. Порядок остатков зависит от "независимой" переменной, которой в эконометрических исследованиях обычно является время. Поэтому и пишут остаток во время t минус остаток во время t-1. Но это просто дань методике. Если Вы предсказываете охват от роста, то рост, как независимая переменная определяет порядок остатков и переставить их не получится. Некая уопрядоченность в тесте DW обязательная и определяется она независимой (незаивисмыми) переменной (-ными)
|
|
23.12.2010 - 20:31
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Во всех рассуждениях выше есть одна проблема - предполагается, что наблюдения можно переставить. Однако это не так. Порядок остатков зависит от "независимой" переменной, которой в эконометрических исследованиях обычно является время. Поэтому и пишут остаток во время t минус остаток во время t-1. Но это просто дань методике. Если Вы предсказываете охват от роста, то рост, как независимая переменная определяет порядок остатков и переставить их не получится. Некая уопрядоченность в тесте DW обязательная и определяется она независимой (незаивисмыми) переменной (-ными) Плав, Вы все мудро говорите, только эта ветка про Д-У возникла лишь потому, что никто из собеседников не всетречал в литературе явного запрета на ее использование в регрессионном анализе. Допустим, что мы восстанавливаем зависимость урожайности от количества внесенных удобрений. Никакой хронологии нет и в помине, причин явно вводить время в уравнение регрессии нет. Перестановками в таком случае можно заниматься до вздутия живота, а статистика Д-У всякий раз будет разная. Может быть, именно поэтому она и популярна лишь при анализе временных рядов (эконометрика всецело к нему не сводится). Вот как-то так. |
|