Форум врачей-аспирантов [Форум Invision Power Board]

Автор: Pinus 17.12.2010 - 07:25

В регрессионном анализе одной из предпосылок, выполнение которой следует проверять, является условие независимости остатков. Читал у Айвазяна, что на практике, если измерения проводятся на различных объектах, можно считать остатки некоррелированными, т.к. случайная составляющая, имеющая отношение к одному объекту, не может быть связана со случайной составляющей другого объекта.
Если рассмотреть, например такой случай: проводятся морфометрические исследования парных органов некоего организма (почки, легкие, уши, глаза и т.п.). Есть предположение, что например правый орган у данного организма меньше, чем левый. Как это доказать или опровергнуть статистически? Поскольку размеры органов зависят от возраста, то, при прочих равных условиях, имеем задачу сравнения двух регрессий. Понятно, что в пределах каждой регрессии (имеющей отношение или к правому, или к левому органу) остатки будут независимы, поскольку исследуются разные организмы. А вот как учесть (и нужно ли вообще это делать) возможные корреляционные связи между обоими органами (такие связи вполне могут быть, поскольку парные органы относятся к одному организму).
Возможно ли решение такой задачи с использованием тех же фиктивных переменных, ведь в этом случае обе регрессии объединяются в один регрессионный комплекс? Как будет вести себя F-критерий в пределах омнибусного теста? Как работает ковариационный анализ (если полагать, что рост органов линеен)?
Как вообще решаются подобные задачи (ведь они обязательно должны были решаться и в медицине, и в биологии)? Не встречал ли кто примеров в книгах?

Автор: nokh 18.12.2010 - 23:44

Я бы решал такую задачу вообще без регрессии. Поскольку распределение разности размеров растущих органов не будет нормальным, использовал бы критерий Уилкоксона для разностей пар, а то и просто критерий знаков.

Автор: Pinus 19.12.2010 - 00:32

Цитата(nokh @ 19.12.2010 - 07:44)

Я бы решал такую задачу вообще без регрессии. Поскольку распределение разности размеров растущих органов не будет нормальным, использовал бы критерий Уилкоксона для разностей пар, а то и просто критерий знаков.

Но тогда ведь надо иметь данные для одинаковых возрастов? А повторяющихся наблюдений почти нет.

Автор: nokh 19.12.2010 - 00:45

Тогда пример неудачен: мои парные органы (почки, легкие, уши, глаза и т.п.) имеют одинаковый возраст. Не могу себе представить как с парными органами может быть иначе.

Автор: DrgLena 19.12.2010 - 01:06

Я вообще не поняла, приведена цитата из Айвазяна или это такая трактовка. Отсутствие коррелированности остатков необходимо и для правого или для левого глаза. Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.
У меня твердый Айвазян ,( Енюков, Мешалкин). Исследование зависимостей. 1985 года, где почитать о том, что можно считать остатки некоррелированными?..

Автор: Игорь 19.12.2010 - 14:40

При расчете регрессии в AtteStat (модуль "Аппроксимация...") дополнительно для каждой точки рассчитывается остаток и данный остаток проверяется на значимость. Формулы и ссылки имеются. В источниках, тяготеющих к эконометрике (как упомянутый выше), обычно рассматриваются самые простые модели: линейные, полиномы. В AtteStat все выкладки сделаны, естественно, в общем виде (хотя данный модуль и не претендует на решение задачи регрессионного анализа, называя сделанное лишь элементами), потому формулы пригодны для любой регрессии.

Автор: Pinus 19.12.2010 - 15:07

Цитата(nokh @ 19.12.2010 - 08:45)

Тогда пример неудачен: мои парные органы (почки, легкие, уши, глаза и т.п.) имеют одинаковый возраст. Не могу себе представить как с парными органами может быть иначе.

Nokh, я возможно ошибаюсь, поскольку далеко не "на ты" с непараметрической статистикой, но в моем понимании проверка однородности двух генеральных совокупностей по парно связанным выборкам (критерий Уилкоксона) предполагает для данной задачи, что все особи имеют одинаковый возраст или, тогда уж что асимметрия органов не зависит от возраста. На самом деле зависимость асимметрии от возраста вполне возможна (по крайней мере, нет оснований утверждать обратное, а значит следует это проверить). Поэтому я и предложил решение через регрессию (на правильности не настаиваю): строим две отдельные регрессии для каждого органа, а потом каким-то образом их сравниваем.

Цитата(DrgLena @ 19.12.2010 - 09:06)

Отсутствие коррелированности остатков необходимо и для правого или для левого глаза.

Они будут некоррелированными, но в пределах регрессии, построенной для одного органа.
У Айвазяна смотрел учебник: Прикладная статистика. Основы эконометрики: Учебник для вузов - М.: ЮНИТИ-ДАНА, 2001. - Том. 2, стр. 50, второй абзац.

Автор: DrgLena 19.12.2010 - 20:39

Айвазян дает в рамках КЛММР простейшую версию требований к общему виду модели, к природе объясняющих переменных и остатков. Для которых постулируется взаимная некоррелированность.
И это условие должно выполняться как для правых глаз, так и для левых.
Поэтому вы не можете утверждать, что ?Они будут некоррелированными, но в пределах регрессии, построенной для одного органа?. Если вы берете только правые глаза, они все равно принадлежат к разным объектам, некоррелированность остатков в каждой модели вы должны доказать.

Автор: плав 19.12.2010 - 22:38

Вообще-то следует говорить не о коррелированности остатков, а о независимости наблюдений. Тогда сразу все станет понятно. Оба глаза коррелированные наблюдения, поскольку из одного организма и подвергались одинаковым воздействиям. Соответственно, это надо учитывать при оценке дисперсии (нужны смешанные модели)

Автор: Pinus 20.12.2010 - 09:15

Цитата(DrgLena @ 20.12.2010 - 03:39)

Айвазян дает в рамках КЛММР простейшую версию требований к общему виду модели, к природе объясняющих переменных и остатков. Для которых постулируется взаимная некоррелированность.
И это условие должно выполняться как для правых глаз, так и для левых.
Поэтому вы не можете утверждать, что ?Они будут некоррелированными, но в пределах регрессии, построенной для одного органа?. Если вы берете только правые глаза, они все равно принадлежат к разным объектам, некоррелированность остатков в каждой модели вы должны доказать.

Я об этом и пытаюсь сказать (может быть не совсем удачно). "Они будут некоррелированными, но в пределах регрессии, построенной для одного органа" - имелось в виду, что в регресии, построенной для левого глаза остатки будут некоррелированными; в регресии, построенной для правого глаза они будут некоррелированными тоже. Но если мы объединяем обе выборки в единый регрессионный или дисперсионный комплекс, то некоррелированости уже нет, поскольку присутствуют наблюдения, относящиеся к одному и тому же организму (парные наблюдения).
А Айвазяна я привел для того, чтобы показать, что если известно, что наблюдения проводились на разных объектах, то их можно считать независимыми и, следовательно, остатки некоррелированными без каких-либо специальных доказательств (но опять таки, в пределах каждой регрессии в отдельности - и в пределах правого глаза, и в пределах левого).

Автор: Pinus 20.12.2010 - 09:54

Цитата(плав @ 20.12.2010 - 05:38)

Вообще-то следует говорить не о коррелированности остатков, а о независимости наблюдений. Тогда сразу все станет понятно. Оба глаза коррелированные наблюдения, поскольку из одного организма и подвергались одинаковым воздействиям. Соответственно, это надо учитывать при оценке дисперсии (нужны смешанные модели)

Плав, спасибо за подсказку про смешанные модели. Вспомнил, что где-то мне такое встречалось.

Тут вот еще одна идея пришла в голову, как проще сделать. Находим для каждого организма коэффициент асимметрии органа Kas (отношение размера, например, правого глаза к размеру левого глаза). Он будет или меньше, или больше единицы (единица - ассимерии нет). Дабы сделать показатель, отражающий колебания асимметрии относительно нуля, вычислим коэффициент K=Kas-1. Тогда ноль - значит ассимерии нет, K<0 - правый глаз меньше левого, K>0 - правый глаз больше левого. Затем строим регрессию K от возраста. Если регрессия незначима, то делаем вывод, что асимметрия не зависит от возраста. Значимость свободного члена регрессии покажет значимость отличия асимметрии от нуля.
Если регрессия K от возраста значима, то для каждого возраста имеем предсказанное значение K. Построив одну отдельную регрессию размеров правого (например) глаза от возраста, всегда сможем сказать, каких размеров будет левый глаз.
Хотя это вероятно изрядно грубее?

Автор: Игорь 20.12.2010 - 10:25

Еще статистику Дарбина-Уотсона посмотрите.

Автор: Pinus 20.12.2010 - 12:29

Цитата(Игорь @ 20.12.2010 - 17:25)

Еще статистику Дарбина-Уотсона посмотрите.

Игорь, мы с Вами как-то ее обсуждали, но, признаться, глубоко я так в нее и не пошел. Насколько помню, критерий Дарбина-Уотсона можно применять только для временных рядов или когда в регрессии имеется строгая упорядоченность наблюдений. Или там вскрылись еще какие-то особенности?

Автор: Игорь 20.12.2010 - 13:35

Цитата(Pinus @ 20.12.2010 - 12:29)

Игорь, мы с Вами как-то ее обсуждали, но, признаться, глубоко я так в нее и не пошел. Насколько помню, критерий Дарбина-Уотсона можно применять только для временных рядов или когда в регрессии имеется строгая упорядоченность наблюдений. Или там вскрылись еще какие-то особенности?

Нет данных, что она "привязана" только к анализу временных рядов (хотя в книге Хеннана на с .496 представлена). А о регрессии тут, например:
http://eprob.math.nsysu.edu.tw/LomnWeb/homepage/class/92/DurbinWatsonTest.pdf
http://www2.cirano.qc.ca/~dufourj/Web_Site/Dufour_1990_Econometrica_ExactAR1.pdf
http://www.stat.colostate.edu/research/Technical%20Reports/1998/98-16%20Butler%20Paolella.pdf
http://www.smu.edu.sg/research/publications/pdf/JinookJeong_Bootstrap.pdf

Ну, еще ряд статей (да все, практически) есть уже непосредственно по вычислению статистики и ее функции распределения. Хотел заняться, но руки не дошли.

Автор: Pinus 20.12.2010 - 14:37

Спасибо, гляну.

Автор: 100$ 21.12.2010 - 15:49

Цитата(Pinus @ 20.12.2010 - 13:29)

Игорь, мы с Вами как-то ее обсуждали, но, признаться, глубоко я так в нее и не пошел. Насколько помню, критерий Дарбина-Уотсона можно применять только для временных рядов или когда в регрессии имеется строгая упорядоченность наблюдений. Или там вскрылись еще какие-то особенности?

Pinus, позвольте и мне присоединиться к разговору.

При использовании статистики Durbin-Watson необходимо помнить, что:

1. Она не является статистическим тестом в общепринятом понимании, поскольку существуют ситуации, когда по значению теста нельзя сделать никаких статистических выводов (зоны неопределенности).
2. Служит только для определения автокорреляции первого прядка.
3. Регрессия обязательно должна содержать константу.
4. В регресии не должны присутствовать лагированные значения объясняемой переменной (отклик нельзя употреблять в качестве регрессора).

Все процитированные опасения из Вашего поста не имеют под собой никаких оснований.

Но, воообще-то, при наличии теста множителей Лагранжа (LM - Lagrange Multiplier test), который применительно к остаткам называется тестом Бройша-Годфри (Breusch-Godfrey test, 1978), статистика Дарбина-Уотсона - это даже не вчерашний день, это - 1951 год.

Автор: Pinus 21.12.2010 - 16:04

Цитата(100$ @ 21.12.2010 - 22:49)

Все процитированные опасения из Вашего поста не имеют под собой никаких оснований.

Мои основные опасения возникли, когда я всмотрелся в формулу статистики Дарбина-Уотсона, где в числителе стоит сумма квадратов разностей остатков в последовательности i = 2...n. Таким образом, если для обычной регрессии менять последовательность наблюдений в выборке, то получаются различные значения статистики. Как быть?

Автор: 100$ 21.12.2010 - 18:56

Цитата(Pinus @ 21.12.2010 - 17:04)

Мои основные опасения возникли, когда я всмотрелся в формулу статистики Дарбина-Уотсона, где в числителе стоит сумма квадратов разностей остатков в последовательности i = 2...n. Таким образом, если для обычной регрессии менять последовательность наблюдений в выборке, то получаются различные значения статистики. Как быть?

Если Вы в последовательности откликов измените порядок их следования, то тогда аналогичные перестановки надо делать и в наборе регрессоров, иначе у Вас получится просто куча различных регрессий с разными коэффициентами, стд. ошибками, остаточной суммой квадратов RSS и, соответственно, с разными значениями статистики Дарбина-Уотсона.

Что касается ответа на вопрос "Как быть?", являющегося вариацией на вечно юную тему "Что делать?" и "Кто виноват?", то надо все-таки ориентироваться на численное значение статистики (оно для парной линейной регрессии в идеале должно находиться в районе 2), или при большем количестве объясняющих переменных чаще заглядывать в таблицы критических значений (первая ссылка в посте Игоря). Статистика DW табулируется в интервальном виде, так что даже при различных численных её значениях окончательные выводы могут остаться неизменными.

Автор: Pinus 22.12.2010 - 06:30

Цитата(100$ @ 22.12.2010 - 01:56)

Если Вы в последовательности откликов измените порядок их следования, то тогда аналогичные перестановки надо делать и в наборе регрессоров, иначе у Вас получится просто куча различных регрессий с разными коэффициентами, стд. ошибками, остаточной суммой квадратов RSS и, соответственно, с разными значениями статистики Дарбина-Уотсона.

Конечно, если менять последовательность откликов, то вместе с регрессорами. А проще сказать изменить последовательность остатков. При различной последовательности остатков все параметры регрессии остаются одними и теми же, а вот статистика Дарбина-Уотсона меняется.

Цитата(100$ @ 22.12.2010 - 01:56)

Статистика DW табулируется в интервальном виде, так что даже при различных численных её значениях окончательные выводы могут остаться неизменными.

Так вот в том-то и вопрос, что неопределенность: могут остаться, а могут и не остаться. Где-нибудь можно прочитать, что при перестановке выводы в любом случае остаются неизменными?

Автор: Игорь 22.12.2010 - 07:50

Цитата(Pinus @ 22.12.2010 - 06:30)

Так вот в том-то и вопрос, что неопределенность: могут остаться, а могут и не остаться. Где-нибудь можно прочитать, что при перестановке выводы в любом случае остаются неизменными?

Наверное, все-таки статистика DW и упомянутые аналоги могут применяться только к упорядоченным рядам (временным, например). Для регрессионного анализа порядок отсчетов не важен (т.е. порядок на результат регрессионного анализа не влияет). Для DW - важен, статистика зависит от порядка отсчетов.

Вот тут еще список литературы обнаружился по теме, если есть желание подробно изучить:
Fox J. Applied regression analysis, linear models and related methods. - SAGE Publications, 1997.
Fox J. Applied regression analysis and generalized linear models. - SAGE Publications, 2008.
J. Durbin & G.S. Watson (1950), Testing for Serial Correlation in Least Squares Regression I. Biometrika 37, 409–428.
J. Durbin & G.S. Watson (1951), Testing for Serial Correlation in Least Squares Regression II. Biometrika 38, 159–178.
J. Durbin & G.S. Watson (1971), Testing for Serial Correlation in Least Squares Regression III. Biometrika 58, 1–19.
R.W. Farebrother (1980), Pan's Procedure for the Tail Probabilities of the Durbin-Watson Statistic (Corr: 81V30 p189; AS R52: 84V33 p363- 366; AS R53: 84V33 p366- 369). Applied Statistics 29, 224–227.
R. W. Farebrother (1984), [AS R53] A Remark on Algorithms AS 106 (77V26 p92-98), AS 153 (80V29 p224-227) and AS 155: The Distribution of a Linear Combination of chi^2 Random Variables (80V29 p323-333) Applied Statistics 33, 366–369.
W. Kramer & H. Sonnberger (1986), The Linear Regression Model under Test. Heidelberg: Physica.
J. Racine & R. Hyndman (2002), Using R To Teach Econometrics. Journal of Applied Econometrics 17, 175–189.
Sharma P.D. An asymptotic approximation to the probability density function of the Durbin Watson test statistic // Economics, Econometrics and the LINK: Essays in Honor of Lawrence R.Klein. Vol. 226 of the book series: Contributions to Economic Analysis / Ed. by M. Jan Dutta, 1995, vol. 226, pp. 75-86.
Sheehan D.P. Approximating the distribution of the Durbin-Watson statistic // Journal Communications in Statistics - Theory and Methods, 1986, vol. 15, no. 1, pp. 73-88.
L'Esperance W.L., Chall D., Taylor D. An Algorithm for Determining the Distribution Function of the Durbin-Watson Test Statistic // Econometrica, November 1976, vol. 44, no. 6, pp. 1325-1326.
White K.J. The Durbin-Watson Test for Autocorrelation in Nonlinear Models // The Review of Economics and Statistics, May 1992, vol. 74, no. 2, pp. 370-373.

Автор: 100$ 22.12.2010 - 10:51

Цитата(Pinus @ 22.12.2010 - 07:30)

Так вот в том-то и вопрос, что неопределенность: могут остаться, а могут и не остаться. Где-нибудь можно прочитать, что при перестановке выводы в любом случае остаются неизменными?

При наличии константы в уравнении регрессии остатки имеют нулевое среднее, а метод наименьших квадратов, которым Вы скорее всего будете ее оценивать, минимизирует остаточную дисперсию, делая ряд остатков очень похожим на стационарный (т.е. белый шум).

При этом любая перестановка - это не просто иная последовательность регрессионных остаков, это - иная ситуация, для которой выбранная модель (т.е. вид регрессии) может оказаться неадекватным (ошибка спецификации модели). Тогда остатки перестанут проходить тесты на адекватность.

Кроме того, если уж сторить регрессию, то с мыслью о будущем: на основе имеющихся данных построить прогноз. А это- временная категория.

Автор: Pinus 22.12.2010 - 11:39

Цитата(100$ @ 22.12.2010 - 17:51)

При этом любая перестановка - это не просто иная последовательность регрессионных остаков, это - иная ситуация, для которой выбранная модель (т.е. вид регрессии) может оказаться неадекватным (ошибка спецификации модели). Тогда остатки перестанут проходить тесты на адекватность.

Если найдено уравнение регрессии, и если коэффициенты уравнения от перестановки порядка наблюдений не меняются, то как может меняться степень адекватности?

Автор: 100$ 22.12.2010 - 13:51

Цитата(Pinus @ 22.12.2010 - 12:39)

Если найдено уравнение регрессии, и если коэффициенты уравнения от перестановки порядка наблюдений не меняются, то как может меняться степень адекватности?

Согласен, можно выразиться точнее: отправной точкой проверки адекватности модели является диагностика остатков. Тест Дарбина-Уотсона проверяет наличие автокорреляции остатков, а автокорреляция есть функция от времени. Поэтому любое изменение очередности следования остатков, связаное с перестановками в исходных данных, вызовет изменение статистики DW. Просто я хотел сказать, что тут возникает парадокс: с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW. Другое дело, насколько устойчивыми будут полученные статистические выводы.

Автор: Pinus 22.12.2010 - 15:18

Цитата(100$ @ 22.12.2010 - 20:51)

Просто я хотел сказать, что тут возникает парадокс: с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW.

Судя по всему, так оно и есть. Поэтому формула и предполагает наличие некой упорядоченности наблюдений, и поэтому применение DW для обычной регрессии остается под большим вопросом. Даже если с точки зрения проведения эксперимента посмотреть: мы можем получать значения отклика при постепенном увеличении значений регрессора, при уменьшении или в разнобой - регрессия получится в любом случае одна и та же, а значения DW разными.
Была такая мысль, что для обычной регрессии с помощью DW можно посмотреть, например, не создает ли автокорреляцию изменение регрессора, т.е. можно отсортировать наблюдения в порядке возрастания регрессора и посмотреть нет ли каких-нибудь серий, но как тогда быть с повторяющимися наблюдениями (несколько значений отклика для одинакового значения регрессора)? Наверно еще можно использовать DW для проверки того, не создает ли автокорреляцию порядок проведения эксперимента (тогда используется соответствующая сортировка).

Автор: 100$ 22.12.2010 - 16:27

Цитата(Pinus @ 22.12.2010 - 16:18)

... Поэтому формула и предполагает наличие некой упорядоченности наблюдений...

Не совсем так. От исследователя тест не требует никаких предварительных действий: не надо ни сортировать, ни упорядочивать данные, не надо назначать им веса, ранги и т.д. Есть телько вышеозвученные пожелания к исходной регрессии. Просто тест DW с рядом остатков работает как с временным рядом.
А чем могут закончиться эксперименты с перестановками будет понятно, если явно ввести время в уравнение регрессии в качестве объясняющей переменной.

А не пробовали озвучить свои мысли на форуме по эконометрике НГУ? Там есть темка про Д-У. Интересно, что А. Цыплаков ответит.

Автор: Pinus 23.12.2010 - 00:52

Цитата(100$ @ 22.12.2010 - 23:27)

А не пробовали озвучить свои мысли на форуме по эконометрике НГУ? Там есть темка про Д-У. Интересно, что А. Цыплаков ответит.

Можно, наверно, попробовать, но сейчас особо времени нет. Может быть позже. Попробуйте Вы, если есть желание.

Автор: плав 23.12.2010 - 14:55

Во всех рассуждениях выше есть одна проблема - предполагается, что наблюдения можно переставить. Однако это не так. Порядок остатков зависит от "независимой" переменной, которой в эконометрических исследованиях обычно является время. Поэтому и пишут остаток во время t минус остаток во время t-1. Но это просто дань методике. Если Вы предсказываете охват от роста, то рост, как независимая переменная определяет порядок остатков и переставить их не получится. Некая уопрядоченность в тесте DW обязательная и определяется она независимой (незаивисмыми) переменной (-ными)

Автор: 100$ 23.12.2010 - 20:31

Цитата(плав @ 23.12.2010 - 15:55)

Во всех рассуждениях выше есть одна проблема - предполагается, что наблюдения можно переставить. Однако это не так. Порядок остатков зависит от "независимой" переменной, которой в эконометрических исследованиях обычно является время. Поэтому и пишут остаток во время t минус остаток во время t-1. Но это просто дань методике. Если Вы предсказываете охват от роста, то рост, как независимая переменная определяет порядок остатков и переставить их не получится. Некая уопрядоченность в тесте DW обязательная и определяется она независимой (незаивисмыми) переменной (-ными)

Плав, Вы все мудро говорите, только эта ветка про Д-У возникла лишь потому, что никто из собеседников не всетречал в литературе явного запрета на ее использование в регрессионном анализе. Допустим, что мы восстанавливаем зависимость урожайности от количества внесенных удобрений. Никакой хронологии нет и в помине, причин явно вводить время в уравнение регрессии нет. Перестановками в таком случае можно заниматься до вздутия живота, а статистика Д-У всякий раз будет разная. Может быть, именно поэтому она и популярна лишь при анализе временных рядов (эконометрика всецело к нему не сводится). Вот как-то так.

Автор: Pinus 24.12.2010 - 02:55

Цитата(плав @ 23.12.2010 - 21:55)

Во всех рассуждениях выше есть одна проблема - предполагается, что наблюдения можно переставить. Однако это не так. Порядок остатков зависит от "независимой" переменной, которой в эконометрических исследованиях обычно является время. Поэтому и пишут остаток во время t минус остаток во время t-1. Но это просто дань методике. Если Вы предсказываете охват от роста, то рост, как независимая переменная определяет порядок остатков и переставить их не получится. Некая уопрядоченность в тесте DW обязательная и определяется она независимой (независимыми) переменной (-ными)

Там, где присутствует время, там, видимо, заканчивается обычная регрессия. Процесс роста, как биологический процесс, строго говоря, это временной ряд со всеми вытекающими последствиями. Но можно просто, исследовать, например, возрастную динамику средних размеров органа не на одном, а на многих особях, и тогда в регрессии будет не время (роста), а возраст разных организмов. Конечно, можно и здесь расположить наблюдения с увеличением возраста, но как быть, если имеется несколько наблюдений для одного значения возраста (что для временного ряда невозможно)? Как их расположить? А если независимых переменных несколько, и расположение значений одного регрессора по возрастанию далеко не всегда будет соответствовать возрастанию значений другого регрессора?
Если же отойти от изучения роста, а посмотреть на обычную регрессию вообще. В программах (SPSS, Statistica) в модуле обычной линейной регрессии предлагается статистика DW. В книгах тоже. И народ (особливо из гвардии аспирантов, а встречаются и методички преподавателей), по всей видимости, поступает как в песне: "нажми на кнопку - получишь результат, и твоя мечта осуществится!". А в действительности получается "...ну что же ты не рад?" - результат не верный.
Вот, передо мной книга Вуколова Э.А. "Основы статистического анализа. Практикум ... с использованием пакетов Statistica и Excel", рекомендованная УМО вузов РФ в качестве учебного пособия, где в главе 6 "Регрессионный анализ" (Анализ временных рядов - отдельная глава) предлагается для анализа корреляции остатков (стр. 172) использовать статистику DW. В примере расчета исходные данные по возрастанию независимой переменной не расположены (стр. 176), а расчет статистики ведется в соответствии с порядком исходных данных (стр. 188).
В учебном пособии Халафяна А.А. "Statistica 6. Статистический анализ данных", допущенного Минобрнауки для студентов вузов по спец. "Статистика", приводится пример линейного регрессионного анализа (изучается зависимость объема продаж от розничной цены, расходов на рекламу и количества работ). Значения регрессоров в порядке возрастания не расположены (стр. 156), однако предлагается: "...нажмите на кнопку Durbin-Watson statistic..." (стр. 161).

Автор: Pinus 24.12.2010 - 03:02

Цитата(100$ @ 24.12.2010 - 03:31)

...никто из собеседников не всетречал в литературе явного запрета на ее использование в регрессионном анализе.

Встречаются не запреты, а как раз таки рекомендации...

Автор: 100$ 24.12.2010 - 11:21

Цитата(Pinus @ 24.12.2010 - 03:55)

Там, где присутствует время, там, видимо, заканчивается обычная регрессия.

Регрессия не заканчивается. Заканчиваются наши эксперименты с перестановками

Специфика критерия Д-У такова, что "переход" из области "нормальных" значений статистики в область "патологии" (положительная или отрицательная а/корреляция) все равно происходит только через зону неопределенности. Если окончательные выводы от отсутствии а/корреляции 1 порядка неустойчивы по отношению к перестановкам исходных данных, то по-любому придется привлекать другие критерии диагностики остатков. Дарбин с Уотсоном панацеей не являются.

Автор: плав 24.12.2010 - 21:25

Цитата(100$ @ 23.12.2010 - 20:31)

Плав, Вы все мудро говорите, только эта ветка про Д-У возникла лишь потому, что никто из собеседников не всетречал в литературе явного запрета на ее использование в регрессионном анализе. Допустим, что мы восстанавливаем зависимость урожайности от количества внесенных удобрений. Никакой хронологии нет и в помине, причин явно вводить время в уравнение регрессии нет. Перестановками в таком случае можно заниматься до вздутия живота, а статистика Д-У всякий раз будет разная. Может быть, именно поэтому она и популярна лишь при анализе временных рядов (эконометрика всецело к нему не сводится). Вот как-то так.

ничего подобного, "хронология" как раз в Вашем примере есть - количество внесенных удобрений. Это интервальная переменная и естественный порядок есть. Время является независимой переменной, соответственно статистика считает зависимость остатков от значения независимой переменной. А как иначе она "знает" про время? Так что не надо находить проблему там, где ее нет.

Автор: 100$ 24.12.2010 - 23:25

Цитата(плав @ 24.12.2010 - 22:25)

ничего подобного, "хронология" как раз в Вашем примере есть - количество внесенных удобрений. Это интервальная переменная и естественный порядок есть. Время является независимой переменной, соответственно статистика считает зависимость остатков от значения независимой переменной. А как иначе она "знает" про время? Так что не надо находить проблему там, где ее нет.

1. Про хронологию (кстати, а почему в кавычках

Ну, да ладно...): могу согласиться, если эксперимент ставится в течение нескольких лет на одном клочке земли. Если же одновременно на нескольких участках (причем количество удобрений - величина случайная) - на выходе получаем N точек в декартовой ситеме координат: завсимость урожайности от количества удобрений. Другое дело, что на оси абсцисс это количество (удобрений) будет упорядочено по возрастанию. Так это-чисто визуальный эффект, время тут не при чем.

2. Насчет интервальности. Статистика Д-У не интересуется природой откликов и регрессоров: интервальные они, нечеткие или серо-буро-малиновые. В отношении самой регрессии (модели) есть определенные пожелания (см. пост #16 ).

3. Спрашиваете: "А иначе как она "знает" про время?" Отвечаем: она ничего не "знает" про время, просто работает с рядом остаков, как с временным рядом. (Кажется, я повторяюсь). Индекс, который используется в формуле, нет необходимости отождествлять со временем. Вам просто дают понять, что для корректного расчета статистики Д-У надо из второго остатка вычесть первый, из третьего-второй и т.д.

4. По поводу искусственно созданных проблем. Сообщите, пож-ста эту драгоценную рекомендацию, Pinus'у. Не нужно в запальчивости доказывать мне то, что я доказывал ему в посте #25.

Автор: Pinus 25.12.2010 - 01:58

Цитата(100$ @ 25.12.2010 - 06:25)

По поводу искусственно созданных проблем. Сообщите, пож-ста эту драгоценную рекомендацию, Pinus'у. Не нужно в запальчивости доказывать мне то, что я доказывал ему в посте #25.

Коллега, Ваша позиция по ходу обсуждения вопроса менялась несколько раз. Сначала Вы сказали, что "все процитированные опасения из Вашего (моего) поста не имеют под собой никаких оснований". Затем стали аргументировать тем, что при перестановке "остатки перестанут проходить тесты на адекватность". Потом Вы заметили, что "с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW". Следующим этапом согласились, что "перестановками в таком случае можно заниматься до вздутия живота, а статистика Д-У всякий раз будет разная". А теперь опять для Вас - это "искусственно созданная проблема".
Понятно, что мотивация участия в форуме может быть разная. Кто-то хочет найти ответ на вопрос, не скрывает своего незнания и признает свои ошибки. Кто-то имеет возможность помочь, потому что знает ответ, но в случае ошибочности своего мнения признает это, потому что цель - найти правильное решение (которое может быть будут использовать и другие читатели форума). А кто-то хочет просто показать себя и поэтому приоритеты меняются - куда важнее завуалировать свои ошибки и по возможности перевести стрелки на других.

Автор: плав 25.12.2010 - 13:00

Цитата(100$ @ 24.12.2010 - 23:25)

1. Про хронологию (кстати, а почему в кавычках

Ну, да ладно...): могу согласиться, если эксперимент ставится в течение нескольких лет на одном клочке земли. Если же одновременно на нескольких участках (причем количество удобрений - величина случайная) - на выходе получаем N точек в декартовой ситеме координат: завсимость урожайности от количества удобрений. Другое дело, что на оси абсцисс это количество (удобрений) будет упорядочено по возрастанию. Так это-чисто визуальный эффект, время тут не при чем.

2. Насчет интервальности. Статистика Д-У не интересуется природой откликов и регрессоров: интервальные они, нечеткие или серо-буро-малиновые. В отношении самой регрессии (модели) есть определенные пожелания (см. пост #16 ).

3. Спрашиваете: "А иначе как она "знает" про время?" Отвечаем: она ничего не "знает" про время, просто работает с рядом остаков, как с временным рядом. (Кажется, я повторяюсь). Индекс, который используется в формуле, не необходимости отождествлять со временем. Вам просто дают понять, что для корректного расчета статистики Д-У надо из второго остатка вычесть первый, из третьего-второй и т.д.

4. По поводу искусственно созданных проблем. Сообщите, пож-ста эту драгоценную рекомендацию, Pinus'у. Не нужно в запальчивости доказывать мне то, что я доказывал ему в посте #25.

Похоже Вы не понимаете, или делаете вид, что не хотите понять. Итак, по пунктам:
1) Статистика ДУ работает с упорядоченными данными (это же тест для регресии!). Для упорядочения необходима независимая переменная. Такой переменной является время, концентрация внесенного удобрения или еще что-то. Поэтому переставлять остатки как Вам хочется нельзя.
2) Вы сами-то поняли, что Вы упорядочили данные по времени в своем ответе ?3? А если можно упорядочить по времени, почему нельзя по другой переменной? В чем разница? (вообще создается впечатление, что Вы никогда анализ остатков не делали)
3) Не стоит цепляться к терминам, если не очень разбираетесь. По поводу распределения остатков есть требования - для расчета таблиц используется допущение нормальности распределения остатков, соответственно если шкала будет "серо-буро-малиновая" (а также, например, номинальная), то остатки не смогу быть распределены нормально. Отсюда, кстати, формально следует, что переменная отклика должна измеряться интервальной шкалой, а требование упорядоченности означает, что независимая переменная должна измеряться как минимум при помощи ординальной шкалы. То, что Вы это не поняли, вызывает лишь сожаления.

Автор: 100$ 25.12.2010 - 22:37

Цитата(Pinus @ 25.12.2010 - 02:58)

Коллега, Ваша позиция по ходу обсуждения вопроса менялась несколько раз. Сначала Вы сказали, что "все процитированные опасения из Вашего (моего) поста не имеют под собой никаких оснований". Затем стали аргументировать тем, что при перестановке "остатки перестанут проходить тесты на адекватность". Потом Вы заметили, что "с помощью перестановок в исходных данных мы можем искусственно внести в них автокорреляцию, которую и зафиксирует DW". Следующим этапом согласились, что "перестановками в таком случае можно заниматься до вздутия живота, а статистика Д-У всякий раз будет разная". А теперь опять для Вас - это "искусственно созданная проблема".
Понятно, что мотивация участия в форуме может быть разная. Кто-то хочет найти ответ на вопрос, не скрывает своего незнания и признает свои ошибки. Кто-то имеет возможность помочь, потому что знает ответ, но в случае ошибочности своего мнения признает это, потому что цель - найти правильное решение (которое может быть будут использовать и другие читатели форума). А кто-то хочет просто показать себя и поэтому приоритеты меняются - куда важнее завуалировать свои ошибки и по возможности перевести стрелки на других.

Ув. Pinus!
Не сочтите, пож-ста, сказанное мною в посте # 33 за личный выпад. Просто все сказанное в ветке говорится, прежде всего, для ее автора.

Мотивация, как Вы очень верно заметили, может быть разная. Смею предположить, что у меня она такая же, как и у Вас - как можно скорее завершить свое незаконченное самостоятельное образование в области статистики. Поэтому я тоже не брезгую общением на форумах в надежде отыскать жемчужное зерно во всех разновидностях информационного шума. К беседе присоединился лишь потому, что Вы, по Вашим же словам, плотно этим критерием не занимались. И хотя я не расыпал в своих постах смайлики горстями, менторского тона старался избегать.

Демонстрацией себя любимого на форумах не интересуюсь. Не стриптизерша.

Теперь насчет позиции. Тест Д-У подобно прочим методам диагностики остатков стремится доказать, что тестируемый ряд остатков является белым шумом, т.е. его вероятностные характеристики не зависят от времени. В этом качестве он должен быть инвариантен к разовым перестановкам (даже безотносительно к тому, можно их делать или нельзя) в смысле окончательных выводов, если ряд достаточно длинный. Именно поэтому я и сказал, что опасения беспочвенны. Из этого довольно очевидно вытекает мое убеждение, что проблема эта довольно умозрительная. Если бы это было не так, то за 60 лет существования критерия кто-нибудь, глядишь, да и подметил бы это раньше Вас.

Этого Вам показалось мало, и Вы начали уточнять, что будет, если мы допустим (гипотетическую) возможность перестановки исходных данных. Благо, задавать такие вопросы проще, чем на них отвечать. Вот я и ответил, что будет либо куча разных по сути регрессий, либо одна и та же, но с разными значениями статистики Д-У. При этом неинвариантность критерия по отношению к перестановкам, скорее всего, свидетельствует о неправильной спецификации модели. Далее я предположил, что явное введение фактора времени в регрессию должно, по идее, продемонстрировать абсурдность исходной предпосылки о допустимости каких либо перестановок в исходных данных. Именно поэтому при анализе временных рядов такое никому и в голову не придет. На Вас это, правда, впечатления не произвело.

Вот только очень досадно, что от предложения проконсультироваться на форуме НГУ Вы гордо отказались, сославшись на занятость, но на обсуждение скромного меня и чтение мне морали на этом форуме время нашли. Довольно странно для смиренного искателя истины, к тому же бескорыстно заботящегося о ближнем. Так что назидательный тон Вам пока не к лицу.

Засим жду от Вас снисходительного указания пальцем на мои ошибки, которые я, по Вашему, так неудачно вуалирую. Не сливайте дискуссию. Только просьба отвлечься от запрета на перестановки и не копировать посты ув. Плава. Заранее спасибо за науку.

С уважением.

Автор: DrgLena 26.12.2010 - 23:01

Наблюдая столь острую дискуссию, переходящую на личности, хочется вставить пару слов в защиту Дарбина и Уотсона, а то можно подумать, что их статистика этакая марионетка.
Да, действительно распределение статистики ДУ зависит не только от n и p, но также и от конкретных значений предикторов. Но Дарбин и Уотсон преодолели это затруднение рассчитав при различных значениях числа наблюдений и объясняющих переменных нижнюю и верхнюю границы интервала, в котором только и могут находиться критические значения статистики Дарбина-Уотсона, независимо от того, каковы конкретные значения предикторов.
Не могу согласиться с мнением 100$ (хотя ник ? весомый аргумент), что это устаревший критерий и его стоит забыть, отдавая предпочтение критерию Бройша ? Годфри (Breusch-Godfrey). Критерию Стьюдента более 100 лет, но он прочно на месте.
Преимущества ДУ перед упомянутым Бройша ? Годфри в том, что ДУ точный критерий, а БГ является асимптотическим критерием. Реализация в статистических пакетах гигантах именно ДУ (SPSS, Statistica), а не БГ(мне известен только один такой пакет) подтверждает то, что ДУ не является устаревшим критерием.
Однако возможность применения критерия Дарбина-Уотсона ограничивается тем, что он неприменим в ситуациях, когда в число объясняющих переменных включаются запаздывающие значения объясняемой переменной.?
В ссылках Игоря все это есть. Но можно и на русском языке посмотреть, например Эконометрика для начинающих - В. П. Носко, есть в сети.

Автор: Игорь 27.12.2010 - 08:28

А было бы интересно посмотреть, как именно меняется статистика Дарбина-Уотсона при перестановках вариант. Например, взять небольшой ряд (чтобы вычислений не сильно много), сгенерировать все перестановки и для каждой перестановки посчитать статистику.

Автор: DrgLena 27.12.2010 - 13:15

Одно число посчитано не верно, я его зачеркнула, должно быть 1,43. И еще есть ошибки в расчете второго остатка (-1,54). Да, не удачный пример (из повобия для ВУЗа, могу дать ссылку).

Мое самообразование в этом вопросе привело к тому, что я сделала следующие выводы. Статистика ДУ может применяться к ряду первичных данных для доказательства наличия во временном ряду автокорреляции. ПОсле построения регрессионной модели ДУ применяется к остаткам чтобы доказать, что они не коррелируют. Почему он в модуле обычной регрессии присутствует в пакетах, чтобы в процессе моделирования стремиться к тому, чтобы получить макс R^2, мин сумму квадратов остатков и отсутствие автокорреляци остатков по ДУ. Но при моделировании вы меняете набор предикторов, а не порядок наблюдений. Прочерки в первой строке в примере, не очень понятно что, но в интрепретации число наблюдений 7 , dL=0,700 dU=1,356. Расчетное значение попадает в интервал от dU до 4-dU,т.е. нулевая гипотеза об отсутствии автокорреляции не отклоняется.

Автор: 100$ 27.12.2010 - 18:28

Уважаемым собеседникам, привыкшим обсуждать письмо, а не почтальона, с удовольствием отвечаю (с нарушением хронологии и в телеграфном стиле)

Игорь, вы были бы тысячу раз правы, но проблема и в самом деле не стоит выеденного яйца.
Мы (по крайней мере, я) попытались в игровой форме умозрительно спрогнозировать результаты численного эксперимента так сказать "на кончике пера". Не более того.
Правда, с тех пор у меня появились еще два умозрительных замечания, которые сейчас мне изложить недосуг.

Боюсь, что для численных экспериментов в духе Монте-Карло вы здесь энтузиастов не найдете.

DоrоgаяLena!

В обоих ваших высказываниях есть неточности и откровенно неудачные моменты, которые одной строкой не прокомментируешь.
Предполагаю позже вернуться к обсуждению, когда Pinus выйдет в эфир. К тому же и Плаву надо ответить.

Автор: DrgLena 27.12.2010 - 19:04

100$, Вы как раз и обсуждаете почтальонов ( аж 4 ника упоминаете), а по сути письма ? ровно ничего. При изменении порядка наблюдений, по вашему, получается куча разных регрессий? Вряд ли pinus предлагал только остатки переставлять. Ваши новые "умозрительные замечания", скорее всего в том же духе. И Монте-Карло тут тоже ни при чем, пример я привела для Игоря поскольку он такое желание высказал. Вот только по определению применимости этого критерия этого делать нельзя, плав это уже высказал.

Автор: DrgLena 27.12.2010 - 19:08

Цитата(100$ @ 27.12.2010 - 19:28)

В обоих ваших высказываниях есть неточности и откровенно неудачные моменты, которые одной строкой не прокомментируешь.

Надеюсь, это сделают другие участники форума в том духе, который обычно присутствует на этом форуме.

Автор: плав 28.12.2010 - 18:07

Цитата(Игорь @ 27.12.2010 - 08:28)

А было бы интересно посмотреть, как именно меняется статистика Дарбина-Уотсона при перестановках вариант. Например, взять небольшой ряд (чтобы вычислений не сильно много), сгенерировать все перестановки и для каждой перестановки посчитать статистику.

А как могут выглядеть перестановки вот тут:
y x
1 1
2 1.6
3 2
4 2.4
? Это ведь обычная регрессия, а может y - время?

Автор: alexeysmirnov20@mail.ru 28.06.2015 - 17:38

Об этом можно почитать в статье http://novainfo.ru/archive/35/smeshannaya-regressionno-trendovaya-model

Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Условие независимости остатков

Автор: Pinus 17.12.2010 - 07:25

Автор: nokh 18.12.2010 - 23:44

Автор: Pinus 19.12.2010 - 00:32

Автор: nokh 19.12.2010 - 00:45

Автор: DrgLena 19.12.2010 - 01:06

Автор: Игорь 19.12.2010 - 14:40

Автор: Pinus 19.12.2010 - 15:07

Автор: DrgLena 19.12.2010 - 20:39

Автор: плав 19.12.2010 - 22:38

Автор: Pinus 20.12.2010 - 09:15

Автор: Pinus 20.12.2010 - 09:54

Автор: Игорь 20.12.2010 - 10:25

Автор: Pinus 20.12.2010 - 12:29

Автор: Игорь 20.12.2010 - 13:35

Автор: Pinus 20.12.2010 - 14:37

Автор: 100$ 21.12.2010 - 15:49

Автор: Pinus 21.12.2010 - 16:04

Автор: 100$ 21.12.2010 - 18:56

Автор: Pinus 22.12.2010 - 06:30

Автор: Игорь 22.12.2010 - 07:50

Автор: 100$ 22.12.2010 - 10:51

Автор: Pinus 22.12.2010 - 11:39

Автор: 100$ 22.12.2010 - 13:51

Автор: Pinus 22.12.2010 - 15:18

Автор: 100$ 22.12.2010 - 16:27

Автор: Pinus 23.12.2010 - 00:52

Автор: плав 23.12.2010 - 14:55

Автор: 100$ 23.12.2010 - 20:31

Автор: Pinus 24.12.2010 - 02:55

Автор: Pinus 24.12.2010 - 03:02

Автор: 100$ 24.12.2010 - 11:21

Автор: плав 24.12.2010 - 21:25

Автор: 100$ 24.12.2010 - 23:25

Автор: Pinus 25.12.2010 - 01:58

Автор: плав 25.12.2010 - 13:00

Автор: 100$ 25.12.2010 - 22:37

Автор: DrgLena 26.12.2010 - 23:01

Автор: Игорь 27.12.2010 - 08:28

Автор: DrgLena 27.12.2010 - 13:15

Автор: 100$ 27.12.2010 - 18:28

Автор: DrgLena 27.12.2010 - 19:04

Автор: DrgLena 27.12.2010 - 19:08

Автор: плав 28.12.2010 - 18:07

Автор: alexeysmirnov20@mail.ru 28.06.2015 - 17:38