Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Фиктивные переменные в регрессии
Pinus
сообщение 1.03.2010 - 14:33
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 1.03.2010 - 17:41) *
А что там их разбирать-то?

В принципе Фиктивные переменные - несложная тема, в целом все понятно. Но вот какие у меня, например, возникли вопросы и мысли.
В сети нашел следующее представление уравнения с фиктивными переменными (вариант влияния одной фиктивной переменной (Z) на свободный член и коэффициент регрессии):
y = b0 + b1X + δZ + λZX или y = (b0 + δZ) + (b1 + λZ)X.
Т.е. при Z = 0, y = b0 + b1X, а при Z = 1, b0 изменяется на величину δ, а b1 - на величину λ. В таком представлении переменная Z выступает в роли простого "переключателя" с одной регрессии на другую (имеются ввиду регрессии подсовокупностей). Тогда возникает резонный вопрос: имеет ли значение корреляция Z и X (угроза мультиколлинеарности)? Ведь вектор Z не содержит в себе никакой прямой информации о качественном признаке (нет наблюдений этой качественной переменной, нет дисперсии и ничего другого кроме нулей и единиц). Значит и нет коллинеарности между столбцами в матрице регрессоров (если фиктивные переменные выбраны правильно и нет возможности появления "ловушки"). Может быть тогда можно включать в уравнение переменную Z как манекен переменной, которая реально находится в тесной корреляционной связи с регрессором?

Сообщение отредактировал Pinus - 1.03.2010 - 14:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов (1 - 7)
Игорь
сообщение 2.03.2010 - 06:31
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(Pinus @ 1.03.2010 - 15:33) *
... в целом все понятно ...
В сети нашел следующее представление уравнения с фиктивными переменными (вариант влияния одной фиктивной переменной (Z) на свободный член и коэффициент регрессии):
y = b0 + b1X + δZ + λZX или y = (b0 + δZ) + (b1 + λZ)X.

Тут нелинейное уравнение, очевидно?

Сообщение отредактировал Игорь - 2.03.2010 - 06:34


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 2.03.2010 - 10:27
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 2.03.2010 - 13:31) *
Тут нелинейное уравнение, очевидно?

Почему нелинейное? Линейное.
y = b0 + b1X + δZ + λZX рассматривается как линейная множественная регрессия с предикторами X, Z и ZX.

Z - бинарная фиктивная переменная, принимающая значения 0 и 1.
При Z = 0, y = b0 + b1X.
При Z = 1, y = (b0 + δ) + (b1 + λ)X, где δ и λ - изменения коэффициентов b0 и b1 при воздействии некоего качественного признака, который представлен фиктивной переменной Z. Т.е. происходит скачкообразное переключение с одной регрессии на другую. Значимость δ или λ говорит о значимости влияния Z соответственно на свободный член или на коэффициент регрессии.

Вообще этот метод является хорошей альтернативой ANCOVA для второго типа задач (выявление различий между регрессиями и значимости влияния качественного(ых) признака(ов)).
Если не ошибаюсь, то это тот самый stratified method, о котором так загадочно писала DrgLena, когда обсуждали ковариационный анализ.

Сообщение отредактировал Pinus - 2.03.2010 - 10:32
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 2.03.2010 - 11:17
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(Pinus @ 2.03.2010 - 11:27) *
Почему нелинейное? Линейное.
y = b0 + b1X + δZ + λZX рассматривается как линейная множественная регрессия с предикторами X, Z и ZX.

Тогда получается, что предикторы - не независимые, т.к. предиктор ZX зависит и от X, и от Z.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 2.03.2010 - 13:52
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 2.03.2010 - 18:17) *
Тогда получается, что предикторы - не независимые, т.к. предиктор ZX зависит и от X, и от Z.

Игорь, не могу судить, как это математически обосновано. В моем понимании - Z не натуральная переменная, а манекен качественного признака (такие переменные в англоязычной литературе называют dummy variables). Этот признак сам по себе в уравнении не участвует (т.е. нет наблюдений этой переменной). Но вводится фиктивный элемент, который отражает, как меняется регрессия Y на X, если наблюдения получались при разных (например, двух) уровнях качественного признака.

Коль открыли новую тему, то наверно есть смысл привести список литературы. Может кому-нибудь будет полезным.
То, что удалось найти мне:
Айвазян С.А. Прикладная статистика. Основы эконометрики: Учебник для вузов. Т.2: Основы эконометрики. - М.: ЮНИТИ-ДАНА, 2001. - 432 с. (см. со стр. 155);
Джонстон Дж. Эконометрические методы / Пер с англ. - М.: Статистика, 1980. - 444 с. (см. со стр. 176);
Доугерти К. Введение в эконометрику: Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с. (см. со стр. 262);
Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. Н.Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2002. - 311 с. (см. со стр. 115);
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. - М.: Дело, 2004. - 576 с. (см. со стр. 112);
Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия: Учебное пособие. - Новосибирск: Издательство СО РАН, 2005. - 744 с. (см. со стр. 289);
(все книги есть в сети)

Есть еще в книге Маленво Э. Статистические методы эконометрии. Вып. 1. Пер. с франц.: М.: Статистика, 1976. (см. в главе 8); (в сети вып.1 не нашел; вып.2 есть).

В сети много презентаций по этой теме (как я понял лекции преподавателей ВУЗов по эконометрике).

Сообщение отредактировал Pinus - 2.03.2010 - 13:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 2.03.2010 - 14:10
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(Pinus @ 2.03.2010 - 14:52) *
Игорь, не могу судить, как это математически обосновано. В моем понимании - Z не натуральная переменная, а манекен качественного признака (такие переменные в англоязычной литературе называют dummy variables). Этот признак сам по себе в уравнении не участвует (т.е. нет наблюдений этой переменной). Но вводится фиктивный элемент, который отражает, как меняется регрессия Y на X, если наблюдения получались при разных (например, двух) уровнях качественного признака.

До математики мы еще не дошли.
С помощью dummy переменных (они красноречиво называются также индикаторными) кодируются реальные признаки. Следовательно, они наблюдаются. Мы измеряем X, измеряем Z. А ZX мы не измеряем, а вычисляем. Иногда dummy путают с качественными переменными, а это не так. Например, некоторый признак может кодироваться, скажем, тремя dummy переменными (посмотрите рассуждения в Справке "Как начать работу" ПО AtteStat).
Цитата(Pinus @ 2.03.2010 - 14:52) *
Доугерти К. Введение в эконометрику: Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с. (см. со стр. 262);

Как раз тут и написано. Причем пример медицинский, хотя книжка по эконометрике.

Т.о., модель, составленная вами - нелинейная. Участвуют 2 переменные. И по правилам обращения с dummy, как с количественными переменными, нужно строить множественную нелинейную регрессионную модель. По-моему, так.

Вот теперь дошли до математики. Действительно, записав уравнения МНК, для упрощения задачи мы можем уравнения логарифмировать, делить, умножать и т.д., словом, пытаться свести уравнения к максимально простому виду. В результате решения получаются оптимальные значения коэффициентов показанной выше нелинейной модели. Причем для каждой независимой переменной и каждого коэффициента модели можно построить ДИ и т.п., что требуется.

Если ПО позволяет, нужно попытаься формально подставить свои данные в программу и посмотреть, что получится и как это можно интерпретировать.

Сообщение отредактировал Игорь - 2.03.2010 - 14:15


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 2.03.2010 - 16:20
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Игорь @ 2.03.2010 - 21:10) *
Т.о., модель, составленная вами - нелинейная. Участвуют 2 переменные. И по правилам обращения с dummy, как с количественными переменными, нужно строить множественную нелинейную регрессионную модель.

Игорь, объясните почему уравнение нелинейное?
Вот у Доугерти, с. 280 как раз речь о фиктивных переменных при коэффициенте наклона, и приводится пример уравнения точно такой же, как привел я. Сказано, что фиктивная переменная DX (в моем примере ZX) рассматривается как отдельная объясняющая переменная, которая определяется произведением D и X (Z и X). Нет ни слова о нелинейности.
Попробую по исходным данным примера Доугерти посчитать регрессию, посмотрим что получится.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 3.03.2010 - 01:10
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



К сожалению, для уравнения, коэффициенты которого приводятся у Доугерти, в тексте нет исходных данных (таблица 9.6 на стр. 281 с 20 наблюдениями приведена для того, чтобы показать, как определяется DX). Соответственно, проверить можно только имея данные о 964 родах, которые возможно приводятся где-то в оригинальной работе (Dougherty, Jones, 1982).
Но тем не менее, о нелинейности получаемого уравнения множественной регрессии ни у Доугерти, ни в одной другой книге ничего нет. Везде речь идет о трех (не о двух) отдельных объясняющих переменных множественной регрессии. Стало быть уравнение все-таки линейно. Почему при этом нет коллинеарности не могу судить.
Скорее всего существуют книги по dummy переменным на английском, и по аналогии с другими методами статистики можно полагать, что они гораздо более обстоятельны и подробны, чем на литература на русском. Может быть там найдутся конкретные пояснения по этому поводу?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему