Фиктивные переменные в регрессии |
Здравствуйте, гость ( Вход | Регистрация )
Фиктивные переменные в регрессии |
1.03.2010 - 14:33
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
А что там их разбирать-то? В принципе Фиктивные переменные - несложная тема, в целом все понятно. Но вот какие у меня, например, возникли вопросы и мысли. В сети нашел следующее представление уравнения с фиктивными переменными (вариант влияния одной фиктивной переменной (Z) на свободный член и коэффициент регрессии): y = b0 + b1X + δZ + λZX или y = (b0 + δZ) + (b1 + λZ)X. Т.е. при Z = 0, y = b0 + b1X, а при Z = 1, b0 изменяется на величину δ, а b1 - на величину λ. В таком представлении переменная Z выступает в роли простого "переключателя" с одной регрессии на другую (имеются ввиду регрессии подсовокупностей). Тогда возникает резонный вопрос: имеет ли значение корреляция Z и X (угроза мультиколлинеарности)? Ведь вектор Z не содержит в себе никакой прямой информации о качественном признаке (нет наблюдений этой качественной переменной, нет дисперсии и ничего другого кроме нулей и единиц). Значит и нет коллинеарности между столбцами в матрице регрессоров (если фиктивные переменные выбраны правильно и нет возможности появления "ловушки"). Может быть тогда можно включать в уравнение переменную Z как манекен переменной, которая реально находится в тесной корреляционной связи с регрессором? Сообщение отредактировал Pinus - 1.03.2010 - 14:44 |
|
2.03.2010 - 06:31
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
... в целом все понятно ... В сети нашел следующее представление уравнения с фиктивными переменными (вариант влияния одной фиктивной переменной (Z) на свободный член и коэффициент регрессии): y = b0 + b1X + δZ + λZX или y = (b0 + δZ) + (b1 + λZ)X. Тут нелинейное уравнение, очевидно? Сообщение отредактировал Игорь - 2.03.2010 - 06:34 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
2.03.2010 - 10:27
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Тут нелинейное уравнение, очевидно? Почему нелинейное? Линейное. y = b0 + b1X + δZ + λZX рассматривается как линейная множественная регрессия с предикторами X, Z и ZX. Z - бинарная фиктивная переменная, принимающая значения 0 и 1. При Z = 0, y = b0 + b1X. При Z = 1, y = (b0 + δ) + (b1 + λ)X, где δ и λ - изменения коэффициентов b0 и b1 при воздействии некоего качественного признака, который представлен фиктивной переменной Z. Т.е. происходит скачкообразное переключение с одной регрессии на другую. Значимость δ или λ говорит о значимости влияния Z соответственно на свободный член или на коэффициент регрессии. Вообще этот метод является хорошей альтернативой ANCOVA для второго типа задач (выявление различий между регрессиями и значимости влияния качественного(ых) признака(ов)). Если не ошибаюсь, то это тот самый stratified method, о котором так загадочно писала DrgLena, когда обсуждали ковариационный анализ. Сообщение отредактировал Pinus - 2.03.2010 - 10:32 |
|
2.03.2010 - 11:17
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Почему нелинейное? Линейное. y = b0 + b1X + δZ + λZX рассматривается как линейная множественная регрессия с предикторами X, Z и ZX. Тогда получается, что предикторы - не независимые, т.к. предиктор ZX зависит и от X, и от Z. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
2.03.2010 - 13:52
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Тогда получается, что предикторы - не независимые, т.к. предиктор ZX зависит и от X, и от Z. Игорь, не могу судить, как это математически обосновано. В моем понимании - Z не натуральная переменная, а манекен качественного признака (такие переменные в англоязычной литературе называют dummy variables). Этот признак сам по себе в уравнении не участвует (т.е. нет наблюдений этой переменной). Но вводится фиктивный элемент, который отражает, как меняется регрессия Y на X, если наблюдения получались при разных (например, двух) уровнях качественного признака. Коль открыли новую тему, то наверно есть смысл привести список литературы. Может кому-нибудь будет полезным. То, что удалось найти мне: Айвазян С.А. Прикладная статистика. Основы эконометрики: Учебник для вузов. Т.2: Основы эконометрики. - М.: ЮНИТИ-ДАНА, 2001. - 432 с. (см. со стр. 155); Джонстон Дж. Эконометрические методы / Пер с англ. - М.: Статистика, 1980. - 444 с. (см. со стр. 176); Доугерти К. Введение в эконометрику: Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с. (см. со стр. 262); Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. Н.Ш. Кремера. - М.: ЮНИТИ-ДАНА, 2002. - 311 с. (см. со стр. 115); Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. - М.: Дело, 2004. - 576 с. (см. со стр. 112); Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия: Учебное пособие. - Новосибирск: Издательство СО РАН, 2005. - 744 с. (см. со стр. 289); (все книги есть в сети) Есть еще в книге Маленво Э. Статистические методы эконометрии. Вып. 1. Пер. с франц.: М.: Статистика, 1976. (см. в главе 8); (в сети вып.1 не нашел; вып.2 есть). В сети много презентаций по этой теме (как я понял лекции преподавателей ВУЗов по эконометрике). Сообщение отредактировал Pinus - 2.03.2010 - 13:54 |
|
2.03.2010 - 14:10
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Игорь, не могу судить, как это математически обосновано. В моем понимании - Z не натуральная переменная, а манекен качественного признака (такие переменные в англоязычной литературе называют dummy variables). Этот признак сам по себе в уравнении не участвует (т.е. нет наблюдений этой переменной). Но вводится фиктивный элемент, который отражает, как меняется регрессия Y на X, если наблюдения получались при разных (например, двух) уровнях качественного признака. До математики мы еще не дошли. С помощью dummy переменных (они красноречиво называются также индикаторными) кодируются реальные признаки. Следовательно, они наблюдаются. Мы измеряем X, измеряем Z. А ZX мы не измеряем, а вычисляем. Иногда dummy путают с качественными переменными, а это не так. Например, некоторый признак может кодироваться, скажем, тремя dummy переменными (посмотрите рассуждения в Справке "Как начать работу" ПО AtteStat). Доугерти К. Введение в эконометрику: Пер. с англ. - М.: ИНФРА-М, 1999. - XIV, 402 с. (см. со стр. 262); Как раз тут и написано. Причем пример медицинский, хотя книжка по эконометрике. Т.о., модель, составленная вами - нелинейная. Участвуют 2 переменные. И по правилам обращения с dummy, как с количественными переменными, нужно строить множественную нелинейную регрессионную модель. По-моему, так. Вот теперь дошли до математики. Действительно, записав уравнения МНК, для упрощения задачи мы можем уравнения логарифмировать, делить, умножать и т.д., словом, пытаться свести уравнения к максимально простому виду. В результате решения получаются оптимальные значения коэффициентов показанной выше нелинейной модели. Причем для каждой независимой переменной и каждого коэффициента модели можно построить ДИ и т.п., что требуется. Если ПО позволяет, нужно попытаься формально подставить свои данные в программу и посмотреть, что получится и как это можно интерпретировать. Сообщение отредактировал Игорь - 2.03.2010 - 14:15 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
2.03.2010 - 16:20
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Т.о., модель, составленная вами - нелинейная. Участвуют 2 переменные. И по правилам обращения с dummy, как с количественными переменными, нужно строить множественную нелинейную регрессионную модель. Игорь, объясните почему уравнение нелинейное? Вот у Доугерти, с. 280 как раз речь о фиктивных переменных при коэффициенте наклона, и приводится пример уравнения точно такой же, как привел я. Сказано, что фиктивная переменная DX (в моем примере ZX) рассматривается как отдельная объясняющая переменная, которая определяется произведением D и X (Z и X). Нет ни слова о нелинейности. Попробую по исходным данным примера Доугерти посчитать регрессию, посмотрим что получится. |
|
3.03.2010 - 01:10
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
К сожалению, для уравнения, коэффициенты которого приводятся у Доугерти, в тексте нет исходных данных (таблица 9.6 на стр. 281 с 20 наблюдениями приведена для того, чтобы показать, как определяется DX). Соответственно, проверить можно только имея данные о 964 родах, которые возможно приводятся где-то в оригинальной работе (Dougherty, Jones, 1982).
Но тем не менее, о нелинейности получаемого уравнения множественной регрессии ни у Доугерти, ни в одной другой книге ничего нет. Везде речь идет о трех (не о двух) отдельных объясняющих переменных множественной регрессии. Стало быть уравнение все-таки линейно. Почему при этом нет коллинеарности не могу судить. Скорее всего существуют книги по dummy переменным на английском, и по аналогии с другими методами статистики можно полагать, что они гораздо более обстоятельны и подробны, чем на литература на русском. Может быть там найдутся конкретные пояснения по этому поводу? |
|