Отношение шансов для сочетания факторов |
Здравствуйте, гость ( Вход | Регистрация )
Отношение шансов для сочетания факторов |
31.08.2010 - 13:04
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Здравствуйте!
Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? |
|
31.08.2010 - 16:43
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Здравствуйте! Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? Совсем кратко 1) Интерпретация не совсем правильная. Правильная интерпретация таблицы (считаем, что СД и курение закодированы 1/0, если цифры кодов другие - результат будет тоже иной) а) СД повышает риск инсульта в exp(2,068)=7,909 раз б) Курение повышает риск инсульта в exp(0,271)=1,311 раз в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз 2) Доверительные интервалы для случаев (а) и (в) берете напрямую из таблицы, для случая (в) простого решения нет, надо использовать контрасты 3) Стандартное представление данных - коэффициент регрессии, ошибка коэффициента и тест его значимости; ОШ и доверительные интервалы - иная интерпретация данных, может быть представлена в таблице дополнительно 4) см. 1 5) Если у Вас более 1000 наблюдений можете попробовать взять в качестве полной модели модель со всеми тройными взаимодействиями и потом ее постепенно упрощать. Если взаимодействие достоверно, то остаются и его компоненты в модели вне зависимости от их достоверности. Если наблюдений меньше - лучше выбрать комбинации исходя из знания предметной области
Причина редактирования: Спасибо, DrgLena, исправил
|
|
31.08.2010 - 17:08
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз
|
|
31.08.2010 - 19:55
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то...
1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Все переменные PASW перекодирует в 1/0... Другая кодировка ведь будет неправильной? Полученные ОШ не будут совпадать с ОШ рассчитанными по таблице сопряженности... 2) А можно какую-нибудь ссылку на контрасты? Не слышал о них... 3) Спасибо 4) А можно ссылку, где это доступно объясняется? Завтра попробую ввести новую переменную равную 1, если есть СД и К, иначе - 0. Данных нет под рукой... 5) Наблюдений примерно 250 без инсульта и 150 с инсультом. Ок, попробую... |
|
31.08.2010 - 20:28
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
|
|
31.08.2010 - 22:55
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то... 1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok+beta3*DM*smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Если включить взаимодействия ситуация изменится так (курение в сочетании с диабетом хуже, чем просто эффекты курения и диабета): СД+К+ = beta1+beta2+beta3 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Про контрасты посмотрите общую информацию здесь на форуме и help в используемой программе. Для случая двух переменных проблем быть не должно, если захотите анализировать больше, разбираться придется дольше. В SAS все это выглядело бы так (синтаксис SPSS должен быть похожим): proc logistic; freq count; class dm (ref='0') kur (ref='0'); model stroke=dm kur kur*dm; contrast 'DM+Kur+' dm 1 -1 kur 1 -1 kur*dm 1 -1/e estimate=exp; run; |
|
1.09.2010 - 06:02
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
По-моему у них не очень точные формулировки: Цитата ...а прибавка к зарплате 100 рублей - на 4.4% (2.8%-6%), правда такая прибавка мужчине одновременно уменьшает это отношение на 3.8% (5.7%-1.9%). С увеличением зарплаты шансы алкоголизма увеличиваются на 4.4% только для женщин, а не в среднем для всех. Для мужчин прибавка к зарплате увеличивает шансы на 4,4%*(100%-3,8%)=0,4%=exp(0,0432-0,0390) Из их фразы можно понять, что прибавка к зарплате для мужчин увеличивает шансы на 4,4%-3,8%=0,6% Предлагаемой вами формулы у них вообще нет: exp(0,0432+0,8801-0,0390)=увеличение в 2,4 раза |
|
1.09.2010 - 07:51
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Правильно ли я всё понимаю?..
1) Считаем ОШ инсульта по таблицам сопряженности отдельно для СД и К. Получаем, что СД увеличивает шансы в 7,229 раз и К - в 1,207 раз 2) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД log_odds=beta0 + beta1*K Получаем тоже самое 3) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К Получаем 8,521 для СД и 1,328 для К Почему ОШ увеличиваются? На сколько я понял в 1-ом и 2-ом случаях мы получаем crude odds ratio (сырые, несогласованные ОШ), а в 3-ем - adjusted odds ratio (стандартизированные, скорректированные, приведенные, согласованные ОШ). Не знаю как их перевести на русский язык правильно... Как я понимаю, если бы СД и К не были связаны между собой, то crude OR = adjusted OR? Эти ОШ более правильные, чем ОШ в 1 и 2 вариантах? Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Не могу согласиться... я думаю, что если не включать курение в модель, то я получу несогласованные ОШ для СД - грубую оценку. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Не могу с этим согласиться... Считаю по таблице сопряженности: СД+К- относительно СД-К- = 7,906 (ОШ для СД среди некурильщиков) СД+К+ относительно СД-К+ = 11,308 (ОШ для СД среди курильщиков) СД-К+ относительно СД-К- = 1,311 (ОШ для К среди недиабетиков) СД+К+ относительно СД+К- = 1,875 (ОШ для К среди диабетиков) СД+К+ относительно СД-К- = 14,824 СД+К+ относительно (СД-К- и СД-К+ и СД+К-) = 11,956 ОШ, полученные через регрессию похожи на какие-то средние... для СД 7,906 < 8,521 < 11,308 для К 1,311 < 1,328 < 1,875 Иными словами, я не очень понимаю exp(beta1)=8,521 - это ОШ, получаемое при сравнении каких групп? exp(beta1+beta2)=11,314 - тоже непонятно какие группы сравниваются... Если СД+К+ относительно СД-К-, то должно быть 14,824 Если мне нужно получить совместный эффект факторов, то нужно сравнивать СД+К+ с СД-К- или СД+К+ с совокупностью СД-К+, СД+К-, СД-К-? 4) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К + beta3*СД*К Получаем тоже что и в первом сообщении: СД+К- относительно СД-К- = 7,906 = exp(beta1) СД+К+ относительно СД-К+ = 11,308 = exp(beta1+beta3) СД-К+ относительно СД-К- = 1,311 = exp(beta2) СД+К+ относительно СД+К- = 1,875 = exp(beta2+beta3) exp(beta1+beta2+beta3)=14,835 - получается при сравнении каких групп? Похоже на СД+К+ относительно СД-К- с ОШ 14,824, но может это совпадение, просто цифры похожи... |
|
1.09.2010 - 09:47
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
По-моему у них не очень точные формулировки: А именно? С увеличением зарплаты шансы алкоголизма увеличиваются на 4.4% только для женщин, а не в среднем для всех. Нет, это независимое влияние фактора. На 4,4% увеличивается шанс алкоголизма при повышении зарплаты относительно тех у кого зарплата не увеличивается. Для мужчин прибавка к зарплате увеличивает шансы на 4,4%*(100%-3,8%)=0,4%=exp(0,0432-0,0390) Из их фразы можно понять, что прибавка к зарплате для мужчин увеличивает шансы на 4,4%-3,8%=0,6% Нет, уменьшает, ??.правда такая прибавка мужчине одновременно уменьшает это отношение на 3.8% (5.7%-1.9%)? , поскольку exp(b) для взаимодействия меньше единицы. 1,0-0,9618=0,0382. Это уменьшение и есть результат взаимодействия факторов. Предлагаемой вами формулы у них вообще нет: exp(0,0432+0,8801-0,0390)=увеличение в 2,4 раза Вы дойдите до конца любого примера. Ваш не сложный, два бинарный фактора, вы получите 4 значения вероятности в зависимости от сочетания факторов. Пример по вашей ссылке ucla c предоставлением файла данных, легко используемый в любом стат. gакетt, там расчет в Stata, но с SPSS совпадает полностью (контраст ? переменная пол, а переменная взаимодействия должна быть создана). Но там количественные переменные, а ваши все бинарные. Если вы представите пример своих данных, будет легче, вы поймете, что не группы сравниваются, а риск оценивается относительно альтернативы,т.е. относительно отсутствия фактора риска. |
|
1.09.2010 - 11:14
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Не могу с этим согласиться... Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta1*1 log_odds_dm0=beta0+beta1*0 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель. |
|
1.09.2010 - 13:28
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. У меня beta0 только в уравнении регрессии как и у вас... Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно Потому что так описывалось в самом последнем абзаце по моей ссылке: Цитата So we can say that the coefficient for math is the effect of math when female = 0. More explicitly, we can say that for male students, a one-unit increase in math score yields a change in log odds of 0.13. On the other hand, for the female students, a one-unit increase in math score yields a change in log odds of (.13 + .067) = 0.197. In terms of odds ratios, we can say that for male students, the odds ratio is exp(.13) = 1.14 for a one-unit increase in math score and the odds ratio for female students is exp(.197) = 1.22 for a one-unit increase in math score. При сравнении male,math+1 с male,math отношение шансов 1.14 При сравнении female,math+1 с female,math отношение шансов 1.22 Т.е. они сравнивают мальчиков с мальчиками, девочек с девочками. Если перенести этот пример по аналогии на мои данные то сравнивают СД+К+/СД+К- (диабетиков с диабетиками) и СД-К+/СД-К- (недиабетиков с недиабетиками). Т.е. на сколько я понял, СД-К- не всегда является группой сравнения. 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta1*1 log_odds_dm0=beta0+beta1*0 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель. Допустим мы посчитали ОШ так: log_odds=beta0 + beta_dm*1 log_odds=beta0 + beta_dm*0 log_OR=beta_dm = 7,229 и так (ОШ для СД при фиксированном факторе курения): log_odds=beta0 + beta_dm*1 + beta_sm*0 log_odds=beta0 + beta_dm*0 + beta_sm*0 log_OR=beta_dm = 8,521 log_odds=beta0 + beta_dm*1 + beta_sm*1 log_odds=beta0 + beta_dm*0 + beta_sm*1 log_OR=beta_dm = 8,521 Помогите, пожалуйста, разобраться, мне совсем не понятно: 1) Какие отношения шансов более правильные (лучше характеризуют влияние СД на инсульт)? 2) И какую таблицу сопряженности нужно построить, чтобы получить ОШ 8,521 Я подозреваю, что при расчете вторым способом мы исключаем связь СД и К и получаем более точное ОШ... Вот, нашел ссылку: http://www.childrensmercy.org/stats/model/logistic.asp Если я всё правильно понял, то мои подозрения правильные: 8,521 - согласованное ОШ для СД 7,229 - сырое ОШ для СД Сообщение отредактировал Ares_ekb - 1.09.2010 - 13:36 |
|
1.09.2010 - 14:00
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Нет, это независимое влияние фактора. На 4,4% увеличивается шанс алкоголизма при повышении зарплаты относительно тех у кого зарплата не увеличивается. Нет, если в логистической регрессии есть взаимодействие факторов (пол*зарплата), то просто ОШ для повышения зарплаты уже не посчитать. Только отдельно для мальчиков и отдельно для девочек. Прикладываю данные по инсультам, если кого-нибудь заинтересуют... у некоторых пациентов неизвестен фактор курения или СД, но PASW справляется...
Прикрепленные файлы
|
|
1.09.2010 - 16:26
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Помогите, пожалуйста, разобраться, мне совсем не понятно: 1) Какие отношения шансов более правильные (лучше характеризуют влияние СД на инсульт)? 2) И какую таблицу сопряженности нужно построить, чтобы получить ОШ 8,521 Я подозреваю, что при расчете вторым способом мы исключаем связь СД и К и получаем более точное ОШ... Вот, нашел ссылку: http://www.childrensmercy.org/stats/model/logistic.asp Если я всё правильно понял, то мои подозрения правильные: 8,521 - согласованное ОШ для СД 7,229 - сырое ОШ для СД "Правильные" или "неправильные" это не то понятие. Вас интересует влияние СД на инсульт. Если курение обладает независимым влиянием на инсульт, и есть взаимодействие СД и курения, то надо использовать модель, которая включает СД, курение и взаимодействие. Тогда описание будет включать указание того факта, что при наличии СД курение усиливает риск в большей степени, чем у курильщиков без СД (или что у курильщиков СД усиливает риск больше, чем у не курящих - модель одна и та же). Сырыми (crude) отношениями шансов называются те, в которых не выполняется коррекция по другим факторам риска. Соответственно, первое из приведенных Вами ОШ является сырым. Сырое отношение шансов, это то, которое получается в модели без включения курения. Откорректированное (adjusted) - после включения курения в модель, наличие или отсутствие взаимодействия только относятся к адекватности модели, а не к корректировке (поскольку сразу после включения курения в модель проводится корректировка шансов). Допустим мы посчитали ОШ так: log_odds=beta0 + beta_dm*1 log_odds=beta0 + beta_dm*0 log_OR=beta_dm = 7,229 и так (ОШ для СД при фиксированном факторе курения): log_odds=beta0 + beta_dm*1 + beta_sm*0 log_odds=beta0 + beta_dm*0 + beta_sm*0 log_OR=beta_dm = 8,521 log_odds=beta0 + beta_dm*1 + beta_sm*1 log_odds=beta0 + beta_dm*0 + beta_sm*1 log_OR=beta_dm = 8,521 Второе отношение шансов - это откорректированное на действие курения ОШ для связи СД и инсульта. Это модельная величина, посему напрямую из таблицы сопряженности ее не получить (фактически усреднение двух ОШ для таблицы СД*инсульт для курящих и СД*инсульт для некурящих). Тем, что в примере выше Вы не включили взаимодействие в расчет ОШ, Вы посчитали, что эти два ОШ (для курящих и некурящих) примерно равны и их можно усреднить. Наличие взаимодействия говорит о том, что эти два ОШ отличаются друг от друга. |
|
1.09.2010 - 19:38
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Нет, если в логистической регрессии есть взаимодействие факторов (пол*зарплата), то просто ОШ для повышения зарплаты уже не посчитать. Только отдельно для мальчиков и отдельно для девочек. Не только отдельно для мальчиков или девочек, а также отдельно для всего остального. Экспоненту нужной суммы коэффициентов, в зависимости от того какие факторы имеются (1), а какие отсутствуют (0) можно посчитать. В примере ваших данных 4 варианта сочетания факторов риска, и соответственно столько же значений exp: 1, 1 - 6,0 1, 0 - 3,2 0, 1- 0,53 0, 0 - 0,41 Это все ваши отдельности. Но, если без экспонент и шансов, перейти к вероятностям, то в моделе с двумя факторами с взаимодействием: 0,86 вероятность инсульта, если имеются оба фактора, 0,76 - есть только СД, 0,35 - только курение, 0,29 при отсутствии обоих факторов. В модели с двумя факторами, но без взаимодействия изменится только первая вероятность 0,81, а остальные будут те же. Я никогда не использовала логистическую регрессию с взаимодействиями, могу ошибаться. В этих данных ни само курение, ни взаимодействие значимо не влияют на инсульт. Возможно данные требуют согласования с возрастом, стажем диабета, его типом или длительностью курения. Если планируется изучить много факторов, то они скорее всего там будут. Можно использовать процедуру пошагового включения/выключения переменных и в модель войдут наиболее значимые факторы и без взаимодействия. Сообщение отредактировал DrgLena - 1.09.2010 - 20:22 |
|
1.09.2010 - 20:08
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 |
Спасибо! Всё прояснилось!
На сколько я понимаю, схема исследования должна быть такой. 1) Сначала считаем сырые ОШ, отсеиваем однозначно не значимые факторы. 2) С помощью логистической регрессии (без взаимодействий) считаем откорректированные ОШ. Для определения "силы" факторов этого вполне достаточно. Пусть даже между некоторыми факторами есть сильное взаимодействие, всё-равно мы получим усредненное ОШ, позволяющее судить о "силе" фактора. 3) Если нужно оценить силу комбинации факторов, тогда включаем их взаимодействие в модель и описываем полученные коэффициенты как вы сказали: при наличии СД курение увеличивает шансы возникновения инсульта на exp(beta3)=exp(0,358)=43% больше по сравнению с курильщиками без СД либо у курильщиков СД увеличивает шансы возникновения инсульта на 43% больше по сравнению с не курящими 4) Наконец, можно выбрать наиболее частые комбинации факторов (неважно взаимодействующих или нет) и рассчитать для них риск возникновения инсульта: Подставляем значения факторов в уравнение регрессии, получаем шансы возникновения инсульта, затем считаем риск по формуле Risk = Odds / (1 + Odds) |
|