Отношение шансов для сочетания факторов

Отношение шансов для сочетания факторов

Ares_ekb Просмотр профиля	31.08.2010 - 13:04 Сообщение #1
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710	Здравствуйте! Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СДК и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СДК 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ?

Ответов

плав Просмотр профиля	31.08.2010 - 16:43 Сообщение #2
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Ares_ekb @ 31.08.2010 - 14:04) Здравствуйте! Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СДК и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СДК 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? Совсем кратко 1) Интерпретация не совсем правильная. Правильная интерпретация таблицы (считаем, что СД и курение закодированы 1/0, если цифры кодов другие - результат будет тоже иной) а) СД повышает риск инсульта в exp(2,068)=7,909 раз б) Курение повышает риск инсульта в exp(0,271)=1,311 раз в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз 2) Доверительные интервалы для случаев (а) и (в) берете напрямую из таблицы, для случая (в) простого решения нет, надо использовать контрасты 3) Стандартное представление данных - коэффициент регрессии, ошибка коэффициента и тест его значимости; ОШ и доверительные интервалы - иная интерпретация данных, может быть представлена в таблице дополнительно 4) см. 1 5) Если у Вас более 1000 наблюдений можете попробовать взять в качестве полной модели модель со всеми тройными взаимодействиями и потом ее постепенно упрощать. Если взаимодействие достоверно, то остаются и его компоненты в модели вне зависимости от их достоверности. Если наблюдений меньше - лучше выбрать комбинации исходя из знания предметной области Причина редактирования: Спасибо, DrgLena, исправил

Ares_ekb Просмотр профиля	31.08.2010 - 19:55 Сообщение #3
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710	Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то... 1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СДК, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СДК, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Все переменные PASW перекодирует в 1/0... Другая кодировка ведь будет неправильной? Полученные ОШ не будут совпадать с ОШ рассчитанными по таблице сопряженности... 2) А можно какую-нибудь ссылку на контрасты? Не слышал о них... 3) Спасибо 4) А можно ссылку, где это доступно объясняется? Завтра попробую ввести новую переменную равную 1, если есть СД и К, иначе - 0. Данных нет под рукой... 5) Наблюдений примерно 250 без инсульта и 150 с инсультом. Ок, попробую...

плав Просмотр профиля	31.08.2010 - 22:55 Сообщение #4
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Ares_ekb @ 31.08.2010 - 20:55) Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то... 1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СДК, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СДК, то получаем ОШ для всей выборки. Если добавляем СДК, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1DM+beta2smok+beta3DMsmok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Если включить взаимодействия ситуация изменится так (курение в сочетании с диабетом хуже, чем просто эффекты курения и диабета): СД+К+ = beta1+beta2+beta3 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Про контрасты посмотрите общую информацию здесь на форуме и help в используемой программе. Для случая двух переменных проблем быть не должно, если захотите анализировать больше, разбираться придется дольше. В SAS все это выглядело бы так (синтаксис SPSS должен быть похожим): proc logistic; freq count; class dm (ref='0') kur (ref='0'); model stroke=dm kur kurdm; contrast 'DM+Kur+' dm 1 -1 kur 1 -1 kur*dm 1 -1/e estimate=exp; run;

Ares_ekb Просмотр профиля	1.09.2010 - 07:51 Сообщение #5
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710	Правильно ли я всё понимаю?.. 1) Считаем ОШ инсульта по таблицам сопряженности отдельно для СД и К. Получаем, что СД увеличивает шансы в 7,229 раз и К - в 1,207 раз 2) Считаем через логистическую регрессию log_odds=beta0 + beta1СД log_odds=beta0 + beta1K Получаем тоже самое 3) Считаем через логистическую регрессию log_odds=beta0 + beta1СД + beta2К Получаем 8,521 для СД и 1,328 для К Почему ОШ увеличиваются? На сколько я понял в 1-ом и 2-ом случаях мы получаем crude odds ratio (сырые, несогласованные ОШ), а в 3-ем - adjusted odds ratio (стандартизированные, скорректированные, приведенные, согласованные ОШ). Не знаю как их перевести на русский язык правильно... Как я понимаю, если бы СД и К не были связаны между собой, то crude OR = adjusted OR? Эти ОШ более правильные, чем ОШ в 1 и 2 вариантах? Цитата(плав @ 31.08.2010 - 22:55) Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Не могу согласиться... я думаю, что если не включать курение в модель, то я получу несогласованные ОШ для СД - грубую оценку. Цитата(плав @ 31.08.2010 - 22:55) Не совсем так. Формула регрессионного уравнения получается log_odds=beta1DM+beta2smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Не могу с этим согласиться... Считаю по таблице сопряженности: СД+К- относительно СД-К- = 7,906 (ОШ для СД среди некурильщиков) СД+К+ относительно СД-К+ = 11,308 (ОШ для СД среди курильщиков) СД-К+ относительно СД-К- = 1,311 (ОШ для К среди недиабетиков) СД+К+ относительно СД+К- = 1,875 (ОШ для К среди диабетиков) СД+К+ относительно СД-К- = 14,824 СД+К+ относительно (СД-К- и СД-К+ и СД+К-) = 11,956 ОШ, полученные через регрессию похожи на какие-то средние... для СД 7,906 < 8,521 < 11,308 для К 1,311 < 1,328 < 1,875 Иными словами, я не очень понимаю exp(beta1)=8,521 - это ОШ, получаемое при сравнении каких групп? exp(beta1+beta2)=11,314 - тоже непонятно какие группы сравниваются... Если СД+К+ относительно СД-К-, то должно быть 14,824 Если мне нужно получить совместный эффект факторов, то нужно сравнивать СД+К+ с СД-К- или СД+К+ с совокупностью СД-К+, СД+К-, СД-К-? 4) Считаем через логистическую регрессию log_odds=beta0 + beta1СД + beta2К + beta3СДК Получаем тоже что и в первом сообщении: СД+К- относительно СД-К- = 7,906 = exp(beta1) СД+К+ относительно СД-К+ = 11,308 = exp(beta1+beta3) СД-К+ относительно СД-К- = 1,311 = exp(beta2) СД+К+ относительно СД+К- = 1,875 = exp(beta2+beta3) exp(beta1+beta2+beta3)=14,835 - получается при сравнении каких групп? Похоже на СД+К+ относительно СД-К- с ОШ 14,824, но может это совпадение, просто цифры похожи...

плав Просмотр профиля	1.09.2010 - 11:14 Сообщение #6
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Ares_ekb @ 1.09.2010 - 08:51) Не могу с этим согласиться... Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta11 log_odds_dm0=beta0+beta10 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta11-beta0-beta10=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm1+beta_sm1+beta_dmsm11 log_odds=beta0+beta_dm0+beta_sm0+beta_dmsm00 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm1+beta_sm1+beta_dmsm11 log_odds=beta0+beta_dm1+beta_sm0+beta_dmsm10 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель.

Ares_ekb Просмотр профиля	1.09.2010 - 13:28 Сообщение #7
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710	Цитата(плав @ 1.09.2010 - 14:14) Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. У меня beta0 только в уравнении регрессии как и у вас... Цитата(плав @ 1.09.2010 - 14:14) Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно Потому что так описывалось в самом последнем абзаце по моей ссылке: Цитата So we can say that the coefficient for math is the effect of math when female = 0. More explicitly, we can say that for male students, a one-unit increase in math score yields a change in log odds of 0.13. On the other hand, for the female students, a one-unit increase in math score yields a change in log odds of (.13 + .067) = 0.197. In terms of odds ratios, we can say that for male students, the odds ratio is exp(.13) = 1.14 for a one-unit increase in math score and the odds ratio for female students is exp(.197) = 1.22 for a one-unit increase in math score. При сравнении male,math+1 с male,math отношение шансов 1.14 При сравнении female,math+1 с female,math отношение шансов 1.22 Т.е. они сравнивают мальчиков с мальчиками, девочек с девочками. Если перенести этот пример по аналогии на мои данные то сравнивают СД+К+/СД+К- (диабетиков с диабетиками) и СД-К+/СД-К- (недиабетиков с недиабетиками). Т.е. на сколько я понял, СД-К- не всегда является группой сравнения. Цитата(плав @ 1.09.2010 - 14:14) 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta11 log_odds_dm0=beta0+beta10 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta11-beta0-beta10=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm1+beta_sm1+beta_dmsm11 log_odds=beta0+beta_dm0+beta_sm0+beta_dmsm00 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm1+beta_sm1+beta_dmsm11 log_odds=beta0+beta_dm1+beta_sm0+beta_dmsm10 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель. Допустим мы посчитали ОШ так: log_odds=beta0 + beta_dm1 log_odds=beta0 + beta_dm0 log_OR=beta_dm = 7,229 и так (ОШ для СД при фиксированном факторе курения): log_odds=beta0 + beta_dm1 + beta_sm0 log_odds=beta0 + beta_dm0 + beta_sm0 log_OR=beta_dm = 8,521 log_odds=beta0 + beta_dm1 + beta_sm1 log_odds=beta0 + beta_dm0 + beta_sm1 log_OR=beta_dm = 8,521 Помогите, пожалуйста, разобраться, мне совсем не понятно: 1) Какие отношения шансов более правильные (лучше характеризуют влияние СД на инсульт)? 2) И какую таблицу сопряженности нужно построить, чтобы получить ОШ 8,521 Я подозреваю, что при расчете вторым способом мы исключаем связь СД и К и получаем более точное ОШ... Вот, нашел ссылку: http://www.childrensmercy.org/stats/model/logistic.asp Если я всё правильно понял, то мои подозрения правильные: 8,521 - согласованное ОШ для СД 7,229 - сырое ОШ для СД Сообщение отредактировал Ares_ekb - 1.09.2010 - 13:36

Сообщений в этой теме

Ares_ekb Отношение шансов для сочетания факторов 31.08.2010 - 13:04

плав Цитата(Ares_ekb @ 31.08.2010 - 14:04... 31.08.2010 - 16:43

Ares_ekb Только сейчас заметил, что везде пишу риск, хотя и... 31.08.2010 - 19:55

плав Цитата(Ares_ekb @ 31.08.2010 - 20:55... 31.08.2010 - 22:55

Ares_ekb Правильно ли я всё понимаю?.. 1) Считаем ОШ инсул... 1.09.2010 - 07:51

плав Цитата(Ares_ekb @ 1.09.2010 - 08:51)... 1.09.2010 - 11:14

Ares_ekb Цитата(плав @ 1.09.2010 - 14:14) Для... 1.09.2010 - 13:28

DrgLena в) СД+Курение повышают риск в exp(2,068+0,271+0,35... 31.08.2010 - 17:08

DrgLena http://masters.donntu.edu.ua/2005/fvti/sch...brary... 31.08.2010 - 20:28

Ares_ekb Цитата(DrgLena @ 31.08.2010 - 20:28)... 1.09.2010 - 06:02

DrgLena Цитата(Ares_ekb @ 1.09.2010 - 06:02)... 1.09.2010 - 09:47

Ares_ekb Цитата(DrgLena @ 1.09.2010 - 12:47) ... 1.09.2010 - 14:00

плав Цитата(Ares_ekb @ 1.09.2010 - 14:28)... 1.09.2010 - 16:26

Ares_ekb Спасибо! Всё прояснилось! На сколько я по... 1.09.2010 - 20:08

DrgLena Цитата(Ares_ekb @ 1.09.2010 - 14:00)... 1.09.2010 - 19:38

Ares_ekb Ещё наткнулся на ОШ второго порядка и частные ОШ. ... 2.09.2010 - 05:55

DrgLena Вы наткнулись на хорошую ссылку, идите дальше: htt... 2.09.2010 - 11:23

« Предыдущая тема · Медицинская статистика · Следующая тема »