![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Здравствуйте!
Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Здравствуйте! Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? Совсем кратко 1) Интерпретация не совсем правильная. Правильная интерпретация таблицы (считаем, что СД и курение закодированы 1/0, если цифры кодов другие - результат будет тоже иной) а) СД повышает риск инсульта в exp(2,068)=7,909 раз б) Курение повышает риск инсульта в exp(0,271)=1,311 раз в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз 2) Доверительные интервалы для случаев (а) и (в) берете напрямую из таблицы, для случая (в) простого решения нет, надо использовать контрасты 3) Стандартное представление данных - коэффициент регрессии, ошибка коэффициента и тест его значимости; ОШ и доверительные интервалы - иная интерпретация данных, может быть представлена в таблице дополнительно 4) см. 1 5) Если у Вас более 1000 наблюдений можете попробовать взять в качестве полной модели модель со всеми тройными взаимодействиями и потом ее постепенно упрощать. Если взаимодействие достоверно, то остаются и его компоненты в модели вне зависимости от их достоверности. Если наблюдений меньше - лучше выбрать комбинации исходя из знания предметной области
Причина редактирования: Спасибо, DrgLena, исправил
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то...
1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Все переменные PASW перекодирует в 1/0... Другая кодировка ведь будет неправильной? Полученные ОШ не будут совпадать с ОШ рассчитанными по таблице сопряженности... 2) А можно какую-нибудь ссылку на контрасты? Не слышал о них... 3) Спасибо 4) А можно ссылку, где это доступно объясняется? Завтра попробую ввести новую переменную равную 1, если есть СД и К, иначе - 0. Данных нет под рукой... 5) Наблюдений примерно 250 без инсульта и 150 с инсультом. Ок, попробую... |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то... 1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok+beta3*DM*smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Если включить взаимодействия ситуация изменится так (курение в сочетании с диабетом хуже, чем просто эффекты курения и диабета): СД+К+ = beta1+beta2+beta3 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Про контрасты посмотрите общую информацию здесь на форуме и help в используемой программе. Для случая двух переменных проблем быть не должно, если захотите анализировать больше, разбираться придется дольше. В SAS все это выглядело бы так (синтаксис SPSS должен быть похожим): proc logistic; freq count; class dm (ref='0') kur (ref='0'); model stroke=dm kur kur*dm; contrast 'DM+Kur+' dm 1 -1 kur 1 -1 kur*dm 1 -1/e estimate=exp; run; |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Правильно ли я всё понимаю?..
1) Считаем ОШ инсульта по таблицам сопряженности отдельно для СД и К. Получаем, что СД увеличивает шансы в 7,229 раз и К - в 1,207 раз 2) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД log_odds=beta0 + beta1*K Получаем тоже самое 3) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К Получаем 8,521 для СД и 1,328 для К Почему ОШ увеличиваются? На сколько я понял в 1-ом и 2-ом случаях мы получаем crude odds ratio (сырые, несогласованные ОШ), а в 3-ем - adjusted odds ratio (стандартизированные, скорректированные, приведенные, согласованные ОШ). Не знаю как их перевести на русский язык правильно... Как я понимаю, если бы СД и К не были связаны между собой, то crude OR = adjusted OR? Эти ОШ более правильные, чем ОШ в 1 и 2 вариантах? Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Не могу согласиться... я думаю, что если не включать курение в модель, то я получу несогласованные ОШ для СД - грубую оценку. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Не могу с этим согласиться... Считаю по таблице сопряженности: СД+К- относительно СД-К- = 7,906 (ОШ для СД среди некурильщиков) СД+К+ относительно СД-К+ = 11,308 (ОШ для СД среди курильщиков) СД-К+ относительно СД-К- = 1,311 (ОШ для К среди недиабетиков) СД+К+ относительно СД+К- = 1,875 (ОШ для К среди диабетиков) СД+К+ относительно СД-К- = 14,824 СД+К+ относительно (СД-К- и СД-К+ и СД+К-) = 11,956 ОШ, полученные через регрессию похожи на какие-то средние... для СД 7,906 < 8,521 < 11,308 для К 1,311 < 1,328 < 1,875 Иными словами, я не очень понимаю exp(beta1)=8,521 - это ОШ, получаемое при сравнении каких групп? exp(beta1+beta2)=11,314 - тоже непонятно какие группы сравниваются... Если СД+К+ относительно СД-К-, то должно быть 14,824 Если мне нужно получить совместный эффект факторов, то нужно сравнивать СД+К+ с СД-К- или СД+К+ с совокупностью СД-К+, СД+К-, СД-К-? 4) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К + beta3*СД*К Получаем тоже что и в первом сообщении: СД+К- относительно СД-К- = 7,906 = exp(beta1) СД+К+ относительно СД-К+ = 11,308 = exp(beta1+beta3) СД-К+ относительно СД-К- = 1,311 = exp(beta2) СД+К+ относительно СД+К- = 1,875 = exp(beta2+beta3) exp(beta1+beta2+beta3)=14,835 - получается при сравнении каких групп? Похоже на СД+К+ относительно СД-К- с ОШ 14,824, но может это совпадение, просто цифры похожи... |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Не могу с этим согласиться... Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta1*1 log_odds_dm0=beta0+beta1*0 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель. |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0. У меня beta0 только в уравнении регрессии как и у вас... Итак, повторяю развернуто: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. 2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно Потому что так описывалось в самом последнем абзаце по моей ссылке: Цитата So we can say that the coefficient for math is the effect of math when female = 0. More explicitly, we can say that for male students, a one-unit increase in math score yields a change in log odds of 0.13. On the other hand, for the female students, a one-unit increase in math score yields a change in log odds of (.13 + .067) = 0.197. In terms of odds ratios, we can say that for male students, the odds ratio is exp(.13) = 1.14 for a one-unit increase in math score and the odds ratio for female students is exp(.197) = 1.22 for a one-unit increase in math score. При сравнении male,math+1 с male,math отношение шансов 1.14 При сравнении female,math+1 с female,math отношение шансов 1.22 Т.е. они сравнивают мальчиков с мальчиками, девочек с девочками. Если перенести этот пример по аналогии на мои данные то сравнивают СД+К+/СД+К- (диабетиков с диабетиками) и СД-К+/СД-К- (недиабетиков с недиабетиками). Т.е. на сколько я понял, СД-К- не всегда является группой сравнения. 3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов: ОШ СД+/СД- 1/0 log_odds_dm1=beta0+beta1*1 log_odds_dm0=beta0+beta1*0 log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1 4) Соответственно, если надо СД+К+/СД-К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0 log_OR=beta_dm+beta_sm+beta_dmsm 5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К- log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1 log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0 log_OR=beta_sm+beta_dmsm естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом. Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель. Допустим мы посчитали ОШ так: log_odds=beta0 + beta_dm*1 log_odds=beta0 + beta_dm*0 log_OR=beta_dm = 7,229 и так (ОШ для СД при фиксированном факторе курения): log_odds=beta0 + beta_dm*1 + beta_sm*0 log_odds=beta0 + beta_dm*0 + beta_sm*0 log_OR=beta_dm = 8,521 log_odds=beta0 + beta_dm*1 + beta_sm*1 log_odds=beta0 + beta_dm*0 + beta_sm*1 log_OR=beta_dm = 8,521 Помогите, пожалуйста, разобраться, мне совсем не понятно: 1) Какие отношения шансов более правильные (лучше характеризуют влияние СД на инсульт)? 2) И какую таблицу сопряженности нужно построить, чтобы получить ОШ 8,521 Я подозреваю, что при расчете вторым способом мы исключаем связь СД и К и получаем более точное ОШ... Вот, нашел ссылку: http://www.childrensmercy.org/stats/model/logistic.asp Если я всё правильно понял, то мои подозрения правильные: 8,521 - согласованное ОШ для СД 7,229 - сырое ОШ для СД Сообщение отредактировал Ares_ekb - 1.09.2010 - 13:36 |
|
![]() |
![]() |
![]() ![]() |