Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Отношение шансов для сочетания факторов
Ares_ekb
сообщение 31.08.2010 - 13:04
Сообщение #1





Группа: Пользователи
Сообщений: 9
Регистрация: 31.08.2010
Пользователь №: 22710



Здравствуйте!

Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К).

С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328).

Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты:

CODE
СД 2,068 (значимость - 0,000)
К 0,271 (значимость - 0,226)
СД*К 0,358 (значимость - 0,769)
Конст. -0,904 (значимость - 0,000)


Интерпретирую их так:
У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз
У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз
У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз
У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз

Вопрос 1: правильно ли всё это?

Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю?

Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость.

Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ?
8,521 * 1,328 = 11,316
Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал?

Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
плав
сообщение 31.08.2010 - 16:43
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Ares_ekb @ 31.08.2010 - 14:04) *
Здравствуйте!

Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К).

С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328).

Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты:

CODE
СД 2,068 (значимость - 0,000)
К 0,271 (значимость - 0,226)
СД*К 0,358 (значимость - 0,769)
Конст. -0,904 (значимость - 0,000)


Интерпретирую их так:
У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз
У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз
У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз
У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз

Вопрос 1: правильно ли всё это?

Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю?

Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость.

Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ?
8,521 * 1,328 = 11,316
Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал?

Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ?

Совсем кратко
1) Интерпретация не совсем правильная.
Правильная интерпретация таблицы (считаем, что СД и курение закодированы 1/0, если цифры кодов другие - результат будет тоже иной)
а) СД повышает риск инсульта в exp(2,068)=7,909 раз
б) Курение повышает риск инсульта в exp(0,271)=1,311 раз
в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз

2) Доверительные интервалы для случаев (а) и (в) берете напрямую из таблицы, для случая (в) простого решения нет, надо использовать контрасты
3) Стандартное представление данных - коэффициент регрессии, ошибка коэффициента и тест его значимости; ОШ и доверительные интервалы - иная интерпретация данных, может быть представлена в таблице дополнительно
4) см. 1
5) Если у Вас более 1000 наблюдений можете попробовать взять в качестве полной модели модель со всеми тройными взаимодействиями и потом ее постепенно упрощать. Если взаимодействие достоверно, то остаются и его компоненты в модели вне зависимости от их достоверности. Если наблюдений меньше - лучше выбрать комбинации исходя из знания предметной области
Причина редактирования: Спасибо, DrgLena, исправил
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ares_ekb
сообщение 31.08.2010 - 19:55
Сообщение #3





Группа: Пользователи
Сообщений: 9
Регистрация: 31.08.2010
Пользователь №: 22710



Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то...

1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить.

Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков.

Все переменные PASW перекодирует в 1/0... Другая кодировка ведь будет неправильной? Полученные ОШ не будут совпадать с ОШ рассчитанными по таблице сопряженности...

2) А можно какую-нибудь ссылку на контрасты? Не слышал о них...

3) Спасибо

4) А можно ссылку, где это доступно объясняется? Завтра попробую ввести новую переменную равную 1, если есть СД и К, иначе - 0. Данных нет под рукой...

5) Наблюдений примерно 250 без инсульта и 150 с инсультом. Ок, попробую...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 31.08.2010 - 22:55
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Ares_ekb @ 31.08.2010 - 20:55) *
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то...

1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить.

Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков.

Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok+beta3*DM*smok
Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия:
СД+К+ = beta1+beta2
СД+К- = beta1
СД-К+ = beta2
СД-К- - группа сравнения.
Если включить взаимодействия ситуация изменится так (курение в сочетании с диабетом хуже, чем просто эффекты курения и диабета):
СД+К+ = beta1+beta2+beta3
СД+К- = beta1
СД-К+ = beta2
СД-К- - группа сравнения.
Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке.
Про контрасты посмотрите общую информацию здесь на форуме и help в используемой программе. Для случая двух переменных проблем быть не должно, если захотите анализировать больше, разбираться придется дольше. В SAS все это выглядело бы так (синтаксис SPSS должен быть похожим):
proc logistic;
freq count;
class dm (ref='0') kur (ref='0');
model stroke=dm kur kur*dm;
contrast 'DM+Kur+' dm 1 -1 kur 1 -1 kur*dm 1 -1/e estimate=exp;
run;
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ares_ekb
сообщение 1.09.2010 - 07:51
Сообщение #5





Группа: Пользователи
Сообщений: 9
Регистрация: 31.08.2010
Пользователь №: 22710



Правильно ли я всё понимаю?..

1) Считаем ОШ инсульта по таблицам сопряженности отдельно для СД и К.
Получаем, что СД увеличивает шансы в 7,229 раз и К - в 1,207 раз

2) Считаем через логистическую регрессию
log_odds=beta0 + beta1*СД
log_odds=beta0 + beta1*K
Получаем тоже самое

3) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К
Получаем 8,521 для СД и 1,328 для К
Почему ОШ увеличиваются?

На сколько я понял в 1-ом и 2-ом случаях мы получаем crude odds ratio (сырые, несогласованные ОШ), а в 3-ем - adjusted odds ratio (стандартизированные, скорректированные, приведенные, согласованные ОШ). Не знаю как их перевести на русский язык правильно...

Как я понимаю, если бы СД и К не были связаны между собой, то crude OR = adjusted OR?

Эти ОШ более правильные, чем ОШ в 1 и 2 вариантах?

Цитата(плав @ 31.08.2010 - 22:55) *
Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке.

Не могу согласиться... я думаю, что если не включать курение в модель, то я получу несогласованные ОШ для СД - грубую оценку.

Цитата(плав @ 31.08.2010 - 22:55) *
Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok
Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия:
СД+К+ = beta1+beta2
СД+К- = beta1
СД-К+ = beta2
СД-К- - группа сравнения.

Не могу с этим согласиться... Считаю по таблице сопряженности:
СД+К- относительно СД-К- = 7,906 (ОШ для СД среди некурильщиков)
СД+К+ относительно СД-К+ = 11,308 (ОШ для СД среди курильщиков)
СД-К+ относительно СД-К- = 1,311 (ОШ для К среди недиабетиков)
СД+К+ относительно СД+К- = 1,875 (ОШ для К среди диабетиков)
СД+К+ относительно СД-К- = 14,824
СД+К+ относительно (СД-К- и СД-К+ и СД+К-) = 11,956

ОШ, полученные через регрессию похожи на какие-то средние...
для СД 7,906 < 8,521 < 11,308
для К 1,311 < 1,328 < 1,875

Иными словами, я не очень понимаю exp(beta1)=8,521 - это ОШ, получаемое при сравнении каких групп?
exp(beta1+beta2)=11,314 - тоже непонятно какие группы сравниваются... Если СД+К+ относительно СД-К-, то должно быть 14,824

Если мне нужно получить совместный эффект факторов, то нужно сравнивать СД+К+ с СД-К- или СД+К+ с совокупностью СД-К+, СД+К-, СД-К-?

4) Считаем через логистическую регрессию log_odds=beta0 + beta1*СД + beta2*К + beta3*СД*К
Получаем тоже что и в первом сообщении:
СД+К- относительно СД-К- = 7,906 = exp(beta1)
СД+К+ относительно СД-К+ = 11,308 = exp(beta1+beta3)
СД-К+ относительно СД-К- = 1,311 = exp(beta2)
СД+К+ относительно СД+К- = 1,875 = exp(beta2+beta3)

exp(beta1+beta2+beta3)=14,835 - получается при сравнении каких групп? Похоже на СД+К+ относительно СД-К- с ОШ 14,824, но может это совпадение, просто цифры похожи...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 1.09.2010 - 11:14
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Ares_ekb @ 1.09.2010 - 08:51) *
Не могу с этим согласиться...

Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0.
Итак, повторяю развернуто:
1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная.
2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно
3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов:
ОШ СД+/СД- 1/0
log_odds_dm1=beta0+beta1*1
log_odds_dm0=beta0+beta1*0
log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1
4) Соответственно, если надо СД+К+/СД-К-
log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1
log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0
log_OR=beta_dm+beta_sm+beta_dmsm
5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К-
log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1
log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0
log_OR=beta_sm+beta_dmsm

естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом.

Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Ares_ekb
сообщение 1.09.2010 - 13:28
Сообщение #7





Группа: Пользователи
Сообщений: 9
Регистрация: 31.08.2010
Пользователь №: 22710



Цитата(плав @ 1.09.2010 - 14:14) *
Для того, чтобы соглашаться или не соглашаться, надо понимать методику, с которой Вы работаете (и внимательно читать ссылки, которые сами же приводите). Тогда Вы не будете непонятно зачем тянуть в определение ОШ beta0.

У меня beta0 только в уравнении регрессии как и у вас...

Цитата(плав @ 1.09.2010 - 14:14) *
Итак, повторяю развернуто:
1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная.
2) Если кодировка СД 1/0 и К 1/0, то группа СД-К- является ВСЕГДА группой сравнения. Почему Вы там сравниваете с другими группами непонятно

Потому что так описывалось в самом последнем абзаце по моей ссылке:
Цитата
So we can say that the coefficient for math is the effect of math when female = 0. More explicitly, we can say that for male students, a one-unit increase in math score yields a change in log odds of 0.13. On the other hand, for the female students, a one-unit increase in math score yields a change in log odds of (.13 + .067) = 0.197. In terms of odds ratios, we can say that for male students, the odds ratio is exp(.13) = 1.14 for a one-unit increase in math score and the odds ratio for female students is exp(.197) = 1.22 for a one-unit increase in math score.

При сравнении male,math+1 с male,math отношение шансов 1.14
При сравнении female,math+1 с female,math отношение шансов 1.22

Т.е. они сравнивают мальчиков с мальчиками, девочек с девочками.
Если перенести этот пример по аналогии на мои данные то сравнивают СД+К+/СД+К- (диабетиков с диабетиками) и СД-К+/СД-К- (недиабетиков с недиабетиками).
Т.е. на сколько я понял, СД-К- не всегда является группой сравнения.

Цитата(плав @ 1.09.2010 - 14:14) *
3) Постоянный член уравнения в определении ОШ не используется, поскольку моделируются шансы (логарифмы), соответственно отношение шансов равно разности логарифмов шансов:
ОШ СД+/СД- 1/0
log_odds_dm1=beta0+beta1*1
log_odds_dm0=beta0+beta1*0
log_OR=log_odds_dm1 - log_odds_dm0=beta0+beta1*1-beta0-beta1*0=beta1
4) Соответственно, если надо СД+К+/СД-К-
log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1
log_odds=beta0+beta_dm*0+beta_sm*0+beta_dmsm*0*0
log_OR=beta_dm+beta_sm+beta_dmsm
5) Аналогичным образом можно рассчитывать для любых других сравнений, например для СД+К+/СД+К-
log_odds=beta0+beta_dm*1+beta_sm*1+beta_dmsm*1*1
log_odds=beta0+beta_dm*1+beta_sm*0+beta_dmsm*1*0
log_OR=beta_sm+beta_dmsm

естественно, что для того, чтобы получить аналогичный результат по таблицам сопряженности надо делить таблицы таким же образом.

Очевидно, что на основании этих уравнений оценить ОШ для "чистого" СД (т.е. смеси К+ и К-) невозможно и, если необходимо описать эффект СД без коррекции на курение надо делать анализ без включения курения в модель.


Допустим мы посчитали ОШ так:
log_odds=beta0 + beta_dm*1
log_odds=beta0 + beta_dm*0
log_OR=beta_dm = 7,229

и так (ОШ для СД при фиксированном факторе курения):
log_odds=beta0 + beta_dm*1 + beta_sm*0
log_odds=beta0 + beta_dm*0 + beta_sm*0
log_OR=beta_dm = 8,521

log_odds=beta0 + beta_dm*1 + beta_sm*1
log_odds=beta0 + beta_dm*0 + beta_sm*1
log_OR=beta_dm = 8,521

Помогите, пожалуйста, разобраться, мне совсем не понятно:
1) Какие отношения шансов более правильные (лучше характеризуют влияние СД на инсульт)?
2) И какую таблицу сопряженности нужно построить, чтобы получить ОШ 8,521


Я подозреваю, что при расчете вторым способом мы исключаем связь СД и К и получаем более точное ОШ...

Вот, нашел ссылку: http://www.childrensmercy.org/stats/model/logistic.asp Если я всё правильно понял, то мои подозрения правильные:
8,521 - согласованное ОШ для СД
7,229 - сырое ОШ для СД

Сообщение отредактировал Ares_ekb - 1.09.2010 - 13:36
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Ares_ekb   Отношение шансов для сочетания факторов   31.08.2010 - 13:04
- - плав   Цитата(Ares_ekb @ 31.08.2010 - 14:04...   31.08.2010 - 16:43
|- - Ares_ekb   Только сейчас заметил, что везде пишу риск, хотя и...   31.08.2010 - 19:55
|- - плав   Цитата(Ares_ekb @ 31.08.2010 - 20:55...   31.08.2010 - 22:55
|- - Ares_ekb   Правильно ли я всё понимаю?.. 1) Считаем ОШ инсул...   1.09.2010 - 07:51
|- - плав   Цитата(Ares_ekb @ 1.09.2010 - 08:51)...   1.09.2010 - 11:14
|- - Ares_ekb   Цитата(плав @ 1.09.2010 - 14:14) Для...   1.09.2010 - 13:28
- - DrgLena   в) СД+Курение повышают риск в exp(2,068+0,271+0,35...   31.08.2010 - 17:08
- - DrgLena   http://masters.donntu.edu.ua/2005/fvti/sch...brary...   31.08.2010 - 20:28
|- - Ares_ekb   Цитата(DrgLena @ 31.08.2010 - 20:28)...   1.09.2010 - 06:02
- - DrgLena   Цитата(Ares_ekb @ 1.09.2010 - 06:02)...   1.09.2010 - 09:47
|- - Ares_ekb   Цитата(DrgLena @ 1.09.2010 - 12:47) ...   1.09.2010 - 14:00
|- - плав   Цитата(Ares_ekb @ 1.09.2010 - 14:28)...   1.09.2010 - 16:26
|- - Ares_ekb   Спасибо! Всё прояснилось! На сколько я по...   1.09.2010 - 20:08
- - DrgLena   Цитата(Ares_ekb @ 1.09.2010 - 14:00)...   1.09.2010 - 19:38
- - Ares_ekb   Ещё наткнулся на ОШ второго порядка и частные ОШ. ...   2.09.2010 - 05:55
- - DrgLena   Вы наткнулись на хорошую ссылку, идите дальше: htt...   2.09.2010 - 11:23


Добавить ответ в эту темуОткрыть тему