![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Здравствуйте!
Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Здравствуйте! Есть зависимая переменная инсульт и факторы: сахарный диабет (СД) и курение (К). С помощью логистической регрессии (PASW 18) получаю отношения шансов для СД (8,521) и для К (1,328). Затем добавляю в модель взаимодействие СД*К и получаю такие коэффициенты: CODE СД 2,068 (значимость - 0,000) К 0,271 (значимость - 0,226) СД*К 0,358 (значимость - 0,769) Конст. -0,904 (значимость - 0,000) Интерпретирую их так: У не курильщиков СД повышает риск инсульта в exp(2,068)=7,909 раз У курильщиков СД повышает риск инсульта в exp(2,068+0,358)=11,314 раз У не диабетиков курение повышает риск инсульта в exp(0,271)=1,311 раз У диабетиков курение повышает риск инсульта в exp(0,271+0,358)=1,876 раз Вопрос 1: правильно ли всё это? Вопрос 2: Как считать доверительные интервалы (ДИ) для этих ОШ? PASW считает exp(B) с доверительным интервалом. Я должен просуммировать границы ДИ для exp(B) для коэффициентов, которые складываю? Вопрос 3: PASW выдает значимость для факторов. Зачем она может быть нужна? Я смотрю на границы ДИ для ОШ, и если в них попадает 1, значит изменение риска не значимо. Нужно ли мне при интерпретации результатов использовать ещё и эту значимость. Вопрос 4: как посчитать ОШ для курящих диабетиков по сравнению со всеми остальными? Нужно перемножить ОШ? 8,521 * 1,328 = 11,316 Но тогда не учитывается связь между СД и К. И как в этом случае получить доверительный интервал? Вопрос 5. Вообще факторов порядка 20 и для многих из них увеличение риска статистически не значимо (ОШ ~ 1). Но вполне возможно, что сочетания таких факторов дают значимое увеличение риска. Как лучше всего выбрать комбинации факторов? И как посчитать для этих сочетаний ОШ с ДИ? Совсем кратко 1) Интерпретация не совсем правильная. Правильная интерпретация таблицы (считаем, что СД и курение закодированы 1/0, если цифры кодов другие - результат будет тоже иной) а) СД повышает риск инсульта в exp(2,068)=7,909 раз б) Курение повышает риск инсульта в exp(0,271)=1,311 раз в) СД+Курение повышают риск в exp(2,068+0,271+0,358) раз 2) Доверительные интервалы для случаев (а) и (в) берете напрямую из таблицы, для случая (в) простого решения нет, надо использовать контрасты 3) Стандартное представление данных - коэффициент регрессии, ошибка коэффициента и тест его значимости; ОШ и доверительные интервалы - иная интерпретация данных, может быть представлена в таблице дополнительно 4) см. 1 5) Если у Вас более 1000 наблюдений можете попробовать взять в качестве полной модели модель со всеми тройными взаимодействиями и потом ее постепенно упрощать. Если взаимодействие достоверно, то остаются и его компоненты в модели вне зависимости от их достоверности. Если наблюдений меньше - лучше выбрать комбинации исходя из знания предметной области
Причина редактирования: Спасибо, DrgLena, исправил
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 31.08.2010 Пользователь №: 22710 ![]() |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то...
1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Все переменные PASW перекодирует в 1/0... Другая кодировка ведь будет неправильной? Полученные ОШ не будут совпадать с ОШ рассчитанными по таблице сопряженности... 2) А можно какую-нибудь ссылку на контрасты? Не слышал о них... 3) Спасибо 4) А можно ссылку, где это доступно объясняется? Завтра попробую ввести новую переменную равную 1, если есть СД и К, иначе - 0. Данных нет под рукой... 5) Наблюдений примерно 250 без инсульта и 150 с инсультом. Ок, попробую... |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Только сейчас заметил, что везде пишу риск, хотя имел ввиду шансы... Не знаю меняет ли это что-то... 1) http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm В последнем разделе говорится, что если в логистической регрессии используются взаимодействия факторов, то интерпретация всех коэффициентов (для переменных участвующих во взаимодействии) меняется... Например, коэффициент для СД - это уже не логарифм ОШ для СД, а логарифм ОШ для СД для группы некурящих. ОШ для СД для всей выборки (и курящих, и не курящих) из этих коэффициентов уже не получить. Если исключить из модели СД*К, то коэффициенты (и соответственно ОШ) для СД и К будут другими. Объяснение этого различия по ссылке выше выглядит правдоподобным... Если в модели нет СД*К, то получаем ОШ для всей выборки. Если добавляем СД*К, то получаем ОШ для СД для некурящих и ОШ для К для недиабетиков. Не совсем так. Формула регрессионного уравнения получается log_odds=beta1*DM+beta2*smok+beta3*DM*smok Соответственно, если кодирование 0/1, то интерпретация будет меняться уже со случая добавления фактора курения, а не только взаимодействия: СД+К+ = beta1+beta2 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Если включить взаимодействия ситуация изменится так (курение в сочетании с диабетом хуже, чем просто эффекты курения и диабета): СД+К+ = beta1+beta2+beta3 СД+К- = beta1 СД-К+ = beta2 СД-К- - группа сравнения. Чтобы получить ОШ для СД без учета курения, надо не включать курение в модель вовсе. Именно это, кстати и написано в тексте по приведенной Вами ссылке. Про контрасты посмотрите общую информацию здесь на форуме и help в используемой программе. Для случая двух переменных проблем быть не должно, если захотите анализировать больше, разбираться придется дольше. В SAS все это выглядело бы так (синтаксис SPSS должен быть похожим): proc logistic; freq count; class dm (ref='0') kur (ref='0'); model stroke=dm kur kur*dm; contrast 'DM+Kur+' dm 1 -1 kur 1 -1 kur*dm 1 -1/e estimate=exp; run; |
|
![]() |
![]() |
![]() ![]() |