Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Логистическая регрессия, интерпретация коэффициентов
Tatiana
сообщение 27.08.2007 - 07:54
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Решила вынести вопрос в новую тему,
в конце чужой темы он оказался для всех незаметным wink.gif

У меня вопрос по применению логистической регрессии, пожалуйста, подскажите.
Если в модели используются порядковые независимые переменные, не бинарные, напрммер степень выраженности чего либо (1 - нет, 2-слабая, 3- сльная). Зависимая - бинарная, как полагается ( 1 -есть болезнь, 0 -нет), то как интерпретировать результаты? Как правильно оценить риск развития заболевания от этого фактора?. Пользуюсь Statistica 6. Расчетная величина OR=3.5. Это как правильно интерпретировать?
Когда независимая бинарная понятно. Или нужно все-таки разбивать независимую на несколько бинарных переменных. Подскажите, пожалуйста, кто сталкивался с этим.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
2 страниц V   1 2 >  
Открыть тему
Ответов (1 - 21)
плав
сообщение 27.08.2007 - 10:46
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Tatiana @ 27.08.2007 - 08:54)
Решила вынести вопрос в новую тему,
в конце чужой темы он оказался для всех незаметным wink.gif

У меня вопрос по применению логистической регрессии, пожалуйста, подскажите.
Если в модели используются порядковые независимые переменные, не бинарные, напрммер степень выраженности чего либо (1 - нет, 2-слабая, 3- сльная). Зависимая - бинарная, как полагается ( 1 -есть болезнь, 0 -нет), то как интерпретировать результаты? Как правильно оценить риск развития заболевания от этого фактора?. Пользуюсь Statistica 6. Расчетная величина OR=3.5. Это как правильно интерпретировать?
Когда независимая бинарная понятно. Или нужно все-таки разбивать независимую на несколько бинарных переменных. Подскажите, пожалуйста, кто сталкивался с этим.

Решил продублировать ответ, поскольку написал и там и там smile.gif

Если Вы кодировали переменные так, как написали - 1,2,3, то интерпретировать отношение шансов бессмысленно - Вы предположили, что "дистанция" от слабого до сильного и от отсутствия до слабого одинаковая.
Надо делать так: вместо одной переменной с тремя уровнями сделать две бинарных переменных. Например - Exist (0 - нет, 1- да) и Severity (0- нет или слабая, 1 - сильная). Тогда Вы полностью описываете свою классификацию:
Exist Severity
нет 0 0
слабая 1 0
сильная 1 1
Получаете два отношения шансов. Первое показывает во сколько раз наличие чего-то увеличивает шансы наличия заболевания, второе - во сколько раз сильное воздействие увеличивает шансы наличия заболевания по сравнению с отсутствием/слабоым воздействием. Произведение отношения шансов - во сколько раз риск при сильной выраженности больше, чем при отсутствии и т.д.
Перекодировка в Statistica через меню Recode
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Tatiana
сообщение 27.08.2007 - 22:35
Сообщение #3





Группа: Пользователи
Сообщений: 7
Регистрация: 15.08.2007
Пользователь №: 4262



Спасибо, я так и предполагала
smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
venera51
сообщение 7.09.2007 - 16:03
Сообщение #4





Группа: Пользователи
Сообщений: 10
Регистрация: 7.09.2007
Пользователь №: 4351



Люди, а кто знает другой способ обработки данных. Например, если обе переменные (зависимая и независимая) имеют по 3 или 4 уровня? Ведь не будем же составлять кучу уравнений?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.09.2007 - 18:03
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(venera51 @ 7.09.2007 - 17:03) [snapback]3287[/snapback]
Люди, а кто знает другой способ обработки данных. Например, если обе переменные (зависимая и независимая) имеют по 3 или 4 уровня? Ведь не будем же составлять кучу уравнений?

Ну а почему бы не составить?
Для независимой это не проблема - добавить переменные просто (и - нет, других вариантов нет, ряд программ, например SAS последних версий сами "разворачивают" качественные независимые переменные в нескольк).
Для зависимой - вообще-то можно использовать логистическую регрессию с несколькими уровнями (очень трудно интерпретировать результаты), можно воспользоваться логлинейным моделированием, но опять-таки - а вопрос-то какой? Метод зависит не столько от переменных, сколько от вопроса, на который пытается ответить аналитик
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
alex3020
сообщение 4.03.2009 - 12:42
Сообщение #6





Группа: Пользователи
Сообщений: 9
Регистрация: 4.03.2009
Пользователь №: 5890



Цитата(плав @ 9.09.2007 - 18:03) *
Ну а почему бы не составить?
Для независимой это не проблема - добавить переменные просто (и - нет, других вариантов нет, ряд программ, например SAS последних версий сами "разворачивают" качественные независимые переменные в нескольк).
Для зависимой - вообще-то можно использовать логистическую регрессию с несколькими уровнями (очень трудно интерпретировать результаты), можно воспользоваться логлинейным моделированием, но опять-таки - а вопрос-то какой? Метод зависит не столько от переменных, сколько от вопроса, на который пытается ответить аналитик

Здравствуйте. Я неважно разбираюсь в статистике, но помочь мне, к сожалению, некому, поэтому пытаюсь все сделать сама.
Было проведено анкетирование. Зависимая переменная: оценка здоровья самими респондентами (хорошее, удовлетворительное, плохое). Подскажите, как оценить влияние различных факторов (анкетные данные) на эту самую оценку с помощью логистической регрессии, или каким нибудь другим методом. Заранее благодарна за ответ.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.03.2009 - 00:36
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(alex3020 @ 4.03.2009 - 12:42) *
Здравствуйте. Я неважно разбираюсь в статистике, но помочь мне, к сожалению, некому, поэтому пытаюсь все сделать сама.
Было проведено анкетирование. Зависимая переменная: оценка здоровья самими респондентами (хорошее, удовлетворительное, плохое). Подскажите, как оценить влияние различных факторов (анкетные данные) на эту самую оценку с помощью логистической регрессии, или каким нибудь другим методом. Заранее благодарна за ответ.

1) Ординальная логистическая регрессия (реализована в SAS, Stata, R)
2) Обычная логистическая регрессия вначале сравнить плохое с суммарной группой удв+хор, затем сравнить удв и хор (заивисиыме переменные)

Другие методы тут вряд ли пойдут.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
alex3020
сообщение 5.03.2009 - 13:15
Сообщение #8





Группа: Пользователи
Сообщений: 9
Регистрация: 4.03.2009
Пользователь №: 5890



Цитата(плав @ 9.09.2007 - 18:03) *
Ну а почему бы не составить?
Для независимой это не проблема - добавить переменные просто (и - нет, других вариантов нет, ряд программ, например SAS последних версий сами "разворачивают" качественные независимые переменные в нескольк).
Для зависимой - вообще-то можно использовать логистическую регрессию с несколькими уровнями (очень трудно интерпретировать результаты), можно воспользоваться логлинейным моделированием, но опять-таки - а вопрос-то какой? Метод зависит не столько от переменных, сколько от вопроса, на который пытается ответить аналитик

спасибо за ответ. А что значит логлинейное моделирование, можно ли его применить в моем случае?Я пользуюсь STATISTICA 6.0, есть ли в данной программе такие возможности. С уважением.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.03.2009 - 20:37
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(alex3020 @ 5.03.2009 - 13:15) *
спасибо за ответ. А что значит логлинейное моделирование, можно ли его применить в моем случае?Я пользуюсь STATISTICA 6.0, есть ли в данной программе такие возможности. С уважением.

Если очень упрощая, то логлинейной моделирование - изучение связи между переменными, аналогично тому, как это делается в корреляционном анализе. Если более научно - моделирование логарифмов частот в таблице как функции переменных, составляющих эту таблицу, т.е.
ln(a)=\mu + A*\alpha +B*\beta + C*\alpha*\beta,
где альфа и бета - значения переменных, а - частота в ячейке таблицы.
В Вашем случае логлинейное модлирование не очень подходит, поскольку у Вас есть зависимая переменная, т.е. надо использовать регрессионные подходы (на самом деле логистическая регрессия очень близкий родственник логлинейного моделирования, и еще более близкий пуассоноой регрессии).
В 6 статистике есть только обычная логистическая регрессия, логлинейное моделирование тоже есть, но использовать его для Ваших целей будет сложно. Ординальной логистической регрессии нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
alex3020
сообщение 7.03.2009 - 13:28
Сообщение #10





Группа: Пользователи
Сообщений: 9
Регистрация: 4.03.2009
Пользователь №: 5890



Цитата(плав @ 5.03.2009 - 00:36) *
1) Ординальная логистическая регрессия (реализована в SAS, Stata, R)
2) Обычная логистическая регрессия вначале сравнить плохое с суммарной группой удв+хор, затем сравнить удв и хор (заивисиыме переменные)

Другие методы тут вряд ли пойдут.

Уважаемый плав. Подскажите пожалуйста, как именно сравнить эти три группы. У меня только хватило толку провести логистическую регрессию с группами по отдельности. Можно ли их сравнить с помощью программы или это сделать так сказать вручную? При проведении логистической регрессии по отдельности получила почти одинаковые данные для групп с хорошим и удовлетворительным здоровьем. Для группы с плохим здоровьем провести данное исследование не удалось, возможно потому что процент таких респонедентов чрезвычайно мал(не достигает и 1%). Очень признательна за помощь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 8.03.2009 - 23:07
Сообщение #11





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(alex3020 @ 7.03.2009 - 13:28) *
Уважаемый плав. Подскажите пожалуйста, как именно сравнить эти три группы. У меня только хватило толку провести логистическую регрессию с группами по отдельности. Можно ли их сравнить с помощью программы или это сделать так сказать вручную? При проведении логистической регрессии по отдельности получила почти одинаковые данные для групп с хорошим и удовлетворительным здоровьем. Для группы с плохим здоровьем провести данное исследование не удалось, возможно потому что процент таких респонедентов чрезвычайно мал(не достигает и 1%). Очень признательна за помощь.

Здоровье должно быть зависимой переменной.
Соответственно модель 1
(Плохое + Удв) кодируем 0
Хорошее кодируем 1
все остальные параметры - независимые переменные, смотрим какие могут помочь отличать (плохоен+удв) от хор.
Если такие есть можно попробовать
удв кодируем 0 (только) против хорошее (1) т.е отбрасваете плохое и далее также.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
alex3020
сообщение 24.03.2009 - 13:12
Сообщение #12





Группа: Пользователи
Сообщений: 9
Регистрация: 4.03.2009
Пользователь №: 5890



Цитата(плав @ 8.03.2009 - 23:07) *
Здоровье должно быть зависимой переменной.
Соответственно модель 1
(Плохое + Удв) кодируем 0
Хорошее кодируем 1
все остальные параметры - независимые переменные, смотрим какие могут помочь отличать (плохоен+удв) от хор.
Если такие есть можно попробовать
удв кодируем 0 (только) против хорошее (1) т.е отбрасваете плохое и далее также.

Спасибо большое за совет. Посчитала, как вы предложили. Закодировала 1-хорошее,0-плох+удовл, получила результат. У меня всего лишь 3 ответа с плох здоровьем, поэтому наверное отдельно его отбрасывать не стоит(я поняла, что надо выкинуть данные людей, отметивших плох здоровье и затем снова посчитать). Я права?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.03.2009 - 23:08
Сообщение #13





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(alex3020 @ 24.03.2009 - 13:12) *
Спасибо большое за совет. Посчитала, как вы предложили. Закодировала 1-хорошее,0-плох+удовл, получила результат. У меня всего лишь 3 ответа с плох здоровьем, поэтому наверное отдельно его отбрасывать не стоит(я поняла, что надо выкинуть данные людей, отметивших плох здоровье и затем снова посчитать). Я права?

Думаю, что не стоит, просто объедините плохое и удовлетворительное и сравнивайте с хорошим.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
alex3020
сообщение 27.03.2009 - 13:03
Сообщение #14





Группа: Пользователи
Сообщений: 9
Регистрация: 4.03.2009
Пользователь №: 5890



Цитата(плав @ 26.03.2009 - 23:08) *
Думаю, что не стоит, просто объедините плохое и удовлетворительное и сравнивайте с хорошим.

Спасибо большое за помощь. На вашем форуме подчерпнула для себя много полезной информации.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Мария Александро...
сообщение 21.05.2009 - 10:50
Сообщение #15





Группа: Пользователи
Сообщений: 14
Регистрация: 1.03.2009
Пользователь №: 5873



ЗДРАвствуйте! После просмотра сайта окнчательно запуталась. Необходимо построить логит-модель, завис. переменная - исход(0-неуд. 1-уд), независ. количественные - возраст, лейкоцитоз, ЛИИ, качественные номинальные - вид заболевания (4 вида по степени выраженности не классифицир, т.е. не категориальные) и вид лечения (4 вида), а так же пол, тяжесть состояния - 3 категории. Я поняла, что для категориальных надо делать пустышки, а для видов заболевания и лечения тоже? В мою задачу входит из вышеперечисленных выбрать наиболее значимые предикторы и соответственно построить приемлемую модель. Раньше я строила в быстрой логит регрессии, но видимо необходимо в GLM пошаговую с исключением. Там попробовала не перекодируя данных, выдает слишком много переменных. Как быть? Извините за дилетантские вопросы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.05.2009 - 11:09
Сообщение #16





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Мария Александровна @ 21.05.2009 - 11:50) *
ЗДРАвствуйте! После просмотра сайта окнчательно запуталась. Необходимо построить логит-модель, завис. переменная - исход(0-неуд. 1-уд), независ. количественные - возраст, лейкоцитоз, ЛИИ, качественные номинальные - вид заболевания (4 вида по степени выраженности не классифицир, т.е. не категориальные) и вид лечения (4 вида), а так же пол, тяжесть состояния - 3 категории. Я поняла, что для категориальных надо делать пустышки, а для видов заболевания и лечения тоже? В мою задачу входит из вышеперечисленных выбрать наиболее значимые предикторы и соответственно построить приемлемую модель. Раньше я строила в быстрой логит регрессии, но видимо необходимо в GLM пошаговую с исключением. Там попробовала не перекодируя данных, выдает слишком много переменных. Как быть? Извините за дилетантские вопросы.

Не пустышки, а dummy. По-русски - фиктивные (индикаторные) переменные. Из одной номинальной переменной с N градациями получается N фиктивных переменных с двумя градациями (0 или 1) каждая. Категориальные - это номинальные с двумя градациями (0 или 1). Фиктивные переменные можно использовать в регрессионном анализе.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.05.2009 - 17:46
Сообщение #17





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Мария Александровна @ 21.05.2009 - 11:50) *
ЗДРАвствуйте! После просмотра сайта окнчательно запуталась. Необходимо построить логит-модель, завис. переменная - исход(0-неуд. 1-уд), независ. количественные - возраст, лейкоцитоз, ЛИИ, качественные номинальные - вид заболевания (4 вида по степени выраженности не классифицир, т.е. не категориальные) и вид лечения (4 вида), а так же пол, тяжесть состояния - 3 категории. Я поняла, что для категориальных надо делать пустышки, а для видов заболевания и лечения тоже? В мою задачу входит из вышеперечисленных выбрать наиболее значимые предикторы и соответственно построить приемлемую модель. Раньше я строила в быстрой логит регрессии, но видимо необходимо в GLM пошаговую с исключением. Там попробовала не перекодируя данных, выдает слишком много переменных. Как быть? Извините за дилетантские вопросы.

Не совсем понятно про GLM. Вы в какой программе работаете? Дело в том, что, например в SAS GLM это линейная модель с допущением нормальности распределения ошибки, т.е. ANCOVA - линейная регрессия, а в R - это действительно GLM (т.е. позволяет разные распределения ошибок). Для Вашей задачи нужна логистическая регрессия (похоже, что логит - термин из STATISTICA), но проавильно замечено, все качесвтенные переменные надо перекодировать. Иными словами у Вас будет 3 переменных на тип заболевания, 3 - на вид лечения и 2 - на тяжесть состояния (при перекодировке делается на одну переменную меньше, чем уровней). Без перекодировки никак нельзя-с.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Мария Александро...
сообщение 21.05.2009 - 21:27
Сообщение #18





Группа: Пользователи
Сообщений: 14
Регистрация: 1.03.2009
Пользователь №: 5873



Спасибо! Да это действительно Statistica 6, и я пытаюсь построить логистическую регрессию. Насчет перекодировки, почему 3? Например вид заболевания: фибриноторакс - 1-есть, 0-нет, пневмоторакс - 1-есть, 0-нет, плеврит - 1-есть, 0-нет, пиоторакс 1-есть, 0-нет, получается 4, или я неправильно поняла? Сразу следующий вопрос: Если из перекодированных переменных например фибриноторакс будет значимым предиктором в модели, а остальные нет, получится что другие виды заболевания отбросятся и не влияют на исход заболевания, никак не учитываются? Признательна за помощь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 22.05.2009 - 19:09
Сообщение #19





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Мария Александровна @ 21.05.2009 - 22:27) *
Спасибо! Да это действительно Statistica 6, и я пытаюсь построить логистическую регрессию. Насчет перекодировки, почему 3? Например вид заболевания: фибриноторакс - 1-есть, 0-нет, пневмоторакс - 1-есть, 0-нет, плеврит - 1-есть, 0-нет, пиоторакс 1-есть, 0-нет, получается 4, или я неправильно поняла? Сразу следующий вопрос: Если из перекодированных переменных например фибриноторакс будет значимым предиктором в модели, а остальные нет, получится что другие виды заболевания отбросятся и не влияют на исход заболевания, никак не учитываются? Признательна за помощь.

Если ситуация, как у Вас отдельные заболевания, то да, надо четыре, но тогда почему это была общая переменная? П во если у Вас была перменная "заболевание", принимашая значения "фибриноторакс", "плеврит", "пневмоторакс", "пиоторакс" (т.е. обязательно что-то есть), то надо три переменных
фибрноторакс, плеврит, пневмоторакс. Если все три переменных имеют значене 0, то это - значит - пиоторакс, который и является группой сравнения (остальные сравниваются с ним). В случае, если у Вас может е быть ...торакса, то тогда у Вас было 5 значений (четыре состояния и отсуствие чего бы то ни было).
Ответ на второй вопрос - да, на исход влияет только фибриноторакс.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Мария Александро...
сообщение 23.05.2009 - 10:26
Сообщение #20





Группа: Пользователи
Сообщений: 14
Регистрация: 1.03.2009
Пользователь №: 5873



У меня 4 вида заболевания, обязательно есть какое-то из них, только я не поняла что лучше делать 4 или 3 переменных. Если 3 то как определить что лучше взять группой сравнения (кодируется 0 0). Для видов лечения за нулевые надо брать отсутствие хирургического лечения? Для тяжести состояния низшую категорию - удовлетворительное. Я Вас правильно понимаю? Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 23.05.2009 - 22:38
Сообщение #21





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Мария Александровна @ 23.05.2009 - 11:26) *
У меня 4 вида заболевания, обязательно есть какое-то из них, только я не поняла что лучше делать 4 или 3 переменных. Если 3 то как определить что лучше взять группой сравнения (кодируется 0 0). Для видов лечения за нулевые надо брать отсутствие хирургического лечения? Для тяжести состояния низшую категорию - удовлетворительное. Я Вас правильно понимаю? Спасибо.

Лучше - 3, за исходный уровень брать ту, что считаете группой сравнения - вопрос не ко мне, а к Вам. Аналогично и в отношении лечения (Вы сами должны решить в соответствии с задачами исследования - если задача изучить влияние хирургического лечения, то да, 0 уровень - отсутствие хирургического лечения).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Мария Александро...
сообщение 24.05.2009 - 11:08
Сообщение #22





Группа: Пользователи
Сообщений: 14
Регистрация: 1.03.2009
Пользователь №: 5873



Очень признательна за помощь. Я так и подумала. Спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему