Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Регрессия
zira
сообщение 17.11.2013 - 21:46
Сообщение #1





Группа: Пользователи
Сообщений: 30
Регистрация: 7.11.2013
Пользователь №: 25539



Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
TheThing
сообщение 19.11.2013 - 11:19
Сообщение #2





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Прикрепленный файл  be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3785


Сообщение отредактировал TheThing - 19.11.2013 - 14:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
zira
сообщение 19.11.2013 - 23:00
Сообщение #3





Группа: Пользователи
Сообщений: 30
Регистрация: 7.11.2013
Пользователь №: 25539



Цитата(TheThing @ 19.11.2013 - 12:19) *
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Прикрепленный файл  be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3785


Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 19.11.2013 - 23:31
Сообщение #4





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(zira @ 20.11.2013 - 00:00) *
Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))


Да, есть, но опять же с некой аппроксимацией: как написал выше 100$ - R2 McFadden (есть "чистый", а есть скоректированный на число предикторов), есть R2 Efron и R2 McKelvey & Zavoina. Первый выдаёт Stata, остальные кажется только ручками, благо формулы не сложные.

P.S. Защищайте скорее докторскую и дайте почитать профессуре классику, такую как Applied logistic regression :-)

Сообщение отредактировал TheThing - 19.11.2013 - 23:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему