Регрессия - Форум врачей-аспирантов

Регрессия

zira Просмотр профиля	17.11.2013 - 21:46 Сообщение #1
Группа: Пользователи Сообщений: 30 Регистрация: 7.11.2013 Пользователь №: 25539	Доброго времени. Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.

Ответов

TheThing Просмотр профиля	19.11.2013 - 11:19 Сообщение #2
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2. Существует несколько взглядов на R^2 в OLS: 1) R^2 как объясненная дисперсия 2) R^2 как улучшения от базовой модели к подогнанной модели 3) как коэфф. корреляции, возведенный в квадрат В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии. От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.: "In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164. Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения. "...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167 Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3785 Сообщение отредактировал TheThing - 19.11.2013 - 14:45

zira Просмотр профиля	19.11.2013 - 23:00 Сообщение #3
Группа: Пользователи Сообщений: 30 Регистрация: 7.11.2013 Пользователь №: 25539	Цитата(TheThing @ 19.11.2013 - 12:19) Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2. Существует несколько взглядов на R^2 в OLS: 1) R^2 как объясненная дисперсия 2) R^2 как улучшения от базовой модели к подогнанной модели 3) как коэфф. корреляции, возведенный в квадрат В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии. От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.: "In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164. Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения. "...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167 Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3785 Есть ли в LR значение, которое показывает % объясненной дисперсии? Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации. Огромное спасибо за статью))

TheThing Просмотр профиля	19.11.2013 - 23:31 Сообщение #4
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(zira @ 20.11.2013 - 00:00) Есть ли в LR значение, которое показывает % объясненной дисперсии? Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации. Огромное спасибо за статью)) Да, есть, но опять же с некой аппроксимацией: как написал выше 100$ - R2 McFadden (есть "чистый", а есть скоректированный на число предикторов), есть R2 Efron и R2 McKelvey & Zavoina. Первый выдаёт Stata, остальные кажется только ручками, благо формулы не сложные. P.S. Защищайте скорее докторскую и дайте почитать профессуре классику, такую как Applied logistic regression :-) Сообщение отредактировал TheThing - 19.11.2013 - 23:33

Сообщений в этой теме

zira Регрессия 17.11.2013 - 21:46

p2004r Цитата(zira @ 17.11.2013 - 21:46) До... 18.11.2013 - 00:59

zira Цитата(p2004r @ 18.11.2013 - 00:59) ... 18.11.2013 - 20:38

p2004r Цитата(zira @ 18.11.2013 - 20:38) 1.... 18.11.2013 - 23:23

TheThing Все эти псевдо-R^2 сопряжены с определенным рядом ... 19.11.2013 - 11:19

zira Цитата(TheThing @ 19.11.2013 - 12:19... 19.11.2013 - 23:00

TheThing Цитата(zira @ 20.11.2013 - 00:00) Ес... 19.11.2013 - 23:31

100$ Цитата(zira @ 17.11.2013 - 22:46) До... 19.11.2013 - 20:03

« Предыдущая тема · Медицинская статистика · Следующая тема »