Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Регрессия
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
zira
Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.
p2004r
Цитата(zira @ 17.11.2013 - 21:46) *
Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.


1) А почему это вдруг высокое значение для коэффициента детерминации?


2) Ну сделается кроссвалидацию для модели если считаете что она переучена.
zira
Цитата(p2004r @ 18.11.2013 - 00:59) *
1) А почему это вдруг высокое значение для коэффициента детерминации?


2) Ну сделается кроссвалидацию для модели если считаете что она переучена.


1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения.

2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла.

p2004r
Цитата(zira @ 18.11.2013 - 20:38) *
1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения.

2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла.


1. Детерминация в 0.45 как хорошая. Это означает что модель объясняет немного менее половины наблюдаемой дисперсии. По моему это немного для попытки вычислять величину по предикторам. Наверное для объяснения связи величины с предикторами такой детерминации достаточно.

2. Не может быть что бы в SPSS не разу не упоминалась кроссвалидация (или другое какое монтекарло) для оценки подгонки логистической регрессии. К <s>сожалению</s> я не пользуюсь SPSS, и не могу проконсультировать по нему. Но когда набираешь https://www.google.com/search?hl=en&num...ross+validation то ссылок достаточно много получается smile.gif
TheThing
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Нажмите для просмотра прикрепленного файла
100$
Цитата(zira @ 17.11.2013 - 22:46) *
Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.


Посчитайте псевдо- R2 МакФаддена. (D.McFadden). Как знать, может быть его значение вам понравится больше.
zira
Цитата(TheThing @ 19.11.2013 - 12:19) *
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Нажмите для просмотра прикрепленного файла


Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))
TheThing
Цитата(zira @ 20.11.2013 - 00:00) *
Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))


Да, есть, но опять же с некой аппроксимацией: как написал выше 100$ - R2 McFadden (есть "чистый", а есть скоректированный на число предикторов), есть R2 Efron и R2 McKelvey & Zavoina. Первый выдаёт Stata, остальные кажется только ручками, благо формулы не сложные.

P.S. Защищайте скорее докторскую и дайте почитать профессуре классику, такую как Applied logistic regression :-)
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.