Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Регрессия
zira
сообщение 17.11.2013 - 21:46
Сообщение #1





Группа: Пользователи
Сообщений: 30
Регистрация: 7.11.2013
Пользователь №: 25539



Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 18.11.2013 - 00:59
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(zira @ 17.11.2013 - 21:46) *
Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.


1) А почему это вдруг высокое значение для коэффициента детерминации?


2) Ну сделается кроссвалидацию для модели если считаете что она переучена.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
zira
сообщение 18.11.2013 - 20:38
Сообщение #3





Группа: Пользователи
Сообщений: 30
Регистрация: 7.11.2013
Пользователь №: 25539



Цитата(p2004r @ 18.11.2013 - 00:59) *
1) А почему это вдруг высокое значение для коэффициента детерминации?


2) Ну сделается кроссвалидацию для модели если считаете что она переучена.


1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения.

2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 18.11.2013 - 23:23
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(zira @ 18.11.2013 - 20:38) *
1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения.

2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла.


1. Детерминация в 0.45 как хорошая. Это означает что модель объясняет немного менее половины наблюдаемой дисперсии. По моему это немного для попытки вычислять величину по предикторам. Наверное для объяснения связи величины с предикторами такой детерминации достаточно.

2. Не может быть что бы в SPSS не разу не упоминалась кроссвалидация (или другое какое монтекарло) для оценки подгонки логистической регрессии. К <s>сожалению</s> я не пользуюсь SPSS, и не могу проконсультировать по нему. Но когда набираешь https://www.google.com/search?hl=en&num...ross+validation то ссылок достаточно много получается smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 19.11.2013 - 11:19
Сообщение #5





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Прикрепленный файл  be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3465


Сообщение отредактировал TheThing - 19.11.2013 - 14:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 19.11.2013 - 20:03
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(zira @ 17.11.2013 - 22:46) *
Доброго времени.

Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое.


Посчитайте псевдо- R2 МакФаддена. (D.McFadden). Как знать, может быть его значение вам понравится больше.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
zira
сообщение 19.11.2013 - 23:00
Сообщение #7





Группа: Пользователи
Сообщений: 30
Регистрация: 7.11.2013
Пользователь №: 25539



Цитата(TheThing @ 19.11.2013 - 12:19) *
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS:
1) R^2 как объясненная дисперсия
2) R^2 как улучшения от базовой модели к подогнанной модели
3) как коэфф. корреляции, возведенный в квадрат

В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии.

От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.:
"In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164.
Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения.

"...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167

Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей smile.gif

P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования rolleyes.gif
Прикрепленный файл  be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3465


Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 19.11.2013 - 23:31
Сообщение #8





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(zira @ 20.11.2013 - 00:00) *
Есть ли в LR значение, которое показывает % объясненной дисперсии?

Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации.

Огромное спасибо за статью))


Да, есть, но опять же с некой аппроксимацией: как написал выше 100$ - R2 McFadden (есть "чистый", а есть скоректированный на число предикторов), есть R2 Efron и R2 McKelvey & Zavoina. Первый выдаёт Stata, остальные кажется только ручками, благо формулы не сложные.

P.S. Защищайте скорее докторскую и дайте почитать профессуре классику, такую как Applied logistic regression :-)

Сообщение отредактировал TheThing - 19.11.2013 - 23:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему