Регрессия |
Здравствуйте, гость ( Вход | Регистрация )
Регрессия |
17.11.2013 - 21:46
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 30 Регистрация: 7.11.2013 Пользователь №: 25539 |
Доброго времени.
Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое. |
|
18.11.2013 - 00:59
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Доброго времени. Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое. 1) А почему это вдруг высокое значение для коэффициента детерминации? 2) Ну сделается кроссвалидацию для модели если считаете что она переучена. |
|
18.11.2013 - 20:38
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 30 Регистрация: 7.11.2013 Пользователь №: 25539 |
1) А почему это вдруг высокое значение для коэффициента детерминации? 2) Ну сделается кроссвалидацию для модели если считаете что она переучена. 1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения. 2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла. |
|
18.11.2013 - 23:23
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
1. Вы считаете, что значения не высокие? А какие же значения считать высокими? Когда я делала множественную регрессию и получала коэффициент детерминации 0,45 - он считался очень хорошим. Вот почему меня смутили эти значения. 2. Я никогда не делала кросс-валидацию. Может быть подскажете как можно сделать? Считаю в SPSS и там ничего не нашла. 1. Детерминация в 0.45 как хорошая. Это означает что модель объясняет немного менее половины наблюдаемой дисперсии. По моему это немного для попытки вычислять величину по предикторам. Наверное для объяснения связи величины с предикторами такой детерминации достаточно. 2. Не может быть что бы в SPSS не разу не упоминалась кроссвалидация (или другое какое монтекарло) для оценки подгонки логистической регрессии. К <s>сожалению</s> я не пользуюсь SPSS, и не могу проконсультировать по нему. Но когда набираешь https://www.google.com/search?hl=en&num...ross+validation то ссылок достаточно много получается |
|
19.11.2013 - 11:19
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2.
Существует несколько взглядов на R^2 в OLS: 1) R^2 как объясненная дисперсия 2) R^2 как улучшения от базовой модели к подогнанной модели 3) как коэфф. корреляции, возведенный в квадрат В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии. От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.: "In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164. Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения. "...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167 Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3465 Сообщение отредактировал TheThing - 19.11.2013 - 14:45 |
|
19.11.2013 - 20:03
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Доброго времени. Объясните, пожалуйста, чем могут быть вызваны высокие значения Nagelkerke Rsquare в логистической регрессии? Не могу довериться значению 0,714, уж очень высокое. Посчитайте псевдо- R2 МакФаддена. (D.McFadden). Как знать, может быть его значение вам понравится больше. |
|
19.11.2013 - 23:00
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 30 Регистрация: 7.11.2013 Пользователь №: 25539 |
Все эти псевдо-R^2 сопряжены с определенным рядом проблем и не могут интерпретироваться на 100% также, как и R^2 в OLS, так как они были созданы с целью имитировать значение R^2. Существует несколько взглядов на R^2 в OLS: 1) R^2 как объясненная дисперсия 2) R^2 как улучшения от базовой модели к подогнанной модели 3) как коэфф. корреляции, возведенный в квадрат В зависимости от этих взглядов, проводится и расчет псевдо-R^2 в LR. Так, например, R^2 Negelkerke /Cragg & Uhler не рассматривается как % объясненной дисперсии. От Вас требует значение R^2 редактор журнала или руководитель? Или это просто для себя? В результатах работы в статье я значения R^2 вообще не указываю (когда использую лог. регрессию - LR). Вот, что пишут Hosmer & Lemeshow в своей книге "Applied logistic regression" 2nd ed.: "In general, [R2 measures] are based on various comparisons of the predicted values from the fitted model to those from [the base model], the no data or intercept only model and, as a result, do not assess goodness-of-fit. We think that a true measure of fit is one based strictly on a comparison of observed to predicted values from the fitted model." - стр. 164. Они объясняют, что величины R^2 в LR не для рутинного использования, поскольку их сложно интерпретировать, но они вынуждены их описать, поскольку большинство стат. пакетов выводят эти значения. "...low R2 values in logistic regression are the norm and this presents a problem when reporting their values to an audience accustomed to seeing linear regression values. ... Thus [arguing by reference to running examples in the text] we do not recommend routine publishing of R2 values with results from fitted logistic models. However, they may be helpful in the model building state as a statistic to evaluate competing models." - стр. 167 Будьте осторожны c использованием этих величин (если уж решили использовать), могут быть случаи, когда R2 в LR будет очень маленьким, а модель, на самом деле, очень хорошей P.S. если уж очень-очень хочется "замутить" R2 по подобию OLS, но только в LR, посмотрите в сторону коэфф. дискриминации - "нечто", описанное в 2009 году. Статью приатачил, там и проблемы R2 описываются, статья платная - только для внутреннего использования be53a99040264919fab9eb3db6795587.pdf ( 150,4 килобайт ) Кол-во скачиваний: 3465 Есть ли в LR значение, которое показывает % объясненной дисперсии? Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации. Огромное спасибо за статью)) |
|
19.11.2013 - 23:31
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Есть ли в LR значение, которое показывает % объясненной дисперсии? Значение R2 от меня требует не только руководитель, но другие уважаемые профессора. Они убеждены, что если регрессия, то обязательно должен быть представлен коэффициент детерминации. Огромное спасибо за статью)) Да, есть, но опять же с некой аппроксимацией: как написал выше 100$ - R2 McFadden (есть "чистый", а есть скоректированный на число предикторов), есть R2 Efron и R2 McKelvey & Zavoina. Первый выдаёт Stata, остальные кажется только ручками, благо формулы не сложные. P.S. Защищайте скорее докторскую и дайте почитать профессуре классику, такую как Applied logistic regression :-) Сообщение отредактировал TheThing - 19.11.2013 - 23:33 |
|