Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Интерпретация данных логистической регрессии
marchanka
сообщение 21.08.2016 - 01:20
Сообщение #1





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Подскажите, пожалуйста, как интерпретировать случаи, если бинарная логистическая регрессия дала значимые результаты:
хи квадрат значим, независимые переменные значимы, общее число корректно предсказанных случаев по модели более 70,
а правильно предсказанных более 50,% но доля объясненной дисперсии (R2 Наделькеркеса) - менее 0,500.
Модель работает? какой из показателей (% предсказанных или дисперсия более важный?)
Правильно ли я понимаю, что даже, если R2 менее 0,5, это значит, что по модели прогнозирование лучше, чем наугад.

в сообщениях ниже вопрос был отредактирован
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 21.08.2016 - 07:26
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(marchanka @ 21.08.2016 - 01:20) *
общее число корректно предсказанных случаев по модели более 70, а правильно предсказанных более 50,%

70 - это штуки, а 50 - это проценты? На тестовой или обучающей выборке?
Если способность модели верно предсказывать целевую переменную на новых данных (по той или иной метрике - см. ссылку) вас устраивает, то модель хорошая.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.08.2016 - 09:58
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(marchanka @ 21.08.2016 - 01:20) *
Подскажите, пожалуйста, как интерпретировать случаи, если бинарная логистическая регрессия дала значимые результаты: хи квадрат значим, независимые переменные значимы, общее число корректно предсказанных случаев по модели более 70, а правильно предсказанных более 50,% но доля объясненной дисперсии (R2 Наделькеркеса)-менее 0,500.
Модель работает? какой из показателей (% предсказанных или дисперсия более важный?)
Правильно ли я понимаю, что даже, если R2 менее 0,5, это значит, что по модели прогнозирование лучше, чем наугад.


Надо построить ROC и провести её анализ. Искать есть ли в зависимости эффективный трешоилд. Это если тонко.

А если интересует "абстрактная предсказательная сила" то посчитать доверительный интервал для AUC.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 21.08.2016 - 10:37
Сообщение #4





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Цитата(ogurtsov @ 21.08.2016 - 07:26) *
70 - это штуки, а 50 - это проценты? На тестовой или обучающей выборке?
Если способность модели верно предсказывать целевую переменную на новых данных (по той или иной метрике - см. ссылку) вас устраивает, то модель хорошая.


Простите, я в статистике полный чайник без свистка)

70 и 50 - это % корректно предсказанных выборов анализируемых случаев, по которым собственно и проводился регрессионный анализ (это по выводу в бинарной регрессии).
Я сейчас попробовала постро?ть ROC- кривую.
здесь уже появились обучающая и контрольная выборки (но я не совсем понимаю, что это за выборки).
например, процент корректно предсказанных по контрольной выборке выше, чем в обучающей. Надо ли указывать эти данные при описании результатов?
площадь кривой 0,710.

Для площади есть какие-то пороговые значения?

правильно ли я понимаю, что число правильно предсказанных выборов - характеризует как модель объяснила случаи, которые мы загружали в программу.
А R2 - прогностическую мощность модели в общем плане - если мы будем ее использовать для новых респондентов?

Спасибо за быстрые ответы! smile.gif smile.gif smile.gif

Сообщение отредактировал marchanka - 21.08.2016 - 11:27
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 21.08.2016 - 11:58
Сообщение #5





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Цитата(p2004r @ 21.08.2016 - 09:58) *
Надо построить ROC и провести её анализ. Искать есть ли в зависимости эффективный трешоилд. Это если тонко.

А если интересует "абстрактная предсказательная сила" то посчитать доверительный интервал для AUC.



построила ROC.
я так понимаю, что смотреть надо на AUC. если 05-0,6 - модель неудовлетворительная.
возникает два допольнительных вопроса:
1) надо ли при этом учитывать % корректно предсказанных случаев по обучающей и контрольной моделям? (но я так и не поняла, что это за модели).
2) показатель AUC используется для сравнения двух моделей? или с его помощью можно оценить и надежность модели в целом (самой по себе)?

есть одна модель с такими показателями:
обучающая модель % предсказанных 1 з.переменной 100%, 2-ой категории з.переменной 0%, А ОБЩИЙ 60%
В КОНТРольной модели: 100%, 0%, общий 70,6
а AUC. 0,758

в свою очередь в бинарной регрессии для этой модели сделующие характеристики:
χ2 = 21,895, р=0,001, – 2 LL=68,460, R2 Нэйджелкерка = 0,372
% корректно предсказанных случаев =72 , % корректно предсказанных всего=79,7

Сообщение отредактировал marchanka - 21.08.2016 - 12:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 22.08.2016 - 00:54
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(marchanka @ 21.08.2016 - 11:58) *
построила ROC.

а AUC. 0,758


1. Где этот ROC? (сюда прекрасно атачатся картинки)

2. Доверительный интервал у AUC какой?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 22.08.2016 - 19:31
Сообщение #7





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Ответила вам в лс.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 22.08.2016 - 20:37
Сообщение #8





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



[quote name='p2004r' post='20101' date='22.08.2016 - 00:54']1. Где этот ROC? (сюда прекрасно атачатся картинки)


Загрузила файл с описанием моделей.

Мне важно понять общий принцип анализа:
по AUC нашла следующий вариант оценки моделей
Интервал AUC Качество модели
0.9-1.0 Отличное
0.8-0.9 Очень хорошее
0.7-0.8 Хорошее
0.6-0.7 Среднее
0.5-0.6 Неудовлетворительное (https://basegroup.ru/community/articles/logistic)

По оценке доверительного интервала прошу уточнить критерии оценки.

[attachment=1380:регресси..._модели2.doc]

Сообщение отредактировал marchanka - 23.08.2016 - 00:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.08.2016 - 15:42
Сообщение #9





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699





1. В K2 надо поменять "смысл исходов", что бы ROC "прошла над диагональю". Это "чисто косметически".

2. Надежность моделей это не совсем ROC анализ. Он только позволяет оценить "характеристики надежности" решения, но надежность как таковая немного шире. Надежность модели придется кроссвалидацией определить до того как строить по решению ROC (или использовать на свой страх и риск метод практически "не чувствительный" к переобучению). Скорее всего используемый пакет что там такое должен иметь встроенное при поиске "оптимальной" модели.

3. Тесты сравнивающие несколько AUC между собой есть, если я правильно понял вопрос в файле.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 23.08.2016 - 22:04
Сообщение #10





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Правильно ли я поняла, что модели можно содержательно анализировать, т.е. они значимы.

по 2) тогда как корректно содержательно сделать вывод по модели: если я указываю, что она по хи-квадрату значима, объяснила столько-то дисперсии и имеет достаточные показатели по AUC.
корректно ли говорить, что модель значима и обладает достаточной прогностической мощностью?

Остался один вопрос, может, вы в курсе как рассчитать доверительный интервал для модели с двумя переменными (я пользуююсь спсс)?
может быть есть онлайн калькуляторы?

Спасибо за помощь!

ЭТОТ ВОПРОС СНИМАЕТСЯ,Т.К ОН НЕКОРРЕКТЕН.

Сообщение отредактировал marchanka - 27.08.2016 - 00:07
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.08.2016 - 12:39
Сообщение #11





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(marchanka @ 23.08.2016 - 22:04) *
Правильно ли я поняла, что модели можно содержательно анализировать, т.е. они значимы.

по 2) тогда как корректно содержательно сделать вывод по модели: если я указываю, что она по хи-квадрату значима, объяснила столько-то дисперсии и имеет достаточные показатели по AUC.
корректно ли говорить, что модель значима и обладает достаточной прогностической мощностью?

Остался один вопрос, может, вы в курсе как рассчитать доверительный интервал для модели с двумя переменными (я пользуююсь спсс)?
может быть есть онлайн калькуляторы?

Спасибо за помощь!


Нет. Сначала кроссвалидация должна доказать отсутствие оферфита моделей. А после этого можно приводить такие утверждения.

Я не понимаю что за "модель с двумя переменными".



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 25.08.2016 - 09:41
Сообщение #12





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Цитата(p2004r @ 24.08.2016 - 12:39) *
по 1) Нет. Сначала кроссвалидация должна доказать отсутствие оферфита моделей. А после этого можно приводить такие утверждения.

этот тезис касается и тех случаев, когда характеризуется 1 модель бинарной логистической регрессии, т.е. без сравнению с какой-либо еще моделью?
если да, то о каких моделях идет речь?

2) Я не понимаю что за "модель с двумя переменными".


у меня есть модель , которая содержит только 1 предиктор
и модели, которые содержат 2 предиктора.
Но это модели прогнозируют разные зависимые переменные, т.е. их не надо сравнивать между собой.
необходимо просто определить характеристики каждой модели самой по себе.

В СПСС есть кладка ROC-кривые и там можно автоматически рассчитать доверительный интервал. Но в этой вкладке предполагается ввод только 1 независимой и 1 зависимой переменных.
во вкладке "многослойный перцептрон" можно построить кривую с учетом 2 переменных.
Но там нет в настройках расчета доверительного интервала.
Соответственно возникает вопрос, как же рассчитать ДИ в случае, если модель содержит 2 независимых переменных?

при построении кривой я пользовалась этим алгоритмом http://www.hr-portal.ru/spss/Glava22/Index35.php


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 25.08.2016 - 19:32
Сообщение #13





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(marchanka @ 25.08.2016 - 09:41) *
у меня есть модель , которая содержит только 1 предиктор
и модели, которые содержат 2 предиктора.
Но это модели прогнозируют разные зависимые переменные, т.е. их не надо сравнивать между собой.
необходимо просто определить характеристики каждой модели самой по себе.

В СПСС есть кладка ROC-кривые и там можно автоматически рассчитать доверительный интервал. Но в этой вкладке предполагается ввод только 1 независимой и 1 зависимой переменных.
во вкладке "многослойный перцептрон" можно построить кривую с учетом 2 переменных.
Но там нет в настройках расчета доверительного интервала.
Соответственно возникает вопрос, как же рассчитать ДИ в случае, если модель содержит 2 независимых переменных?

при построении кривой я пользовалась этим алгоритмом http://www.hr-portal.ru/spss/Glava22/Index35.php


Так "наощупь" делать совсем плохо frown.gif

Вам надо отправить во вкладку результат логистической регрессии _до_применения_ cut value (которое в спсс считают равным "по умолчанию" 0.5 smile.gif ).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.08.2016 - 13:21
Сообщение #14





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(marchanka @ 25.08.2016 - 09:41) *
В СПСС есть кладка ROC-кривые и там можно автоматически рассчитать доверительный интервал. Но в этой вкладке предполагается ввод только 1 независимой и 1 зависимой переменных.
во вкладке "многослойный перцептрон" можно построить кривую с учетом 2 переменных.
Но там нет в настройках расчета доверительного интервала.
Соответственно возникает вопрос, как же рассчитать ДИ в случае, если модель содержит 2 независимых переменных?

Вы не вкладки программы изучайте, поскольку ваша проблема не в том, что там нет кнопки для построения ДИ, а в том, что вы не поняли по каким значениям нужно построить ROC после логистической регрессии. Вы пытаетесь затолкать свои предикторы при построении ROC. Один предиктор заталкивается, но вы не понимаете, что это не имеет отношения к логистической регрессии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
marchanka
сообщение 26.08.2016 - 23:22
Сообщение #15





Группа: Пользователи
Сообщений: 12
Регистрация: 21.08.2016
Пользователь №: 28570



Цитата(DrgLena @ 26.08.2016 - 13:21) *
Вы не вкладки программы изучайте, поскольку ваша проблема не в том, что там нет кнопки для построения ДИ, а в том, что вы не поняли по каким значениям нужно построить ROC после логистической регрессии. Вы пытаетесь затолкать свои предикторы при построении ROC. Один предиктор заталкивается, но вы не понимаете, что это не имеет отношения к логистической регрессии.



Спасибо за ответ.
я как раз разобралась в своей ошибке и все пересчитала.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему