Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Как лучше оценить качество модели логистической регрессии
paravoz
сообщение 2.11.2016 - 17:05
Сообщение #1





Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы.
Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами.

Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 3.11.2016 - 18:06
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(paravoz @ 2.11.2016 - 17:05) *
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы.
Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами.

Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы?


Если в матрице исходных регрессоров изначально присутствовала мультиколлинеарность, то при оценивании модели можно получить кучу презабавных эффектов, навроде описанного.
Диагностика мультиколлинеарности средствами СПСС, скорее всего, невозможна, но можно попробовать косвенный способ: провести PCA для исходных регрессоров и построить регрессию на главные компоненты. Если после этого вам все понравится, значит надо или искать разумную интерпретацию полученных главных компонент, или перетасовывать матрицу регрессоров и прибегать к поиску инструментальных переменных ( т.н. "инструментов").

Опять же, кросс-валидацию никто не запрещал.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 23.11.2016 - 17:56
Сообщение #3





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(paravoz @ 2.11.2016 - 17:05) *
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы.
Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами.

Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы?



Описанная Вами технология получения уравнения логистической регрессии весьма устаревшая. Для оценки качества и сравнения уравнений, необходимо иметь весьма большое количество полученных уравнений. Естественно, что при этом не имеет смысла использовать уравнения с коэффициентами статистически не значимыми. Однако при этом следует проводить анализ не только самих уравнений, но и все параметров, которые получаются ДЛЯ ВСЕХ АНАЛИЗИРУЕМЫХ НАБЛЮДЕНИЙ. Отдельные фрагменты этих аспектов можете прочитать в моей серии статей о логистической регрессии по адресам с http://www.biometrica.tomsk.ru/logit_1.htm по http://www.biometrica.tomsk.ru/logit_9.htm Также рекомендую почитать статью "Сравниваем средние, а также и ..." по адресу http://www.biometrica.tomsk.ru/comp_aver.htm , где в конце статьи также приведён один из примеров анализа качества конкретного уравнения.

Сообщение отредактировал leo_biostat - 24.11.2016 - 14:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему