Как лучше оценить качество модели логистической регрессии |
Здравствуйте, гость ( Вход | Регистрация )
Как лучше оценить качество модели логистической регрессии |
2.11.2016 - 17:05
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы.
Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? |
|
3.11.2016 - 18:06
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? Если в матрице исходных регрессоров изначально присутствовала мультиколлинеарность, то при оценивании модели можно получить кучу презабавных эффектов, навроде описанного. Диагностика мультиколлинеарности средствами СПСС, скорее всего, невозможна, но можно попробовать косвенный способ: провести PCA для исходных регрессоров и построить регрессию на главные компоненты. Если после этого вам все понравится, значит надо или искать разумную интерпретацию полученных главных компонент, или перетасовывать матрицу регрессоров и прибегать к поиску инструментальных переменных ( т.н. "инструментов"). Опять же, кросс-валидацию никто не запрещал. |
|
23.11.2016 - 17:56
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? Описанная Вами технология получения уравнения логистической регрессии весьма устаревшая. Для оценки качества и сравнения уравнений, необходимо иметь весьма большое количество полученных уравнений. Естественно, что при этом не имеет смысла использовать уравнения с коэффициентами статистически не значимыми. Однако при этом следует проводить анализ не только самих уравнений, но и все параметров, которые получаются ДЛЯ ВСЕХ АНАЛИЗИРУЕМЫХ НАБЛЮДЕНИЙ. Отдельные фрагменты этих аспектов можете прочитать в моей серии статей о логистической регрессии по адресам с http://www.biometrica.tomsk.ru/logit_1.htm по http://www.biometrica.tomsk.ru/logit_9.htm Также рекомендую почитать статью "Сравниваем средние, а также и ..." по адресу http://www.biometrica.tomsk.ru/comp_aver.htm , где в конце статьи также приведён один из примеров анализа качества конкретного уравнения. Сообщение отредактировал leo_biostat - 24.11.2016 - 14:53 |
|