![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 ![]() |
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы.
Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? Если в матрице исходных регрессоров изначально присутствовала мультиколлинеарность, то при оценивании модели можно получить кучу презабавных эффектов, навроде описанного. Диагностика мультиколлинеарности средствами СПСС, скорее всего, невозможна, но можно попробовать косвенный способ: провести PCA для исходных регрессоров и построить регрессию на главные компоненты. Если после этого вам все понравится, значит надо или искать разумную интерпретацию полученных главных компонент, или перетасовывать матрицу регрессоров и прибегать к поиску инструментальных переменных ( т.н. "инструментов"). Опять же, кросс-валидацию никто не запрещал. |
|
![]() |
![]() |
![]() ![]() |