Как лучше оценить качество модели логистической регрессии - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Как лучше оценить качество модели логистической регрессии

paravoz Просмотр профиля	2.11.2016 - 17:05 Сообщение #1
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146	Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы?

100$ Просмотр профиля	3.11.2016 - 18:06 Сообщение #2
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(paravoz @ 2.11.2016 - 17:05) Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? Если в матрице исходных регрессоров изначально присутствовала мультиколлинеарность, то при оценивании модели можно получить кучу презабавных эффектов, навроде описанного. Диагностика мультиколлинеарности средствами СПСС, скорее всего, невозможна, но можно попробовать косвенный способ: провести PCA для исходных регрессоров и построить регрессию на главные компоненты. Если после этого вам все понравится, значит надо или искать разумную интерпретацию полученных главных компонент, или перетасовывать матрицу регрессоров и прибегать к поиску инструментальных переменных ( т.н. "инструментов"). Опять же, кросс-валидацию никто не запрещал.

leo_biostat Просмотр профиля	23.11.2016 - 17:56 Сообщение #3
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953	Цитата(paravoz @ 2.11.2016 - 17:05) Строю логистическую регрессиию для бинарной классификации в SPSS. Если выбираю пошаговое включение параметров в модель, то получаю уравнение с не очень хорошими параметрами верной классификации (верная классификация первого класса - 80%, верная классификация второго класса - 85%). При этом само уравнение статистически значимо и все коэффициенты статистически значимы. Пробую по другому. Включаю все параметры в модель и получаю 100% классификацию, но все коэффициенты статистически НЕ значимы (значимость 0,995-1,000). Начинаю по одному удалять параметры из модели. После ручного удаления нескольких параметров получаю 99,8% классификацию и все НЕ значимые коэффициенты уравнения. После удаления любого одного из параметров доля верной классификации существенно снижается до 80-85%. Если все-таки удалять вручную самые НЕ значимые коэффициенты, то в итоге получается практически то же уравнение, что и было получено при пошаговом построении с не очень хорошими параметрами верной классификации, но со значимыми коэффициентами. Подскажите, пожалуйста, все-таки какое уравнение логистической регрессии выбрать? С 99,8% классификацией, но НЕ значимыми коэффициентами уравнения, или со значимыми коэффициентами регрессии, но 80% долей верной классификации? И как в принципе можно интерпретировать результат, когда доля верной классификации практически 100%, коэффициент детерминации практически единица, само уравнение регрессии статистически значимо, но все коэффициенты уравнения статистически НЕ значимы? Описанная Вами технология получения уравнения логистической регрессии весьма устаревшая. Для оценки качества и сравнения уравнений, необходимо иметь весьма большое количество полученных уравнений. Естественно, что при этом не имеет смысла использовать уравнения с коэффициентами статистически не значимыми. Однако при этом следует проводить анализ не только самих уравнений, но и все параметров, которые получаются ДЛЯ ВСЕХ АНАЛИЗИРУЕМЫХ НАБЛЮДЕНИЙ. Отдельные фрагменты этих аспектов можете прочитать в моей серии статей о логистической регрессии по адресам с http://www.biometrica.tomsk.ru/logit_1.htm по http://www.biometrica.tomsk.ru/logit_9.htm Также рекомендую почитать статью "Сравниваем средние, а также и ..." по адресу http://www.biometrica.tomsk.ru/comp_aver.htm , где в конце статьи также приведён один из примеров анализа качества конкретного уравнения. Сообщение отредактировал leo_biostat - 24.11.2016 - 14:53

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.