![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Подскажите, пожалуйста, кто чем может)). Я делаю логистическую регрессию. Все предикторы биноминальные (0,1). Y-зависимая переменная(бинарная 0 - нет события(это хорошо), 1-есть событие(это плохо)). Дело в том, что нули к нулям, он мало мальски правильно соотносит, но 50% единиц(плохих) у него попадают к нулям(хорошим).Т.е. неверное определение. Как понять, почему так происходит и что сделать, чтобы улучшить классификацию, хотя бы до 85% точности?
Доп. инфо, я гуглила, и нашла метод Feature Selection и его реализацию в R Boruta. Выделила 6 предикторов, думала счастье рядом, сейчас построила модель, но не тут-то было, классификация такая же некачественная:(( Может что-то не то сделала?(( Что делать? (с)(Чернышевский Н.Г.)
Прикрепленные файлы
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Похоже мой ответ на письмо в личку не дошёл, дублирую его здесь.
Здравствуйте, nastushka. Вы не ответили на мой уточняющий вопрос, а когда мне не понятно - то и не интересно. Я перестал отслеживать вашу тему. Если в общем, то ROC-анализ более полезен для одного количественного показателя, а не для набора, т.к. позволяет выбрать пороговое значение диагностического показателя с наивысшими чувствительностью и специфичностью. В случае множественной логистической регрессии, когда показателей много, анализ и описание его результатов логично проводить в два этапа. 1) Сокращение набора предикторов. Можно сделать полную модель, и отобрать значимые. Можно сделать полную полную с пошаговым отбором (stepwise). Можно отобрать наиболее сильные предикторы случайным лесом - как вы. Можно как-то ещё. 2) В окончательную модель дать только отобранные предикторы. Привести в результатах: 2.1. константу и коэффициенты регрессии - чтобы по формуле с этими показателями можно было считать риск (прогноз) для каждого конкретного случая в области применения результатов 2.2. соответствующие этим коэффициентам отношения шансов (т.е. пересчитать логиты в OR, пакеты это делают, хотя можно и вручную) 2.3. статистическую значимость для каждого члена модели. 2.1-2.3. удобно дать таблицей. 2.4. показатели диагностической эффективности: чувствительность (с 95% доверительным интервалом), специфичность (с 95% ДИ) 2.4. можно диагностическую эффективность дополнить интегральными мерами: и долей верно классифицированных случаев, и площадью под ROC-кривой. Т.е. последняя не несёт в случае множ. логистической регресии какой-то конкретики: это просто интегральная мера качества диагностики. |
|
![]() |
![]() |
![]() ![]() |