Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
26.12.2015 - 18:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? |
|
13.02.2016 - 17:29
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Пробою осваивать логистическую регрессию в SPSS. Методика (количественная переменная) которую использовал самостоятельно до регрессии показала хорошую дискриминативную способность (AUC=0,72, диагностическая точность в лучшей точке 0,74). Хочу улучшить. Добавил туда три фактора: два дихотомических (кодировка: 0 - нет вредности, 1 - вредность есть) и одну порядковую (0-нет вреднсти, 1 - небольшая вредность, 2 - большая вредность). Выходит, чем больше цифра в любой из использованных переменных тем больше вероятность события. Регрессия показала, что процент корректных увеличился до 82%. Вместе с тем коэффициенты (В) у константы и двух дихотомических переменных отрицательные (?). Далее всё вставил в уравнение регрессии и получил вероятности события. Получив расчетное значение вероятности для каждого объекта, использовал её как переменную для построения ROC. Так вот, ROC стала гораздо хуже, даже хуже чем результаты методики без дополнительных переменных (AUC=0,60). Подскажите пожалуйста, где допущена ошибка?
Сообщение отредактировал малой - 13.02.2016 - 17:34 |
|