Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
26.12.2015 - 18:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? |
|
20.02.2016 - 22:38
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Оказывается, что spss сама считает и вероятности после логистической регрессии))
Вероятности вставил в ROC и модель ожидаемо улучшилась. Но когда решил вручную посчитать вероятность для одного из пациентов, то не выходит чего-то. Может кто-нить подскажет, что не так. Набор переменных для конкретного пациента: методика, дихотомX (0,1), дихотомY (0,1), порядковая (0,1,2) 15, 0, 1, 2 Если все переменные вбивать как количественные, то spss выдает коэффициенты : В (методика) = 0,274 В (дихотомХ)= 0,926 В (дихотомY)= 1,104 В (порядковая) = 0,830 В (константа) = - 3,837 получается следующее уравнение: Z =0,274*15+0,926*0+1,104*1+0,830*2-3,837= 3,037 exp(-3.037)=0,048 ergo 1/1,048=0,953 SPSS тоже так посчитала вероятность = 0,953. Всё сошлось. Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты: В (методика) = -0,286 В (1) (дихотомХ)= 0,871 В (1) (дихотомY)= 1,191 В (1) (порядковая) = 1,921 В (2) (порядковая) = 1,642 В (константа) = - 0,077 Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585 exp(0.585)=1.791 ergo 1/2,791=0,358 А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете? Сообщение отредактировал малой - 20.02.2016 - 22:44 |
|