![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 ![]() |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 ![]() |
Начните с логистической регрессии с регуляризацией, а именно с лассо-регрессии. Так подберете модель, в которой будет ровно 10 предикторов.
Или, еще проще: stepwise selection с последовательным включением предикторов. Но нужно помнить, что это "жадный" алгоритм. Вообще отбор предикторов и выбор наилучшей модели с точки зрения производительности на тестовых данных - это две разные задачи. Сообщение отредактировал ogurtsov - 26.12.2015 - 19:21 ![]() |
|
![]() |
![]() |
![]() ![]() |