Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
26.12.2015 - 18:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? |
|
15.02.2016 - 14:02
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной
|
|
15.02.2016 - 19:06
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной В SPSS это заложено. Или я ошибаюсь ? |
|
15.02.2016 - 20:53
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
В SPSS это заложено. Или я ошибаюсь ? "Это" заложено в самом понятии линейной модели. Она выражается как свободный член и n-1 коэффициентов, если в качестве предиктора выступает фактор с n уровнями. Т.е. переменная отклика представляется в виде взвешенной суммы предикторов, где веса - это те самые коэффициенты. А "взвешивать" в случае категориальных предикторов можно только саму принадлежность наблюдения к той или иной группе (=уровню фактора). Поэтому используются dummy variables, они же фиктивные переменные, со значениями 0 или 1. Сообщение отредактировал ogurtsov - 15.02.2016 - 20:57 |
|