Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
26.12.2015 - 18:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? |
|
16.02.2016 - 14:30
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.
Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще. Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов. Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией. Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов). Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8. Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз. Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6). Вот такой вот велосипед ))) Сообщение отредактировал малой - 16.02.2016 - 16:06 |
|
16.02.2016 - 22:53
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать. Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще. Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов. Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией. Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов). Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8. Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз. Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6). Вот такой вот велосипед ))) 1. Помимо AUC есть Йоудена критерий, который учитывает по крайней мере частоту исходов в популяции реальную (например неравный размер групп), так что "не AUC едимым" (вполне можно придумать такую форму ROC которая будет иметь меньшую площадь и лучший результат для конкретного решения . 2. Просто все закидываем в Boruta и получаем набор доказанных бутстрепом значимых для решения показателей. Уже их взаимодействие можно рассматривать PCA и всякими методами восстанавливающими причинно-следственные связи. Иначе слишком много ручной работы и негарантированный результат. Как можно игнорировать специальные методы отбора переменных в пользу велосипеда? Сообщение отредактировал p2004r - 16.02.2016 - 22:53 |
|