Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
14.02.2016 - 23:55
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация). Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? Слушайте, я тут что-то ничего не пойму. Вы измеряете у пациента некий признак, имеющий 3 градации. Здесь нет никакого бинарного отклика. Стандартный метод работы с такой красотой - модели упорядоченного выбора И зачем применять Краскела с Уоллисом для двух групп пациентов? И как это горемычные Краскел с Уоллисом показывают значимость различий по каждой (каждой, Карл!)) из 40 переменных? 40 достигаемых уровней значимости? Сообщение отредактировал 100$ - 14.02.2016 - 23:55 |
|
15.02.2016 - 00:02
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата )))) exp=2,72? P.S. Уж извините, пожалуйста, что достаю)) Действительно, достал) А шо такое есть exp=2,72? Вольный перевод шумеро-аккадской клинописи? У меня exp(-2.032)=.131073 ergo 1/1,131073=,884. Сообщение отредактировал 100$ - 15.02.2016 - 00:10 |
|
15.02.2016 - 07:10
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Отклик здесь бинарный: наступление события, и две группы пациентов - это оно же. Шкала имеет кучу вопросов, по каждому три градации - варианты ответов, это все предикторы. Я так расшифровал
|
|
15.02.2016 - 07:57
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
|
|
15.02.2016 - 11:35
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация). Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия? Для этого используют специальные процедуры отбора информативных переменных, например основанные на бутстрепе см. https://m2.icm.edu.pl/boruta/ . Все эти велосипеды до добра не доведут. PS последняя 5я версия очень быстрая и хорошо исполняется многопоточно. |
|
15.02.2016 - 12:21
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
15.02.2016 - 14:02
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной
|
|
15.02.2016 - 19:05
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
|
|
15.02.2016 - 19:06
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной В SPSS это заложено. Или я ошибаюсь ? |
|
15.02.2016 - 20:53
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
В SPSS это заложено. Или я ошибаюсь ? "Это" заложено в самом понятии линейной модели. Она выражается как свободный член и n-1 коэффициентов, если в качестве предиктора выступает фактор с n уровнями. Т.е. переменная отклика представляется в виде взвешенной суммы предикторов, где веса - это те самые коэффициенты. А "взвешивать" в случае категориальных предикторов можно только саму принадлежность наблюдения к той или иной группе (=уровню фактора). Поэтому используются dummy variables, они же фиктивные переменные, со значениями 0 или 1. Сообщение отредактировал ogurtsov - 15.02.2016 - 20:57 |
|
15.02.2016 - 23:19
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. Цитата Два набора, каждый из 0, 1 и 2 по каждой переменной и того 40 операций. Из них 17 оказались значимых, которые потом взял в матрицу для ФА. Что-то вы путаетесь в показаниях... Сообщение отредактировал 100$ - 15.02.2016 - 23:20 |
|
15.02.2016 - 23:57
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
В SPSS это заложено. Или я ошибаюсь ? Ошибаетесь, если работаете с ранговой переменной, как с количественной. Сделайте правильный выбор типа переменной в программе и оцените "вес" каждой градации. В оценке вероятности в некоторых переменных будут важны градации "0", а в каких то "2", вы же получили коэффициеты с разными знаками. Перед проведением логистической регрессии полезно посмотреть таблицы сопряженности 2х3 после чего часть ранговых переменных могут быть редуцированы до бинарных без потери информации и с ними будет легче работать, кроме того полезно посмотреть и корреляцию предикторов между собой. |
|
16.02.2016 - 00:02
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
|
|
16.02.2016 - 08:02
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
|
|
16.02.2016 - 08:07
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Матрица для ФА это что? Вы изучаете какой анализ? Факторный анализ. Потом вношу что получилось в регрессию. Скажите плиз а когда ранговые переменные (0,1,2), формируют уже методику где семь ранговых пунктов и соответственно баллов в ней от 0 до 14. Эта полученная новая переменная перестает быть ранговой и становится количественной? |
|