Теория графов в медицине |
Здравствуйте, гость ( Вход | Регистрация )
Теория графов в медицине |
19.10.2017 - 12:05
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 |
Цитата Все ранговое и номинальное надо в онехот (думми) переводить, и тогда уже смотреть борутой что выкидывать, а что оставлять. т.е. есть переменная 1- очень плохой водитель 2.плохой 3.хороший 4. очень хороший мне из одного столбца нужно сделать 4 столбца? очень плохой водитель 1-да, 0 -нет https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%...%BD%D0%B0%D1%8F в statistica 12 можно сделать эти думми переменные? POLICY_SALES_CHAEL_GROUP это номинативная переменная, кодирован канал выдачи мед. полиса Сообщение отредактировал med-ick - 19.10.2017 - 12:11 |
|
19.10.2017 - 13:09
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
т.е. есть переменная 1- очень плохой водитель 2.плохой 3.хороший 4. очень хороший мне из одного столбца нужно сделать 4 столбца? очень плохой водитель 1-да, 0 -нет https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%...%BD%D0%B0%D1%8F в statistica 12 можно сделать эти думми переменные? POLICY_SALES_CHAEL_GROUP это номинативная переменная, кодирован канал выдачи мед. полиса Да именно так, это называется one hot кодирование или https://en.wikipedia.org/wiki/Dummy_variable_(statistics) Все переменные которые на pairs() выглядят как "решетка-сетка" преобразуются в такой набор. (И более того там есть например первые две в списке, коды которых явно можно вообще склеить вместе (их суммарно уровней меньше получиться чем по отдельности) если будет последующий эмбеддинг делаться). На результат можно напускать методы отбора значимых переменных. |
|
19.10.2017 - 14:21
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 |
Я не хочу в ручную, как в statistica это сделать?))
|
|
19.10.2017 - 15:05
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Я не хочу в ручную, как в statistica это сделать?)) Написать в техподдержку статистики? |
|
19.10.2017 - 15:10
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 |
вряд ли)) У меня чуть-чуть не лицензионная, так бы написал, а по-другому разбить никак, там в экселе каком-нибудь.
Есть другие способы? |
|
19.10.2017 - 15:20
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
вряд ли)) У меня чуть-чуть не лицензионная, так бы написал, а по-другому разбить никак, там в экселе каком-нибудь. Есть другие способы? А чем R не подходит? sparse.model.matrix() на формулу и данные размеченные в факторы и в xgb.cv() через xgb.DMatrix() с целевой переменной, лучшую по мета параметрам модель обучить обычным xgboost() и оттуда xgb.importance() достать собственно значимости переменных, с топовыми повторить цикл. Ну или ещё куча способов думми сгенерить из факторов есть. Код Жили-были в одном городишке два ассенизатора ? отец и сын.
Канализации у них там не было, а просто ямы с этим самым. И они это самое вычерпывали ведром и заливали в свою бочку, причем отец, как более опытный специалист, спускался в яму, а сын сверху подавал ему ведро. И вот однажды сын это ведро не удержал и обрушил обратно на батю. Ну, батя утерся, посмотрел на него снизу вверх и сказал ему с горечью: ?Чучело ты, ? говорит, ? огородное, тундра! Никакого толка в тебе не видно. Так всю жизнь наверху и проторчишь?. Сообщение отредактировал p2004r - 19.10.2017 - 15:22 |
|
24.10.2017 - 16:01
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 95 Регистрация: 27.12.2015 Пользователь №: 27815 |
Уважаемые стажёры (им). Вопрос про боруту, rf и порядковые шкалы.
1. Для клинических шкал нужно ли каждую категорию переводить в фиктивные переменные? Пример шкала депрессии madrs, 10 симптомов, каждый от 0 до 6, суммарный балл от 0 до 60. 2. Как поступать, если зависимая переменная является клинической шкалой? Пример шкала тревоги и депрессии hads. Тревога и депрессия меряются отдельно. |
|
24.10.2017 - 20:16
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Уважаемые стажёры (им). Вопрос про боруту, rf и порядковые шкалы. 1. Для клинических шкал нужно ли каждую категорию переводить в фиктивные переменные? Пример шкала депрессии madrs, 10 симптомов, каждый от 0 до 6, суммарный балл от 0 до 60. 2. Как поступать, если зависимая переменная является клинической шкалой? Пример шкала тревоги и депрессии hads. Тревога и депрессия меряются отдельно. 1. Там сейчас по умолчанию library(ranger) под капотом, и по умолчанию все факторы ordered(). Если в номинальной шкале (обычный factor()) более 40-50 уровней то придется по техническим причинам делать dummy, само оно больше уровней не тянет (что то с реализацией алгоритма). 2. Регрессии борута прекрасно тоже считает (как и модели выживаемости). |
|
26.10.2017 - 20:56
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 95 Регистрация: 27.12.2015 Пользователь №: 27815 |
2p2004r
+сто нефти, спасибо |
|
26.10.2017 - 21:46
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 |
p2004r, а что делать со случайным лесом, например номинативные переменные можно раздробить на дамми, а как быть с метрическими, где значение может быть от 0 до 1000 к примеру,
а рандом форест работет только с 54 категориями, по крайней мера в R) что все 1000 значений не раздробишь, например если речь идет о температуре не может же быть есть 1 градус, нет один градус, есть 2 градуса, нет 2 градуса |
|
27.10.2017 - 20:47
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
p2004r, а что делать со случайным лесом, например номинативные переменные можно раздробить на дамми, а как быть с метрическими, где значение может быть от 0 до 1000 к примеру, а рандом форест работет только с 54 категориями, по крайней мера в R) что все 1000 значений не раздробишь, например если речь идет о температуре не может же быть есть 1 градус, нет один градус, есть 2 градуса, нет 2 градуса попробуйте сделать над собой усилие и ничего не делать с такими переменными (даже распределение не корректируйте)... должно попустить |
|