Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Теория графов в медицине
med-ick
сообщение 19.10.2017 - 12:05
Сообщение #16





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



Цитата
Все ранговое и номинальное надо в онехот (думми) переводить, и тогда уже смотреть борутой что выкидывать, а что оставлять.

т.е. есть переменная
1- очень плохой водитель
2.плохой
3.хороший
4. очень хороший

мне из одного столбца нужно сделать 4 столбца?
очень плохой водитель 1-да, 0 -нет


https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%...%BD%D0%B0%D1%8F
в statistica 12 можно сделать эти думми переменные?
POLICY_SALES_CHAEL_GROUP это номинативная переменная, кодирован канал выдачи мед. полиса

Сообщение отредактировал med-ick - 19.10.2017 - 12:11
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2017 - 13:09
Сообщение #17





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(med-ick @ 19.10.2017 - 12:05) *
т.е. есть переменная
1- очень плохой водитель
2.плохой
3.хороший
4. очень хороший

мне из одного столбца нужно сделать 4 столбца?
очень плохой водитель 1-да, 0 -нет


https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%...%BD%D0%B0%D1%8F
в statistica 12 можно сделать эти думми переменные?
POLICY_SALES_CHAEL_GROUP это номинативная переменная, кодирован канал выдачи мед. полиса


Да именно так, это называется one hot кодирование или https://en.wikipedia.org/wiki/Dummy_variable_(statistics)

Все переменные которые на pairs() выглядят как "решетка-сетка" преобразуются в такой набор. (И более того там есть например первые две в списке, коды которых явно можно вообще склеить вместе (их суммарно уровней меньше получиться чем по отдельности) если будет последующий эмбеддинг делаться). На результат можно напускать методы отбора значимых переменных.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
med-ick
сообщение 19.10.2017 - 14:21
Сообщение #18





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



Я не хочу в ручную, как в statistica это сделать?))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2017 - 15:05
Сообщение #19





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(med-ick @ 19.10.2017 - 14:21) *
Я не хочу в ручную, как в statistica это сделать?))


Написать в техподдержку статистики? smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
med-ick
сообщение 19.10.2017 - 15:10
Сообщение #20





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



вряд ли)) У меня чуть-чуть не лицензионная, так бы написал, а по-другому разбить никак, там в экселе каком-нибудь.
Есть другие способы?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2017 - 15:20
Сообщение #21





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(med-ick @ 19.10.2017 - 15:10) *
вряд ли)) У меня чуть-чуть не лицензионная, так бы написал, а по-другому разбить никак, там в экселе каком-нибудь.
Есть другие способы?


А чем R не подходит? sparse.model.matrix() на формулу и данные размеченные в факторы и в xgb.cv() через xgb.DMatrix() с целевой переменной, лучшую по мета параметрам модель обучить обычным xgboost() и оттуда xgb.importance() достать собственно значимости переменных, с топовыми повторить цикл. Ну или ещё куча способов думми сгенерить из факторов есть.

Код
Жили-были в одном городишке два ассенизатора ? отец и сын.
Канализации у них там не было, а просто ямы с этим самым.
И они это самое вычерпывали ведром и заливали в свою бочку, причем отец, как более опытный специалист, спускался в яму, а сын сверху подавал ему ведро.
И вот однажды сын это ведро не удержал и обрушил обратно на батю.
Ну, батя утерся, посмотрел на него снизу вверх и сказал ему с горечью:
?Чучело ты, ? говорит, ? огородное, тундра! Никакого толка в тебе не видно. Так всю жизнь наверху и проторчишь?.


Сообщение отредактировал p2004r - 19.10.2017 - 15:22


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 24.10.2017 - 16:01
Сообщение #22





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



Уважаемые стажёры (им). Вопрос про боруту, rf и порядковые шкалы.
1. Для клинических шкал нужно ли каждую категорию переводить в фиктивные переменные? Пример шкала депрессии madrs, 10 симптомов, каждый от 0 до 6, суммарный балл от 0 до 60.
2. Как поступать, если зависимая переменная является клинической шкалой? Пример шкала тревоги и депрессии hads. Тревога и депрессия меряются отдельно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.10.2017 - 20:16
Сообщение #23





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(comisora @ 24.10.2017 - 16:01) *
Уважаемые стажёры (им). Вопрос про боруту, rf и порядковые шкалы.
1. Для клинических шкал нужно ли каждую категорию переводить в фиктивные переменные? Пример шкала депрессии madrs, 10 симптомов, каждый от 0 до 6, суммарный балл от 0 до 60.
2. Как поступать, если зависимая переменная является клинической шкалой? Пример шкала тревоги и депрессии hads. Тревога и депрессия меряются отдельно.


1. Там сейчас по умолчанию library(ranger) под капотом, и по умолчанию все факторы ordered(). Если в номинальной шкале (обычный factor()) более 40-50 уровней то придется по техническим причинам делать dummy, само оно больше уровней не тянет (что то с реализацией алгоритма).

2. Регрессии борута прекрасно тоже считает (как и модели выживаемости).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 26.10.2017 - 20:56
Сообщение #24





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



2p2004r
+сто нефти, спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
med-ick
сообщение 26.10.2017 - 21:46
Сообщение #25





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



p2004r, а что делать со случайным лесом, например номинативные переменные можно раздробить на дамми, а как быть с метрическими, где значение может быть от 0 до 1000 к примеру,
а рандом форест работет только с 54 категориями, по крайней мера в R)
что все 1000 значений не раздробишь, например если речь идет о температуре
не может же быть есть 1 градус, нет один градус, есть 2 градуса, нет 2 градуса
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 27.10.2017 - 20:47
Сообщение #26





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(med-ick @ 26.10.2017 - 21:46) *
p2004r, а что делать со случайным лесом, например номинативные переменные можно раздробить на дамми, а как быть с метрическими, где значение может быть от 0 до 1000 к примеру,
а рандом форест работет только с 54 категориями, по крайней мера в R)
что все 1000 значений не раздробишь, например если речь идет о температуре
не может же быть есть 1 градус, нет один градус, есть 2 градуса, нет 2 градуса


попробуйте сделать над собой усилие и ничего не делать с такими переменными (даже распределение не корректируйте)... должно попустить smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему