Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Теория графов в медицине
med-ick
сообщение 15.10.2017 - 16:20
Сообщение #1





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



Приветствую всех, моя тема косвенно связано с медицинской. а именно в случае медстраховки.
Подскажите, а можно ли в R методом теории графов найти зависимости между 2-мя людьми, как в этом датасете, например найти связи между одинаковыми фамилиями?
Прикрепленные файлы
Прикрепленный файл  dataset.zip ( 21,42 килобайт ) Кол-во скачиваний: 266
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
med-ick
сообщение 18.10.2017 - 19:34
Сообщение #2





Группа: Пользователи
Сообщений: 12
Регистрация: 15.10.2017
Пользователь №: 30359



Дано:
Сервер
xeon cpu-e5-1650 3600Ghz
64 гигов оперативки

library("Boruta")
mydat=na.omit(mydat)
bor=Boruta(POLICY_IS_REEWED~.,data=mydat)
getSelectedAttributes(bor, withTentative = T)

после двух часов работы этого кода,


[1] "POLICY_BEGI_MOTH"
[3] "POLICY_ED_MOTH" "POLICY_SALES_CHAEL"
[5] "POLICY_SALES_CHAEL_GROUP" "POLICY_MI_AGE"
[7] "POLICY_MI_DRIVIG_EXPERIECE" "VEHICLE_EGIE_POWER"
[9] "VEHICLE_I_CREDIT" "VEHICLE_SUM_ISURED"
[11] "POLICY_ITERMEDIARY" "ISURER_GEDER"
[13] "POLICY_CLM_" "POLICY_CLM_GLT_"
[15] "POLICY_PRV_CLM_" "POLICY_PRV_CLM_GLT_"
[17] "CLIET_HAS_DAGO" "CLIET_HAS_OSAGO"
[19] "POLICY_COURT_SIG" "CLAIM_AVG_ACC_ST_PRD"
[21] "POLICY_HAS_COMPLAITS" "POLICY_YEARS_REEWED_"
[23] "POLICY_DEDUCT_VALUE" "POLICY_PRICE_CHAGE"

те же самые переменные и та же самая история с подгонкой
myfit <- glm(POLICY_IS_RENEWED~.,data=mydat_tr, family=binomial(link ="logit"))



второй аспект
Код
А размер выборки в >60000 не смущает?

этот размер критичен для feature selection или лог.регрессия рассчитана на до 60 000 наблюдений?

простите , что много вопросов, я стажируюсь, поэтому и возникают проблемы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 18.10.2017 - 22:32
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



А withTentative = T что бы точно всё включило? Ах, да "я не местный люди добрые ... "(С) smile.gif

plot(bor, cex.axis=0.5) и смотреть в каком порядке включать в модель показатели

Тут и не такие "стажеры" пробегали за время существования форума. Ну какая связь между страховкой и медицинской статистикой? Никакой и интереса читателям тоже 0. Более того будь это настоящая экзаменационная задача, то просить кого то её решить за тебя самого просто глупо (пытаться подсовывать эти задачи специалистам "ради лузлов", вообще уподобляться цыганке из анекдотов про гинеколога выносящего мусор после трудового дня).

PS

Если так хочется именно этот датасет разобрать, то надо идти "медленно и печально" разбирать _каждый_ показатель (мне это делать откровенно лень на каком то учебном датасете), и восстанавливать в какой шкале оно на самом деле было измерено. Потом перекодировать этот датасет. Потом в каком нибудь caret строить поиск в пространстве гиперпараметров (включающим и состав предикторов), и смотреть по кроссвалидации лучшую модель (или их ансамбль). Ну или ручками в керасе строить "мега модель всего" со всякими эмбедингами, и опять же крутить состав показателей уже в ней, тоже попутно смотря на получающуюся кроссвалидацию.

Вот так вот "в лоб", датасет дает всего AUC в районе 0.66


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- med-ick   Теория графов в медицине   15.10.2017 - 16:20
- - passant   Цитата(med-ick @ 15.10.2017 - 16...   15.10.2017 - 17:22
- - med-ick   я просто стажер мне дали задачу дословно формулиро...   15.10.2017 - 18:14
|- - ogurtsov   Цитата(med-ick @ 15.10.2017 - 18...   15.10.2017 - 18:43
- - p2004r   Цитата(med-ick @ 15.10.2017 - 16...   15.10.2017 - 19:13
- - med-ick   p2004r, добрый день. Скажите, а чем тогда обоснова...   16.10.2017 - 11:50
|- - p2004r   Цитата(med-ick @ 16.10.2017 - 11...   16.10.2017 - 19:57
- - med-ick   p2004r, не злитесь, пожалуйста, я просто хотел про...   16.10.2017 - 21:39
|- - p2004r   Цитата(med-ick @ 16.10.2017 - 21...   17.10.2017 - 00:19
- - med-ick   p2004r, а вы можете вот сказать, в этом массиве да...   17.10.2017 - 14:43
|- - p2004r   Цитата(med-ick @ 17.10.2017 - 14...   17.10.2017 - 19:05
- - med-ick   Дано: Сервер xeon cpu-e5-1650 3600Ghz 64 гигов опе...   18.10.2017 - 19:34
|- - p2004r   А withTentative = T что бы точно всё включило? Ах,...   18.10.2017 - 22:32
- - med-ick   Не злитесь, это страховая статистика, но по мед.те...   19.10.2017 - 00:11
|- - p2004r   Цитата(med-ick @ 19.10.2017 - 00...   19.10.2017 - 10:53
- - med-ick   ЦитатаВсе ранговое и номинальное надо в онехот (ду...   19.10.2017 - 12:05
|- - p2004r   Цитата(med-ick @ 19.10.2017 - 12...   19.10.2017 - 13:09
- - med-ick   Я не хочу в ручную, как в statistica это сделать?)...   19.10.2017 - 14:21
|- - p2004r   Цитата(med-ick @ 19.10.2017 - 14...   19.10.2017 - 15:05
- - med-ick   вряд ли)) У меня чуть-чуть не лицензионная, так бы...   19.10.2017 - 15:10
|- - p2004r   Цитата(med-ick @ 19.10.2017 - 15...   19.10.2017 - 15:20
- - comisora   Уважаемые стажёры (им). Вопрос про боруту, rf и по...   24.10.2017 - 16:01
|- - p2004r   Цитата(comisora @ 24.10.2017 - 16:01...   24.10.2017 - 20:16
- - comisora   2p2004r +сто нефти, спасибо   26.10.2017 - 20:56
- - med-ick   p2004r, а что делать со случайным лесом, например ...   26.10.2017 - 21:46
- - p2004r   Цитата(med-ick @ 26.10.2017 - 21...   27.10.2017 - 20:47


Добавить ответ в эту темуОткрыть тему