![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 ![]() |
Приветствую всех, моя тема косвенно связано с медицинской. а именно в случае медстраховки.
Подскажите, а можно ли в R методом теории графов найти зависимости между 2-мя людьми, как в этом датасете, например найти связи между одинаковыми фамилиями?
Прикрепленные файлы
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 15.10.2017 Пользователь №: 30359 ![]() |
Дано:
Сервер xeon cpu-e5-1650 3600Ghz 64 гигов оперативки library("Boruta") mydat=na.omit(mydat) bor=Boruta(POLICY_IS_REEWED~.,data=mydat) getSelectedAttributes(bor, withTentative = T) после двух часов работы этого кода, [1] "POLICY_BEGI_MOTH" [3] "POLICY_ED_MOTH" "POLICY_SALES_CHAEL" [5] "POLICY_SALES_CHAEL_GROUP" "POLICY_MI_AGE" [7] "POLICY_MI_DRIVIG_EXPERIECE" "VEHICLE_EGIE_POWER" [9] "VEHICLE_I_CREDIT" "VEHICLE_SUM_ISURED" [11] "POLICY_ITERMEDIARY" "ISURER_GEDER" [13] "POLICY_CLM_" "POLICY_CLM_GLT_" [15] "POLICY_PRV_CLM_" "POLICY_PRV_CLM_GLT_" [17] "CLIET_HAS_DAGO" "CLIET_HAS_OSAGO" [19] "POLICY_COURT_SIG" "CLAIM_AVG_ACC_ST_PRD" [21] "POLICY_HAS_COMPLAITS" "POLICY_YEARS_REEWED_" [23] "POLICY_DEDUCT_VALUE" "POLICY_PRICE_CHAGE" те же самые переменные и та же самая история с подгонкой myfit <- glm(POLICY_IS_RENEWED~.,data=mydat_tr, family=binomial(link ="logit")) второй аспект Код А размер выборки в >60000 не смущает? этот размер критичен для feature selection или лог.регрессия рассчитана на до 60 000 наблюдений? простите , что много вопросов, я стажируюсь, поэтому и возникают проблемы. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
А withTentative = T что бы точно всё включило? Ах, да "я не местный люди добрые ... "(С)
![]() plot(bor, cex.axis=0.5) и смотреть в каком порядке включать в модель показатели Тут и не такие "стажеры" пробегали за время существования форума. Ну какая связь между страховкой и медицинской статистикой? Никакой и интереса читателям тоже 0. Более того будь это настоящая экзаменационная задача, то просить кого то её решить за тебя самого просто глупо (пытаться подсовывать эти задачи специалистам "ради лузлов", вообще уподобляться цыганке из анекдотов про гинеколога выносящего мусор после трудового дня). PS Если так хочется именно этот датасет разобрать, то надо идти "медленно и печально" разбирать _каждый_ показатель (мне это делать откровенно лень на каком то учебном датасете), и восстанавливать в какой шкале оно на самом деле было измерено. Потом перекодировать этот датасет. Потом в каком нибудь caret строить поиск в пространстве гиперпараметров (включающим и состав предикторов), и смотреть по кроссвалидации лучшую модель (или их ансамбль). Ну или ручками в керасе строить "мега модель всего" со всякими эмбедингами, и опять же крутить состав показателей уже в ней, тоже попутно смотря на получающуюся кроссвалидацию. Вот так вот "в лоб", датасет дает всего AUC в районе 0.66 ![]() |
|
![]() |
![]() |
![]() ![]() |