Дано:
Сервер
xeon cpu-e5-1650 3600Ghz
64 гигов оперативки
library("Boruta")
mydat=na.omit(mydat)
bor=Boruta(POLICY_IS_REEWED~.,data=mydat)
getSelectedAttributes(bor, withTentative = T)
после двух часов работы этого кода,
[1] "POLICY_BEGI_MOTH"
[3] "POLICY_ED_MOTH" "POLICY_SALES_CHAEL"
[5] "POLICY_SALES_CHAEL_GROUP" "POLICY_MI_AGE"
[7] "POLICY_MI_DRIVIG_EXPERIECE" "VEHICLE_EGIE_POWER"
[9] "VEHICLE_I_CREDIT" "VEHICLE_SUM_ISURED"
[11] "POLICY_ITERMEDIARY" "ISURER_GEDER"
[13] "POLICY_CLM_" "POLICY_CLM_GLT_"
[15] "POLICY_PRV_CLM_" "POLICY_PRV_CLM_GLT_"
[17] "CLIET_HAS_DAGO" "CLIET_HAS_OSAGO"
[19] "POLICY_COURT_SIG" "CLAIM_AVG_ACC_ST_PRD"
[21] "POLICY_HAS_COMPLAITS" "POLICY_YEARS_REEWED_"
[23] "POLICY_DEDUCT_VALUE" "POLICY_PRICE_CHAGE"
те же самые переменные и та же самая история с подгонкой
myfit <- glm(POLICY_IS_RENEWED~.,data=mydat_tr, family=binomial(link ="logit"))
второй аспект
Код
А размер выборки в >60000 не смущает?
этот размер критичен для feature selection или лог.регрессия рассчитана на до 60 000 наблюдений?
простите , что много вопросов, я стажируюсь, поэтому и возникают проблемы.