![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Подскажите, пожалуйста, кто чем может)). Я делаю логистическую регрессию. Все предикторы биноминальные (0,1). Y-зависимая переменная(бинарная 0 - нет события(это хорошо), 1-есть событие(это плохо)). Дело в том, что нули к нулям, он мало мальски правильно соотносит, но 50% единиц(плохих) у него попадают к нулям(хорошим).Т.е. неверное определение. Как понять, почему так происходит и что сделать, чтобы улучшить классификацию, хотя бы до 85% точности?
Доп. инфо, я гуглила, и нашла метод Feature Selection и его реализацию в R Boruta. Выделила 6 предикторов, думала счастье рядом, сейчас построила модель, но не тут-то было, классификация такая же некачественная:(( Может что-то не то сделала?(( Что делать? (с)(Чернышевский Н.Г.)
Прикрепленные файлы
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
манагер одобрил удалять совпадающие наблюдения
Подскажите, как это сделать? table(do.call(paste0,as.list(df[,-1])), df$Y) Т.е. нашла наблюдение, как их удалять? |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
манагер одобрил удалять совпадающие наблюдения Подскажите, как это сделать? table(do.call(paste0,as.list(df[,-1])), df$Y) Т.е. нашла наблюдение, как их удалять? Вот эти "склеенные" которые имеют _точно_ одинаковое число в 0 и 1 исходах надо попробовать (каждое по очереди) удалить сначала из 0 и смотреть на то как реагирует статистика модели. Выделить достаточно просто, вот номера первой строчки из таблицы, которые по Y равны "0": Код > which(do.call(paste0,as.list(df[,-1]))=="0000000000000000" & df$Y == "0") [1] 778 852 1149 1150 1219 1231 1259 1307 1373 1375 1382 1413 1611 1643 1652 [16] 1683 1720 1743 1746 1770 1776 1784 1785 1814 1854 1889 1893 1914 1933 1947 [31] 1960 1962 1978 2000 2011 2018 как видим их и есть 36 Сообщение отредактировал p2004r - 29.06.2017 - 21:14 ![]() |
|
![]() |
![]() |
![]() ![]() |