![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Подскажите, пожалуйста, кто чем может)). Я делаю логистическую регрессию. Все предикторы биноминальные (0,1). Y-зависимая переменная(бинарная 0 - нет события(это хорошо), 1-есть событие(это плохо)). Дело в том, что нули к нулям, он мало мальски правильно соотносит, но 50% единиц(плохих) у него попадают к нулям(хорошим).Т.е. неверное определение. Как понять, почему так происходит и что сделать, чтобы улучшить классификацию, хотя бы до 85% точности?
Доп. инфо, я гуглила, и нашла метод Feature Selection и его реализацию в R Boruta. Выделила 6 предикторов, думала счастье рядом, сейчас построила модель, но не тут-то было, классификация такая же некачественная:(( Может что-то не то сделала?(( Что делать? (с)(Чернышевский Н.Г.)
Прикрепленные файлы
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Да, Вы правы! p2004r, последний вопрос, интерпретационного плана. Имею ли я право вероятности до 0.7 не принимать в расчет?
Например, у меня наблюдение класса "0", но предсказал вероятность 0,62(арифметически округлим - это единица будет). Есть и 0,76(тут я считаю за неверную классификацию). Я считаю, что меньше 0,7 вообще не стоит рассматривать вероятность. Скажите, права я или нет? |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Да, Вы правы! p2004r, последний вопрос, интерпретационного плана. Имею ли я право вероятности до 0.7 не принимать в расчет? Например, у меня наблюдение класса "0", но предсказал вероятность 0,62(арифметически округлим - это единица будет). Есть и 0,76(тут я считаю за неверную классификацию). Я считаю, что меньше 0,7 вообще не стоит рассматривать вероятность. Скажите, права я или нет? Это называется "точка принятия решения" -- thresholds. Вся ROC состоит по сути из этих точек. Выбрать наилучшую точку принятия решения можно зная частоты исходов в популяции и соотношение стоимости ошибок первого и второго рода. Код In addition, weights can be supplied if false positive and false
negative predictions are not equivalent: a numeric vector of length 2 to the ?best.weights? argument. The indices define 1. the cost of of a false negative classification 2. the prevalence, or the proportion of cases in the total population (n.cases/(n.controls+n.cases)). The optimality criteria are modified as proposed by Perkins and Schisterman: ?youden? max(sensitivities + r \times specificities) ?closest.topleft? min((1 - sensitivities)^2 + r \times (1- specificities)^2) with r = (1 - prevalence) / (cost * prevalence) By default, prevalence is 0.5 and cost is 1 so that no weight is applied in effect. Note that several thresholds might be equally optimal. References: Neil J. Perkins, Enrique F. Schisterman (2006) ``The Inconsistency of "Optimal" Cutpoints Obtained using Two Criteria based on the Receiver Operating Characteristic Curve''. _American Journal of Epidemiology_ *163*(7), 670-675. DOI: 10.1093/aje/kwj063. ![]() |
|
![]() |
![]() |
![]() ![]() |