Логистическая регрессия в R - Форум врачей-аспирантов

Логистическая регрессия в R

nastushka Просмотр профиля	28.06.2017 - 01:29 Сообщение #1
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	Подскажите, пожалуйста, кто чем может)). Я делаю логистическую регрессию. Все предикторы биноминальные (0,1). Y-зависимая переменная(бинарная 0 - нет события(это хорошо), 1-есть событие(это плохо)). Дело в том, что нули к нулям, он мало мальски правильно соотносит, но 50% единиц(плохих) у него попадают к нулям(хорошим).Т.е. неверное определение. Как понять, почему так происходит и что сделать, чтобы улучшить классификацию, хотя бы до 85% точности? Доп. инфо, я гуглила, и нашла метод Feature Selection и его реализацию в R Boruta. Выделила 6 предикторов, думала счастье рядом, сейчас построила модель, но не тут-то было, классификация такая же некачественная:(( Может что-то не то сделала?(( Что делать? (с)(Чернышевский Н.Г.) Прикрепленные файлы data.zip ( 5,13 килобайт ) Кол-во скачиваний: 357

Ответов

nastushka Просмотр профиля	5.08.2017 - 17:10 Сообщение #2
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375	p2004r, здравствуйте, решила написать в своем же топике, но теперь тут другой скоринг (Раньше плохой, хороший), а сейчас купит-не купит услугу(id is dep var) Логистическая регрессия здесь, показала ужасные результаты, почти все нули(те, кто не купили) были правильно к своему классу отнесены, а единицы(те кто купили) также к нулям. Все что смогла сама сделать, это Дискриминантный анализ в SPSS, вроде показал точность 60%, но это ни о чем. Сильная перемешка кейсов. Можете подсказать, как мне модель выровнять? С регрессией что спсс, что статистика также ,как и R показывали такой результат. Тут нужно только через ДА. acc=read.csv("C:/Users/Admin/Desktop/buyning.csv", sep=";",dec=",") getwd() > acc$profitValueList=as.numeric(acc$profitValueList) > acc$revenueValueList=as.numeric(acc$revenueValueList) > acc$courtPracticeList=as.numeric(acc$courtPracticeList) > acc$digestRedList=as.numeric(acc$digestRedList) > acc$digestGreyList=as.numeric(acc$digestGreyList) > acc$digestGreenList=as.numeric(acc$digestGreenList) > acc$linkedEntitiesByCeoNumList=as.numeric(acc$linkedEntitiesByCeoNumList) > acc$linkedEntitiesByFounderNumList=as.numeric(acc$linkedEntitiesByFounderNumList) > acc$linkedEntitiesChildrenNumList=as.numeric(acc$linkedEntitiesChildrenNumList) > acc$capitalList=as.numeric(acc$capitalList) > acc$gosWinnerNumList=as.numeric(acc$gosWinnerNumList) > acc$gosWinnerSumList=as.numeric(acc$gosWinnerSumList) > acc$gosPlacerNumList=as.numeric(acc$gosPlacerNumList) > acc$gosPlacerSumList=as.numeric(acc$gosPlacerSumList) > acc$inspectionsInFutureNumList=as.numeric(acc$inspectionsInFutureNumList) > acc$inspectionsHasViolationsNumList=as.numeric(acc$inspectionsHasViolationsNumList) > acc$inspectionsNoViolationsNumList=as.numeric(acc$inspectionsNoViolationsNumList) > acc$inspectionsHasViolationsFailsList=as.numeric(acc$inspectionsHasViolationsFailsList) > acc$Выручка=as.numeric(acc$Выручка) > acc$Прибыль=as.numeric(acc$Прибыль) > acc$Убыток=as.numeric(acc$Убыток) > acc$Баланс=as.numeric(acc$Баланс) > acc$Директор.Учредитель=as.numeric(acc$Директор.Учредитель) > acc$Директор.отдельно=as.numeric(acc$Директор.отдельно) > acc$Учредитель.отдельно=as.numeric(acc$Учредитель.отдельно) > index <- sample(1:nrow(acc),round(0.75nrow(acc))) > train <- acc[index,] > test <- acc[-index,] > library("MASS") > fitTrn =lda(id~.,data=train) Error in lda.default(x, grouping, ...) : ошибка была variables 15 16 appear to be constant within groups Как мне хотя бы маломальски точную классификацию получить? Прикрепленные файлы* buyning.zip ( 221,87 килобайт ) Кол-во скачиваний: 271

p2004r

6.08.2017 - 14:29

Сообщение #3

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(nastushka @ 5.08.2017 - 17:10)

p2004r, здравствуйте, решила написать в своем же топике, но теперь тут другой скоринг (Раньше плохой, хороший), а сейчас купит-не купит услугу(id is dep var)

Логистическая регрессия здесь, показала ужасные результаты, почти все нули(те, кто не купили) были правильно к своему классу отнесены, а единицы(те кто купили) также к нулям.
Все что смогла сама сделать, это Дискриминантный анализ в SPSS, вроде показал точность 60%, но это ни о чем. Сильная перемешка кейсов. Можете подсказать, как мне модель выровнять?
С регрессией что спсс, что статистика также ,как и R показывали такой результат. Тут нужно только через ДА.

acc=read.csv("C:/Users/Admin/Desktop/buyning.csv", sep=";",dec=",")

getwd()

> acc$profitValueList=as.numeric(acc$profitValueList)
> acc$revenueValueList=as.numeric(acc$revenueValueList)
> acc$courtPracticeList=as.numeric(acc$courtPracticeList)
> acc$digestRedList=as.numeric(acc$digestRedList)
> acc$digestGreyList=as.numeric(acc$digestGreyList)
> acc$digestGreenList=as.numeric(acc$digestGreenList)
> acc$linkedEntitiesByCeoNumList=as.numeric(acc$linkedEntitiesByCeoNumList)
> acc$linkedEntitiesByFounderNumList=as.numeric(acc$linkedEntitiesByFounderNumList)
> acc$linkedEntitiesChildrenNumList=as.numeric(acc$linkedEntitiesChildrenNumList)
> acc$capitalList=as.numeric(acc$capitalList)
> acc$gosWinnerNumList=as.numeric(acc$gosWinnerNumList)
> acc$gosWinnerSumList=as.numeric(acc$gosWinnerSumList)
> acc$gosPlacerNumList=as.numeric(acc$gosPlacerNumList)
> acc$gosPlacerSumList=as.numeric(acc$gosPlacerSumList)
> acc$inspectionsInFutureNumList=as.numeric(acc$inspectionsInFutureNumList)
> acc$inspectionsHasViolationsNumList=as.numeric(acc$inspectionsHasViolationsNumList)
> acc$inspectionsNoViolationsNumList=as.numeric(acc$inspectionsNoViolationsNumList)
> acc$inspectionsHasViolationsFailsList=as.numeric(acc$inspectionsHasViolationsFailsList)
> acc$Выручка=as.numeric(acc$Выручка)
> acc$Прибыль=as.numeric(acc$Прибыль)
> acc$Убыток=as.numeric(acc$Убыток)
> acc$Баланс=as.numeric(acc$Баланс)
> acc$Директор.Учредитель=as.numeric(acc$Директор.Учредитель)
> acc$Директор.отдельно=as.numeric(acc$Директор.отдельно)
> acc$Учредитель.отдельно=as.numeric(acc$Учредитель.отдельно)

> index <- sample(1:nrow(acc),round(0.75*nrow(acc)))
> train <- acc[index,]
> test <- acc[-index,]

> library("MASS")

> fitTrn =lda(id~.,data=train)
Error in lda.default(x, grouping, ...) :

ошибка была
variables 15 16 appear to be constant within groups

Как мне хотя бы маломальски точную классификацию получить?

Поздравляю, на этот раз "генерация данных" прошла лучше

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

Ответить с цитированием данного сообщения

Сообщений в этой теме

nastushka Логистическая регрессия в R 28.06.2017 - 01:29

p2004r Цитата(nastushka @ 28.06.2017 - 01:2... 28.06.2017 - 08:07

leo_biostat Цитата(nastushka @ 28.06.2017 - 01:2... 28.06.2017 - 08:34

Олег Кравец Цитата(leo_biostat @ 28.06.2017 - 08... 28.06.2017 - 18:32

p2004r Цитата(nastushka @ 28.06.2017 - 01:2... 28.06.2017 - 18:40

p2004r Цитата(nastushka @ 28.06.2017 - 01:2... 28.06.2017 - 19:46

nastushka p2004r, суперски leo_biostat, а можете как и p2004... 28.06.2017 - 20:39

p2004r Цитата(nastushka @ 28.06.2017 - 20:3... 28.06.2017 - 23:14

nastushka Что касается данных, то такие переменные как: x3 x... 28.06.2017 - 21:23

nokh Цитата(nastushka @ 29.06.2017 - 00:2... 28.06.2017 - 22:38

nastushka nokh, а как это сделать?)) Имеете ввиду регрессию ... 29.06.2017 - 11:46

nastushka манагер одобрил удалять совпадающие наблюдения Под... 29.06.2017 - 18:01

p2004r Цитата(nastushka @ 29.06.2017 - 18:0... 29.06.2017 - 19:49

nastushka фух) я запарилась в ручную это перебирать)) p2004r... 30.06.2017 - 18:23

p2004r Цитата(nastushka @ 30.06.2017 - 18:2... 30.06.2017 - 23:53

nastushka p2004r смотрите, у меня родилась мысль вот резуль... 2.07.2017 - 15:21

p2004r Цитата(nastushka @ 2.07.2017 - 15:21... 2.07.2017 - 15:42

nastushka p2004r, у меня все получилось:) Но возник такой в... 2.07.2017 - 20:54

p2004r Цитата(nastushka @ 2.07.2017 - 20:54... 3.07.2017 - 22:13

nastushka Терпение и труд, все перетрут) Сделала, но вот гуг... 3.07.2017 - 17:25

p2004r Цитата(nastushka @ 3.07.2017 - 17:25... 3.07.2017 - 22:10

nastushka К сожалению вопросы есть Кодstr(df) ... 4.07.2017 - 13:23

p2004r Цитата(nastushka @ 4.07.2017 - 13:23... 4.07.2017 - 20:18

nastushka Y это isOneDay поскольку мне сдавать нужно ,я пере... 4.07.2017 - 14:54

nastushka Да, Вы правы! p2004r, последний вопрос, интерп... 5.07.2017 - 17:51

p2004r Цитата(nastushka @ 5.07.2017 - 17:51... 5.07.2017 - 21:33

nastushka с RoC получилось разобраться. А как мне в отчете п... 6.07.2017 - 17:15

p2004r Цитата(nastushka @ 6.07.2017 - 17:15... 8.07.2017 - 23:06

nastushka p2004r, подскажите я рассчитала spec and sens как ... 12.07.2017 - 15:08

nastushka spec=0,06,sens=0.94 12.07.2017 - 15:12

p2004r Цитата(nastushka @ 12.07.2017 - 15:1... 12.07.2017 - 18:49

nastushka И такой вопросик data(ROCR.simple) threshold1 ... 12.07.2017 - 18:34

p2004r Цитата(nastushka @ 12.07.2017 - 18:3... 12.07.2017 - 18:43

nokh Похоже мой ответ на письмо в личку не дошёл, дубли... 12.07.2017 - 18:35

p2004r Цитата(nokh @ 12.07.2017 - 18:35) По... 12.07.2017 - 18:41

nastushka не-не он дошел, только что прочла:))) 12.07.2017 - 18:36

nastushka поняла 12.07.2017 - 18:56

nastushka я просто так считала 12.07.2017 - 18:59

nastushka sensetivity=tp/(tp+fn) доля верных предсказаний п... 12.07.2017 - 19:00

DrgLena spe=1-0,06=0,94 12.07.2017 - 19:24

nastushka вы имеете ввиду, что 0,06 это чувствительность? 12.07.2017 - 19:46

100$ Цитата(nastushka @ 12.07.2017 - 19:4... 12.07.2017 - 20:35

DrgLena Нет, вы привели таблицу из которой можно посчитат... 12.07.2017 - 20:37

nastushka все поняла ошибку. 12.07.2017 - 20:45

nastushka p2004r, здравствуйте, решила написать в своем же т... 5.08.2017 - 17:10

p2004r Цитата(nastushka @ 5.08.2017 - 17:10... 6.08.2017 - 14:29

nastushka у меня AUc=0.55, в R считала, неужели мне никак мо... 6.08.2017 - 14:57

p2004r Цитата(nastushka @ 6.08.2017 - 14:57... 6.08.2017 - 16:39

nastushka Кстати точно, попробую, прологарифмировать. Подска... 6.08.2017 - 17:53

p2004r Цитата(nastushka @ 6.08.2017 - 17:53... 6.08.2017 - 20:19

nastushka p2004r, подскажите, пожалуйста, а как мне нарисова... 8.08.2017 - 11:45

p2004r Цитата(nastushka @ 8.08.2017 - 11:45... 8.08.2017 - 19:08

nastushka p2004r, Ваше мнение, как Вы считаете имеет ли мест... 9.08.2017 - 15:43

p2004r Цитата(nastushka @ 9.08.2017 - 15:43... 10.08.2017 - 00:16

nastushka Т.е. вы считаете, что такую верификацию из двух ме... 10.08.2017 - 11:16

p2004r Цитата(nastushka @ 10.08.2017 - 11:1... 10.08.2017 - 16:50

nastushka p2004r, я пробовала работать с тремя этими пакетам... 12.08.2017 - 13:35

p2004r Цитата(nastushka @ 12.08.2017 - 13:3... 14.08.2017 - 16:27

« Предыдущая тема · Медицинская статистика · Следующая тема »