Логистическая регрессия, помогите понять

Логистическая регрессия, помогите понять

Felix77 Просмотр профиля	2.01.2020 - 08:23 Сообщение #1
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313	Доброго времени суток! понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate' https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

Ответов

ИНО Просмотр профиля	13.08.2022 - 04:02 Сообщение #2
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни. Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка. Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход. Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго.

100$ Просмотр профиля	13.08.2022 - 17:06 Сообщение #3
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 13.08.2022 - 04:02) Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни. Разработчики сообщают буквально следующее: Description This function compares two correlated (or paired) or uncorrelated (unpaired) ROC curves. Delong and bootstrap methods test for a difference in the (partial) AUC of the ROC curves. The Venka- traman method tests if the two curves are perfectly superposed. The sensitivity and specificity methods test if the sensitivity (respectively specificity) of the ROC curves are different at the given level of specificity (respectively sensitivity). Several syntaxes are available: two object of class roc (which can be AUC or smoothed ROC), or either three vectors (response, predictor1, predictor2) or a response vector and a matrix or data.frame with two columns (predictors). Usage roc.test(roc1, roc2, method=c("delong", "bootstrap","venkatraman", "sensitivity", "specificity"), ...) Не знаю, как все это разнообразие свести к Манну и Уитни. А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет. Цитата Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка. Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов. У меня просто руки не доходят сделать это в своих Экселевских самоделках. А где это реализовано в существующем ПО (если реализовано вообще) - не знаю. Цитата Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход. Патамушта мы хотим не просто констатировать, что один AIC на глаз меньше другого, а хотим располагать результатами формального теста, такого как обсуждаемый тест на равенство AUC. Цитата Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго. Очень согласен. Теорию про пермутированные важности здесь Огурцов уже выкладывал, осталось лишь разобраться с пакетами, в которых это есть. Борута для меня просто как точка отсчета.

ИНО Просмотр профиля	14.08.2022 - 01:31 Сообщение #4
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата(100$ @ 13.08.2022 - 17:06) А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет. До этого момента не было, теперь - есть. Вы что, не знаете про sci-hub? Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни. Хотя в руководстве к pROC действительно об этом не упоминается. Значит, это я читал в руководстве к какому-то иному пакету со схожими функциями. Цитата Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов. Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны). Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет. Сообщение отредактировал ИНО - 14.08.2022 - 01:33 Прикрепленные файлы Делонг___сравнение_AUC.pdf ( 996,08 килобайт ) Кол-во скачиваний: 140

100$ Просмотр профиля	14.08.2022 - 19:41 Сообщение #5
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 14.08.2022 - 01:31) До этого момента не было, теперь - есть. За статью спасибо. Цитата Вы что, не знаете про sci-hub? Честно, не знал. Досель пасся на Projecteuclid.org. Когда-то у меня была книжная полка на JSTOR'e. Потом накрылась медным тазом. Цитата Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны). Понятие случайного леса можно применить и к недревообразным классификаторам тож. Цитата Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет. Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты. Цитата Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни. Точнее, на метод обобщенных U-статистик Хёфдинга, коих Манна-Уитни является частным случаем.

ИНО Просмотр профиля	14.08.2022 - 22:18 Сообщение #6
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Сцай-хаб, Либген и Гугль-академия - три кита современной науки! Цитата(100$ @ 14.08.2022 - 19:41) Понятие случайного леса можно применить и к недревообразным классификаторам тож. А можете подкрепить это утверждение библиографической ссылкой& Ибо понятие леса без единого дерева приводит меня в прострацию. Конечно, можно представить ансамбль из любых моделей, по принципу обучения похожий на случайный лес, называть это лесом... хм. Цитата Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты. Осталось еще разобраться, какой метод расчета важностей выбрать, коих много больше трех. вообще. хорошая идея для "продуктивного анализа": перебирать все методы ранжировки до тех пор, пока желаемый исследователем предиктор не окажется на вершине. Такой вот новый инструмент датадреджинга в компанию к старым добрым ковровым бомбардировкам тестами и тысячестрчным корреляционным матрицам.

100$ Просмотр профиля	14.08.2022 - 23:53 Сообщение #7
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 14.08.2022 - 22:18) А можете подкрепить это утверждение библиографической ссылкой? Боюсь, что нет. Я просто знаю, что в работе Prinzie A., Poel D. Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB // Working paper, Department of Marketing, Ghent University, 2007. P. 1-12 базовые элементы Бреймановских алгоритмов - баггинг и подпространства Хо обобщены на наивный Байесовский классификатор и мультиномиальную логит-модель. Словосочетание Generalizing Random Forests to мне показалось достаточным, чтобы подобный анасамбль случайных NB и MNL назвать "лесом", не выясняя, сколько там деревьев, кустарников и травы выше человеческого роста. Сообщение отредактировал 100$ - 14.08.2022 - 23:53

Сообщений в этой теме

Felix77 Логистическая регрессия, помогите понять 2.01.2020 - 08:23

nokh Цитата(Felix77 @ 2.01.2020 - 10:23) ... 2.01.2020 - 19:54

Игорь Цитата(nokh @ 2.01.2020 - 20:54) У а... 8.01.2020 - 16:59

100$ Цитата(Игорь @ 8.01.2020 - 16:59) Не... 8.01.2020 - 17:14

Игорь Цитата(100$ @ 8.01.2020 - 18:14... 8.01.2020 - 20:06

100$ Цитата(Игорь @ 8.01.2020 - 20:06) Ка... 8.01.2020 - 22:29

Игорь Цитата(100$ @ 8.01.2020 - 23:29... 10.01.2020 - 08:20

nokh Цитата(Игорь @ 10.01.2020 - 10:20) .... 10.01.2020 - 09:56

100$ Цитата(Игорь @ 10.01.2020 - 08:20) П... 10.01.2020 - 13:53

Felix77 Спасибо! 3.01.2020 - 07:59

salm А подскажите, при введении в модель логистической ... 16.03.2022 - 21:37

nokh Цитата(salm @ 16.03.2022 - 23:37) А ... 21.03.2022 - 22:33

Anna_V Цитата(nokh @ 21.03.2022 - 22:33) Пр... 22.03.2022 - 07:02

nokh Цитата(Anna_V @ 22.03.2022 - 09:02) ... 23.03.2022 - 13:41

salm Цитата(nokh @ 21.03.2022 - 22:33) По... 30.03.2022 - 18:57

salm А скажите, корректно ли будет один количсетвенный ... 30.03.2022 - 09:01

nzbr Цитата(salm @ 30.03.2022 - 09:01) А ... 6.06.2022 - 07:50

salm Не подскажете: как диссертации грамотнообьяснить с... 6.04.2022 - 23:54

passant Цитата(salm @ 6.04.2022 - 23:54) Не ... 7.04.2022 - 10:37

salm Цитата(passant @ 7.04.2022 - 10:37) ... 7.04.2022 - 11:59

DoctorStat Цитата(salm @ 6.04.2022 - 23:54) Не ... 14.04.2022 - 09:47

salm Цитата(DoctorStat @ 14.04.2022 - 09... 10.05.2022 - 17:45

nzbr Цитата(salm @ 6.04.2022 - 23:54) Не ... 13.05.2022 - 15:25

salm Цитата(nzbr @ 13.05.2022 - 15:25) Я ... 16.05.2022 - 22:05

salm Доброго времени суток. Подскажите пожалуйста, могу... 10.05.2022 - 17:05

Игорь Цитата(salm @ 10.05.2022 - 18:05) в ... 11.05.2022 - 11:37

salm Цитата(Игорь @ 11.05.2022 - 11:37) Н... 16.05.2022 - 22:01

salm и еще: мне понять смысл AUC при построении прогно... 25.05.2022 - 09:53

ИНО Цитата(salm @ 25.05.2022 - 09:53) и ... 6.06.2022 - 11:25

salm Здравствуйте еще раз!!! А я могу испол... 30.06.2022 - 22:55

passant Цитата(salm @ 30.06.2022 - 22:55) Зд... 30.06.2022 - 23:54

salm Цитата(passant @ 30.06.2022 - 23:54)... 1.07.2022 - 09:27

ИНО А вот я категорически против. Когда факторов много... 1.07.2022 - 05:40

salm Цитата(ИНО @ 1.07.2022 - 05:40) А во... 1.07.2022 - 09:55

100$ Цитата(salm @ 1.07.2022 - 09:55) ...... 1.07.2022 - 17:45

ИНО Под "мусором" я подразумевал предикторы,... 1.07.2022 - 23:01

salm Цитата(ИНО @ 1.07.2022 - 23:01) Под ... 2.07.2022 - 15:47

salm А не подскажете ли как вычисляется в процентах, на... 2.07.2022 - 15:57

salm Цитата(salm @ 2.07.2022 - 15:57) А н... 3.07.2022 - 00:59

salm Я может, сейчас лишнее напишу)) но Вы, пожалуйста,... 2.07.2022 - 16:27

ИНО Цитатану доказать что старый-добрый не влияет -это... 2.07.2022 - 19:30

salm Цитата(ИНО @ 2.07.2022 - 19:30) Наск... 6.07.2022 - 09:06

ИНО ЦитатаЯ же аспирант, моя задача- это разобраться к... 2.07.2022 - 19:58

ИНО То, что Вы просите называется, "декомпозиция ... 3.07.2022 - 02:18

salm Цитата(ИНО @ 3.07.2022 - 02:18) То, ... 6.07.2022 - 08:53

salm Здравставуйте. Скажите пожалуйста, вот у меня ест... 12.08.2022 - 12:05

100$ ЦитатаМой вопрос - как мне сравнить AUC? Идейно т... 12.08.2022 - 13:03

salm Цитата(100$ @ 12.08.2022 - 13:0... 13.08.2022 - 11:18

100$ Цитата(salm @ 13.08.2022 - 11:18) Ща... 13.08.2022 - 17:12

ИНО Цитата(salm @ 13.08.2022 - 11:18) Оо... 14.08.2022 - 01:40

ИНО Если мне не изменяет память roc.test() использует ... 13.08.2022 - 04:02

100$ Цитата(ИНО @ 13.08.2022 - 04:02) Есл... 13.08.2022 - 17:06

ИНО Цитата(100$ @ 13.08.2022 - 17:0... 14.08.2022 - 01:31

100$ Цитата(ИНО @ 14.08.2022 - 01:31) До ... 14.08.2022 - 19:41

ИНО Сцай-хаб, Либген и Гугль-академия - три кита совре... 14.08.2022 - 22:18

100$ Цитата(ИНО @ 14.08.2022 - 22:18) А м... 14.08.2022 - 23:53

salm Здраааааствуйте!!! Я тупая, но упрямая... 14.08.2022 - 19:07

100$ Цитата(salm @ 14.08.2022 - 19:07) Зд... 14.08.2022 - 19:28

salm Цитата(100$ @ 14.08.2022 - 19:2... 15.08.2022 - 09:41

ИНО Просмотрел статью по Вашей ссылке. Авторы явно заб... 15.08.2022 - 08:04

100$ Цитата(ИНО @ 15.08.2022 - 08:04) В п... 15.08.2022 - 13:40

salm А подскажите пожалуйста)) Вот мне нужен простой а... 15.08.2022 - 10:24

100$ Цитата(salm @ 15.08.2022 - 10:24) Ме... 17.08.2022 - 20:20

ИНО Для начала почему у первых двух, этих-самых ... 16.08.2022 - 12:24

100$ Цитата(ИНО @ 16.08.2022 - 12:24) Для... 16.08.2022 - 15:16

ИНО salm, а Вы уверены, что нужна единая точка отсечки... 16.08.2022 - 16:44

100$ Цитата(ИНО @ 16.08.2022 - 16:44) Кст... 16.08.2022 - 21:29

ИНО Скажу больше: сегодня - не мой год, и такой уже 9-... 16.08.2022 - 22:55

100$ Цитата(ИНО @ 16.08.2022 - 22:55) Вы,... 17.08.2022 - 00:31

ИНО Видимо, у каждого свои ассоциации со словом ... 17.08.2022 - 05:54

100$ Цитата(ИНО @ 17.08.2022 - 05:54) Еще... 17.08.2022 - 12:12

ИНО Цитата(100$ @ 17.08.2022 - 12:1... 17.08.2022 - 17:08

100$ Цитата(ИНО @ 17.08.2022 - 17:08) Уме... 17.08.2022 - 20:17

ИНО Цитата(100$ @ 17.08.2022 - 20:1... 17.08.2022 - 20:41

100$ Цитата(ИНО @ 17.08.2022 - 20:41) Я н... 17.08.2022 - 20:56

passant salm "У меня программа строит график зависимо... 17.08.2022 - 16:37

salm Добрый лень. Спасибо, что отвечаете У меня есть од... 9.09.2022 - 18:48

100$ Цитата(salm @ 9.09.2022 - 18:48) Воз... 10.09.2022 - 00:07

ИНО Ну очень просто, да Кстати, так и не увидел, как... 11.09.2022 - 10:33

100$ Цитата(ИНО @ 11.09.2022 - 10:33) Кст... 11.09.2022 - 14:10

ИНО Зачем же сразу острить про Спортлото? Не раз уже п... 18.08.2022 - 06:14

ИНО Лень добрым не бывает! А с чего Вы взяли, что... 9.09.2022 - 21:40

salm Цитата(ИНО @ 9.09.2022 - 21:40) Лень... 9.09.2022 - 22:35

ИНО Опять Вы в какие-то дебри ноу-хау лезете. Диаграмм... 11.09.2022 - 17:16

100$ Я рассуждаю просто: вся информация о совместном ра... 11.09.2022 - 18:14

ИНО Ядерная оценка плотности - это не хухры-мухры... 12.09.2022 - 00:26

100$ А зачем такие страсти-мордасти? Выберу и тип окна,... 12.09.2022 - 01:47

ИНО Цитата(100$ @ 12.09.2022 - 01:4... 12.09.2022 - 19:35

100$ Цитата(ИНО @ 12.09.2022 - 19:35) А в... 12.09.2022 - 23:04

ИНО Цитата(100$ @ 12.09.2022 - 23:0... 13.09.2022 - 01:42

Leonov При использовании многомерного метода статистическ... 22.09.2022 - 16:41

Игорь Как надо делать: Hosmer D.W., Lemeshow S. Applied ... 24.09.2022 - 09:11

100$ Цитата(Игорь @ 24.09.2022 - 09:11) К... 25.09.2022 - 18:46

« Предыдущая тема · Медицинская статистика · Следующая тема »