Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Логистическая регрессия, помогите понять
Felix77
сообщение 2.01.2020 - 08:23
Сообщение #1





Группа: Пользователи
Сообщений: 10
Регистрация: 30.04.2018
Пользователь №: 31313



Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
passant
сообщение 17.08.2022 - 16:37
Сообщение #2





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?"

Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм.

Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял.

Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная?

Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&sh...ost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего???

Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ?
Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше).

Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом).

Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи.

Сообщение отредактировал passant - 17.08.2022 - 16:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 9.09.2022 - 18:48
Сообщение #3





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Добрый лень. Спасибо, что отвечаете
У меня есть один классический предиктор - он бинарный. Вторая обьясняющая периенная добавляемая в модель -она по непрерывной шкале измеренна. Вот их всего две, я получаю модель с коэффициентами. Изначально я так делаю, чтобы показать что Добавление в модель этой непрерывной переменной при прогнозирования вероятности исхода улучшает всю модель ( ну то есть как я это понимаю, каждому участнику из моей выборки будет присвоено значение вероятности наиблизкое к истинному (заодно проверю свои знания)))? почему только два предиктора: ну вот в данном случае, меня интересуют только они
Из таблицы сопряжен у меня есть показатели чувствительности и специфичности для бинарного предиктора ( тот что первый фактор)
Я, добавляя непрерывную переменную в модель бинарной лог регрессии улучшаю ее ( я понимаю что улучшение и состоит в том что каждому пациенту будет присвоена вероятность от 0 до 1 более точная) но при этом оптимальное пороговое значение я могу выбрать для значения вероятности. А мне не это надо))))
Мне надо с учетом того первого бинарного фактора найти оптимальную точку для непрерывной переменной (для второго фактора) с тем, чтобы получить простой диагностический алгоритм (ну назову его так))) вот при одновременном положительном значении первого фактора и второго нтже конкретной (искомой мной) пороговой точки я получаю Ч и С такую то
Ну то есть оптимальный порог при рок анализе один, а при комбинации в логоегрессии с бинарным фактором, он другой, если я хочу долю истиный ответов увеличить и это возможно..
Оптимальная пороговая величина в комбинации с доугим предиктором другая. Я понимаю что это не входит в задачи при построении регрессионной модели, но мне каааажется))) что связь то есть)) и так возможно
Возможно? Может, с помощью этого графика выделить оптимальную точку вероятности и сопоставить ее со значением непрерывной переменной?..
а задача ну изначально несложная - комбинировать два предиктора ( бинарный и непрерывный) в таблицу 4на 4, и высислить Ч и С
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 10.09.2022 - 00:07
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(salm @ 9.09.2022 - 18:48) *
Возможно?


Возможно. Причем до смешного просто: надо оценить логистическую регрессию с одним-единственным вспомогательным регрессором - плотностью совместного распределения дихотомическаго и непрерывнаго регрессоров.
С последующим ROC-анализом. Как учили.

Правда, предстоит много сопутствующей работы:
а) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

б) с помощью техники k-folds crossvalidation оценить обобщающую способность модели.

Пользоваться такой конструкцией будет тоже очень просто: пришел пациент с таким-то значением дихотомической и таким-то значением непрерывной переменной. По обучающей выборке (той, по которой оценивали модель) быстренько оцениваем ядерную плотность непрерывного регрессора для вновь поступившего объекта, умножаем ее на оцененный по выборке параметр биномиального распределения (по данным дихотомической переменной) и полученную плотность совместного распределениия закидываем в оцененное уравнение регрессии. Voila!

С такой диссертацией под мышкой дверь на заседание диссертационного Совета можно ногой открывать.

Сообщение отредактировал 100$ - 10.09.2022 - 00:31
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 11.09.2022 - 10:33
Сообщение #5





Группа: Пользователи
Сообщений: 290
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Ну очень просто, да biggrin.gif Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной? Или да ну ее на фиг, странную задачу эту? Вообще, идея здравая - нечего информацией разбрасываться. Однако тогда чем обычная двухфакторная логистическая регрессия не угодила?

Цитата(100$ @ 10.09.2022 - 00:07) *
сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

Странное утверждение. Любой предиктор полезен, если действительно уменьшает ошибку предсказания, пусть даже всего на 1%. Иное дело, что на практике затраты на сбор дополнительных данных для такого небольшого улучшения может не стоить свеч, но это уже не предмет статистики.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 11.09.2022 - 14:10
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(ИНО @ 11.09.2022 - 10:33) *
Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной?


Таковой будет точка максимальной совместной плотности, если она (точка) существует.

Кроме того, существует техника дискриминантного анализа дихотомических переменных (Гибб, Штремель, 2015), пакет {binDA}
Тогда, видимо, придется решать переборную задачу: выбираем произвольный порог отсечения, классифицируем, смотрим качество классификации.
И так много раз.
Метод также в качестве бонуса выдает диаграммку важности предикторов.

Сообщение отредактировал 100$ - 11.09.2022 - 14:18
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Felix77   Логистическая регрессия, помогите понять   2.01.2020 - 08:23
- - nokh   Цитата(Felix77 @ 2.01.2020 - 10:23) ...   2.01.2020 - 19:54
|- - Игорь   Цитата(nokh @ 2.01.2020 - 20:54) У а...   8.01.2020 - 16:59
|- - 100$   Цитата(Игорь @ 8.01.2020 - 16:59) Не...   8.01.2020 - 17:14
|- - Игорь   Цитата(100$ @ 8.01.2020 - 18:14...   8.01.2020 - 20:06
|- - 100$   Цитата(Игорь @ 8.01.2020 - 20:06) Ка...   8.01.2020 - 22:29
|- - Игорь   Цитата(100$ @ 8.01.2020 - 23:29...   10.01.2020 - 08:20
|- - nokh   Цитата(Игорь @ 10.01.2020 - 10:20) ....   10.01.2020 - 09:56
|- - 100$   Цитата(Игорь @ 10.01.2020 - 08:20) П...   10.01.2020 - 13:53
- - Felix77   Спасибо!   3.01.2020 - 07:59
- - salm   А подскажите, при введении в модель логистической ...   16.03.2022 - 21:37
|- - nokh   Цитата(salm @ 16.03.2022 - 23:37) А ...   21.03.2022 - 22:33
|- - Anna_V   Цитата(nokh @ 21.03.2022 - 22:33) Пр...   22.03.2022 - 07:02
||- - nokh   Цитата(Anna_V @ 22.03.2022 - 09:02) ...   23.03.2022 - 13:41
|- - salm   Цитата(nokh @ 21.03.2022 - 22:33) По...   30.03.2022 - 18:57
- - salm   А скажите, корректно ли будет один количсетвенный ...   30.03.2022 - 09:01
|- - nzbr   Цитата(salm @ 30.03.2022 - 09:01) А ...   6.06.2022 - 07:50
- - salm   Не подскажете: как диссертации грамотнообьяснить с...   6.04.2022 - 23:54
|- - passant   Цитата(salm @ 6.04.2022 - 23:54) Не ...   7.04.2022 - 10:37
||- - salm   Цитата(passant @ 7.04.2022 - 10:37) ...   7.04.2022 - 11:59
|- - DoctorStat   Цитата(salm @ 6.04.2022 - 23:54) Не ...   14.04.2022 - 09:47
||- - salm   Цитата(DoctorStat @ 14.04.2022 - 09...   10.05.2022 - 17:45
|- - nzbr   Цитата(salm @ 6.04.2022 - 23:54) Не ...   13.05.2022 - 15:25
|- - salm   Цитата(nzbr @ 13.05.2022 - 15:25) Я ...   16.05.2022 - 22:05
- - salm   Доброго времени суток. Подскажите пожалуйста, могу...   10.05.2022 - 17:05
|- - Игорь   Цитата(salm @ 10.05.2022 - 18:05) в ...   11.05.2022 - 11:37
|- - salm   Цитата(Игорь @ 11.05.2022 - 11:37) Н...   16.05.2022 - 22:01
- - salm   и еще: мне понять смысл AUC при построении прогно...   25.05.2022 - 09:53
|- - ИНО   Цитата(salm @ 25.05.2022 - 09:53) и ...   6.06.2022 - 11:25
- - salm   Здравствуйте еще раз!!! А я могу испол...   30.06.2022 - 22:55
|- - passant   Цитата(salm @ 30.06.2022 - 22:55) Зд...   30.06.2022 - 23:54
|- - salm   Цитата(passant @ 30.06.2022 - 23:54)...   1.07.2022 - 09:27
- - ИНО   А вот я категорически против. Когда факторов много...   1.07.2022 - 05:40
|- - salm   Цитата(ИНО @ 1.07.2022 - 05:40) А во...   1.07.2022 - 09:55
|- - 100$   Цитата(salm @ 1.07.2022 - 09:55) ......   1.07.2022 - 17:45
- - ИНО   Под "мусором" я подразумевал предикторы,...   1.07.2022 - 23:01
|- - salm   Цитата(ИНО @ 1.07.2022 - 23:01) Под ...   2.07.2022 - 15:47
- - salm   А не подскажете ли как вычисляется в процентах, на...   2.07.2022 - 15:57
|- - salm   Цитата(salm @ 2.07.2022 - 15:57) А н...   3.07.2022 - 00:59
- - salm   Я может, сейчас лишнее напишу)) но Вы, пожалуйста,...   2.07.2022 - 16:27
- - ИНО   Цитатану доказать что старый-добрый не влияет -это...   2.07.2022 - 19:30
|- - salm   Цитата(ИНО @ 2.07.2022 - 19:30) Наск...   6.07.2022 - 09:06
- - ИНО   ЦитатаЯ же аспирант, моя задача- это разобраться к...   2.07.2022 - 19:58
- - ИНО   То, что Вы просите называется, "декомпозиция ...   3.07.2022 - 02:18
|- - salm   Цитата(ИНО @ 3.07.2022 - 02:18) То, ...   6.07.2022 - 08:53
- - salm   Здравставуйте. Скажите пожалуйста, вот у меня ест...   12.08.2022 - 12:05
- - 100$   ЦитатаМой вопрос - как мне сравнить AUC? Идейно т...   12.08.2022 - 13:03
|- - salm   Цитата(100$ @ 12.08.2022 - 13:0...   13.08.2022 - 11:18
|- - 100$   Цитата(salm @ 13.08.2022 - 11:18) Ща...   13.08.2022 - 17:12
|- - ИНО   Цитата(salm @ 13.08.2022 - 11:18) Оо...   14.08.2022 - 01:40
- - ИНО   Если мне не изменяет память roc.test() использует ...   13.08.2022 - 04:02
|- - 100$   Цитата(ИНО @ 13.08.2022 - 04:02) Есл...   13.08.2022 - 17:06
|- - ИНО   Цитата(100$ @ 13.08.2022 - 17:0...   14.08.2022 - 01:31
|- - 100$   Цитата(ИНО @ 14.08.2022 - 01:31) До ...   14.08.2022 - 19:41
|- - ИНО   Сцай-хаб, Либген и Гугль-академия - три кита совре...   14.08.2022 - 22:18
|- - 100$   Цитата(ИНО @ 14.08.2022 - 22:18) А м...   14.08.2022 - 23:53
- - salm   Здраааааствуйте!!! Я тупая, но упрямая...   14.08.2022 - 19:07
|- - 100$   Цитата(salm @ 14.08.2022 - 19:07) Зд...   14.08.2022 - 19:28
|- - salm   Цитата(100$ @ 14.08.2022 - 19:2...   15.08.2022 - 09:41
- - ИНО   Просмотрел статью по Вашей ссылке. Авторы явно заб...   15.08.2022 - 08:04
|- - 100$   Цитата(ИНО @ 15.08.2022 - 08:04) В п...   15.08.2022 - 13:40
- - salm   А подскажите пожалуйста)) Вот мне нужен простой а...   15.08.2022 - 10:24
|- - 100$   Цитата(salm @ 15.08.2022 - 10:24) Ме...   17.08.2022 - 20:20
- - ИНО   Для начала почему у первых двух, этих-самых ...   16.08.2022 - 12:24
|- - 100$   Цитата(ИНО @ 16.08.2022 - 12:24) Для...   16.08.2022 - 15:16
- - ИНО   salm, а Вы уверены, что нужна единая точка отсечки...   16.08.2022 - 16:44
|- - 100$   Цитата(ИНО @ 16.08.2022 - 16:44) Кст...   16.08.2022 - 21:29
- - ИНО   Скажу больше: сегодня - не мой год, и такой уже 9-...   16.08.2022 - 22:55
|- - 100$   Цитата(ИНО @ 16.08.2022 - 22:55) Вы,...   17.08.2022 - 00:31
- - ИНО   Видимо, у каждого свои ассоциации со словом ...   17.08.2022 - 05:54
|- - 100$   Цитата(ИНО @ 17.08.2022 - 05:54) Еще...   17.08.2022 - 12:12
|- - ИНО   Цитата(100$ @ 17.08.2022 - 12:1...   17.08.2022 - 17:08
|- - 100$   Цитата(ИНО @ 17.08.2022 - 17:08) Уме...   17.08.2022 - 20:17
|- - ИНО   Цитата(100$ @ 17.08.2022 - 20:1...   17.08.2022 - 20:41
|- - 100$   Цитата(ИНО @ 17.08.2022 - 20:41) Я н...   17.08.2022 - 20:56
- - passant   salm "У меня программа строит график зависимо...   17.08.2022 - 16:37
|- - salm   Добрый лень. Спасибо, что отвечаете У меня есть од...   9.09.2022 - 18:48
|- - 100$   Цитата(salm @ 9.09.2022 - 18:48) Воз...   10.09.2022 - 00:07
|- - ИНО   Ну очень просто, да Кстати, так и не увидел, как...   11.09.2022 - 10:33
|- - 100$   Цитата(ИНО @ 11.09.2022 - 10:33) Кст...   11.09.2022 - 14:10
- - ИНО   Зачем же сразу острить про Спортлото? Не раз уже п...   18.08.2022 - 06:14
- - ИНО   Лень добрым не бывает! А с чего Вы взяли, что...   9.09.2022 - 21:40
|- - salm   Цитата(ИНО @ 9.09.2022 - 21:40) Лень...   9.09.2022 - 22:35
- - ИНО   Опять Вы в какие-то дебри ноу-хау лезете. Диаграмм...   11.09.2022 - 17:16
|- - 100$   Я рассуждаю просто: вся информация о совместном ра...   11.09.2022 - 18:14
- - ИНО   Ядерная оценка плотности - это не хухры-мухры...   12.09.2022 - 00:26
- - 100$   А зачем такие страсти-мордасти? Выберу и тип окна,...   12.09.2022 - 01:47
|- - ИНО   Цитата(100$ @ 12.09.2022 - 01:4...   12.09.2022 - 19:35
|- - 100$   Цитата(ИНО @ 12.09.2022 - 19:35) А в...   12.09.2022 - 23:04
|- - ИНО   Цитата(100$ @ 12.09.2022 - 23:0...   13.09.2022 - 01:42
- - Leonov   При использовании многомерного метода статистическ...   22.09.2022 - 16:41
- - Игорь   Как надо делать: Hosmer D.W., Lemeshow S. Applied ...   24.09.2022 - 09:11
- - 100$   Цитата(Игорь @ 24.09.2022 - 09:11) К...   25.09.2022 - 18:46


Добавить ответ в эту темуОткрыть тему