Логистическая регрессия, помогите понять - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

7 страниц

1 2 3 > »

Добавить ответ в эту тему

Открыть тему

Логистическая регрессия, помогите понять

Felix77 Просмотр профиля	2.01.2020 - 08:23 Сообщение #1
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313	Доброго времени суток! понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate' https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

nokh Просмотр профиля	2.01.2020 - 19:54 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Felix77 @ 2.01.2020 - 10:23) Доброго времени суток! понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate' https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3 У автора цитируемого блога в расчётах есть ошибка. Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере. Логит=Свободный член + Фактор1Коэффициент1 + Фактор2Коэффициент2 + ... Логит=-3,989979+7900,002264+3,80,804038=0,8539254 Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше). Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на: > predicted.logit<-predict(logit,x) > predicted.logit 1 0.85426 > p=1/(1+exp(-predicted.logit)) > p 1 0.70146 Соответственно, вероятность Р=0,70146 (а если не рассматривать порядковые данные как номинальные, то P=0,6803324) Сообщение отредактировал nokh - 2.01.2020 - 20:34

Felix77 Просмотр профиля	3.01.2020 - 07:59 Сообщение #3
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313	Спасибо!

Игорь Просмотр профиля	8.01.2020 - 16:59 Сообщение #4
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 2.01.2020 - 20:54) У автора цитируемого блога в расчётах есть ошибка. Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере. Логит=Свободный член + Фактор1Коэффициент1 + Фактор2Коэффициент2 + ... Логит=-3,989979+7900,002264+3,80,804038=0,8539254 Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше). Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на: Не могу согласиться с данным во втором и третьем абзацах определением логита. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

100$ Просмотр профиля	8.01.2020 - 17:14 Сообщение #5
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Игорь @ 8.01.2020 - 16:59) Не могу согласиться с данным во втором и третьем абзацах определением логита. Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Игорь Просмотр профиля	8.01.2020 - 20:06 Сообщение #6
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(100$ @ 8.01.2020 - 18:14) Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет. Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией. Сообщение отредактировал Игорь - 8.01.2020 - 20:07 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

100$ Просмотр профиля	8.01.2020 - 22:29 Сообщение #7
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Игорь @ 8.01.2020 - 20:06) Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Непосредственное. Цитата Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией. Которая моделирует Ln(Pi/(1-Pi)) Вы растренировались, Игорь.

Игорь Просмотр профиля	10.01.2020 - 08:20 Сообщение #8
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(100$ @ 8.01.2020 - 23:29) Непосредственное. Которая моделирует Ln(Pi/(1-Pi)) Вы растренировались, Игорь. Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	10.01.2020 - 09:56 Сообщение #9
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Игорь @ 10.01.2020 - 10:20) ... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь. В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php

100$ Просмотр профиля	10.01.2020 - 13:53 Сообщение #10
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Игорь @ 10.01.2020 - 08:20) Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. Игорь, дайте, пожалуйста, отдохнуть вашему фонтану.

salm Просмотр профиля	16.03.2022 - 21:37 Сообщение #11
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также? и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются... и еще: с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?... Спасибо заранее, извините, если чего неверно изложила... Сообщение отредактировал salm - 16.03.2022 - 21:49

nokh Просмотр профиля	21.03.2022 - 22:33 Сообщение #12
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(salm @ 16.03.2022 - 23:37) А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также? Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит. Цитата(salm @ 16.03.2022 - 23:37) и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются... Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже. Цитата(salm @ 16.03.2022 - 23:37) и еще: с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?... Лень думать...

Anna_V Просмотр профиля	22.03.2022 - 07:02 Сообщение #13
Группа: Пользователи Сообщений: 11 Регистрация: 25.04.2019 Пользователь №: 33997	Цитата(nokh @ 21.03.2022 - 22:33) Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

nokh Просмотр профиля	23.03.2022 - 13:41 Сообщение #14
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Anna_V @ 22.03.2022 - 09:02) Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично? ~~"Бинарить"~~ дихотомизировать так количественный показатель будет самым логичным, но есть нюанс. Значение точки отсечения, полученное в ROC-анализе не совпадёт с таким значением, полученным в модели логистической регрессии. В ROC-анализе оно находится перебором всех значений показателя в качестве cut-off point, безо всякой модели (это для самого распространённого непараметрического варианта анализа, т.к. есть ещё бинормальная модель, предполагающая нормальное распределение показатели и в группе сравнения, и в группе риска и дающая не ступенчатую, а плавную ROC-кривую). В модели логистической регрессии используется минимизация ошибки логита, т.е. другой принцип. Поэтому в множественной логистической регрессии самое логичное разбиение на основе ROC-анализа может не оказаться оптимальным.

salm Просмотр профиля	30.03.2022 - 09:01 Сообщение #15
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности Сообщение отредактировал salm - 30.03.2022 - 18:56

« Предыдущая тема · Медицинская статистика · Следующая тема »

7 страниц

1 2 3 > »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.