Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V   1 2 3 > »   
Добавить ответ в эту темуОткрыть тему
> Логистическая регрессия, помогите понять
Felix77
сообщение 2.01.2020 - 08:23
Сообщение #1





Группа: Пользователи
Сообщений: 10
Регистрация: 30.04.2018
Пользователь №: 31313



Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.01.2020 - 19:54
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Felix77 @ 2.01.2020 - 10:23) *
Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

> predicted.logit<-predict(logit,x)
> predicted.logit
1
0.85426
> p=1/(1+exp(-predicted.logit))
> p
1
0.70146

Соответственно, вероятность Р=0,70146
(а если не рассматривать порядковые данные как номинальные, то P=0,6803324)

Сообщение отредактировал nokh - 2.01.2020 - 20:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Felix77
сообщение 3.01.2020 - 07:59
Сообщение #3





Группа: Пользователи
Сообщений: 10
Регистрация: 30.04.2018
Пользователь №: 31313



Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 8.01.2020 - 16:59
Сообщение #4





Группа: Пользователи
Сообщений: 1113
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 2.01.2020 - 20:54) *
У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:


Не могу согласиться с данным во втором и третьем абзацах определением логита.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 8.01.2020 - 17:14
Сообщение #5





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Игорь @ 8.01.2020 - 16:59) *
Не могу согласиться с данным во втором и третьем абзацах определением логита.


Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 8.01.2020 - 20:06
Сообщение #6





Группа: Пользователи
Сообщений: 1113
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(100$ @ 8.01.2020 - 18:14) *
Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.

Сообщение отредактировал Игорь - 8.01.2020 - 20:07


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 8.01.2020 - 22:29
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Игорь @ 8.01.2020 - 20:06) *
Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии?


Непосредственное.


Цитата
Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.


Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 10.01.2020 - 08:20
Сообщение #8





Группа: Пользователи
Сообщений: 1113
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(100$ @ 8.01.2020 - 23:29) *
Непосредственное.




Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.

Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.01.2020 - 09:56
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 10.01.2020 - 10:20) *
... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь.
В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 10.01.2020 - 13:53
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Игорь @ 10.01.2020 - 08:20) *
Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.


Игорь, дайте, пожалуйста, отдохнуть вашему фонтану.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 16.03.2022 - 21:37
Сообщение #11





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...
и еще: help.gif с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...
Спасибо заранее, извините, если чего неверно изложила...

Сообщение отредактировал salm - 16.03.2022 - 21:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.03.2022 - 22:33
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(salm @ 16.03.2022 - 23:37) *
А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?

Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.
Цитата(salm @ 16.03.2022 - 23:37) *
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.
Цитата(salm @ 16.03.2022 - 23:37) *
и еще: help.gif с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...

Лень думать...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Anna_V
сообщение 22.03.2022 - 07:02
Сообщение #13





Группа: Пользователи
Сообщений: 11
Регистрация: 25.04.2019
Пользователь №: 33997



Цитата(nokh @ 21.03.2022 - 22:33) *
Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы.


Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 23.03.2022 - 13:41
Сообщение #14





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Anna_V @ 22.03.2022 - 09:02) *
Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

"Бинарить" дихотомизировать так количественный показатель будет самым логичным, но есть нюанс. Значение точки отсечения, полученное в ROC-анализе не совпадёт с таким значением, полученным в модели логистической регрессии. В ROC-анализе оно находится перебором всех значений показателя в качестве cut-off point, безо всякой модели (это для самого распространённого непараметрического варианта анализа, т.к. есть ещё бинормальная модель, предполагающая нормальное распределение показатели и в группе сравнения, и в группе риска и дающая не ступенчатую, а плавную ROC-кривую). В модели логистической регрессии используется минимизация ошибки логита, т.е. другой принцип. Поэтому в множественной логистической регрессии самое логичное разбиение на основе ROC-анализа может не оказаться оптимальным.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 30.03.2022 - 09:01
Сообщение #15





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности

Сообщение отредактировал salm - 30.03.2022 - 18:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V   1 2 3 > » 
Добавить ответ в эту темуОткрыть тему