Логистическая регрессия, помогите понять |
Здравствуйте, гость ( Вход | Регистрация )
Логистическая регрессия, помогите понять |
2.01.2020 - 08:23
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313 |
Доброго времени суток!
понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate' https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3 |
|
2.01.2020 - 19:54
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Доброго времени суток! понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate' https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3 У автора цитируемого блога в расчётах есть ошибка. Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере. Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ... Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254 Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше). Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на: > predicted.logit<-predict(logit,x) > predicted.logit 1 0.85426 > p=1/(1+exp(-predicted.logit)) > p 1 0.70146 Соответственно, вероятность Р=0,70146 (а если не рассматривать порядковые данные как номинальные, то P=0,6803324) Сообщение отредактировал nokh - 2.01.2020 - 20:34 |
|
3.01.2020 - 07:59
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313 |
Спасибо!
|
|
8.01.2020 - 16:59
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
У автора цитируемого блога в расчётах есть ошибка. Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере. Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ... Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254 Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше). Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на: Не могу согласиться с данным во втором и третьем абзацах определением логита. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
8.01.2020 - 17:14
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
8.01.2020 - 20:06
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет. Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией. Сообщение отредактировал Игорь - 8.01.2020 - 20:07 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
8.01.2020 - 22:29
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Непосредственное. Цитата Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией. Которая моделирует Ln(Pi/(1-Pi)) Вы растренировались, Игорь. |
|
10.01.2020 - 08:20
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Непосредственное. Которая моделирует Ln(Pi/(1-Pi)) Вы растренировались, Игорь. Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
10.01.2020 - 09:56
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь. В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php |
|
10.01.2020 - 13:53
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего. Игорь, дайте, пожалуйста, отдохнуть вашему фонтану. |
|
16.03.2022 - 21:37
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются... и еще: с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?... Спасибо заранее, извините, если чего неверно изложила... Сообщение отредактировал salm - 16.03.2022 - 21:49 |
|
21.03.2022 - 22:33
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также? Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит. и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются... Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже. и еще: с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?... Лень думать... |
|
22.03.2022 - 07:02
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 11 Регистрация: 25.04.2019 Пользователь №: 33997 |
Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично? |
|
23.03.2022 - 13:41
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично? |
|
30.03.2022 - 09:01
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности
Сообщение отредактировал salm - 30.03.2022 - 18:56 |
|