Форум врачей-аспирантов > Логистическая регрессия, помогите понять

Felix77

2.01.2020 - 08:23

Доброго времени суток!

понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

nokh

2.01.2020 - 19:54

Цитата(Felix77 @ 2.01.2020 - 10:23)

Доброго времени суток!

понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

> predicted.logit<-predict(logit,x)
> predicted.logit
1
0.85426
> p=1/(1+exp(-predicted.logit))
> p
1
0.70146

Соответственно, вероятность Р=0,70146
(а если не рассматривать порядковые данные как номинальные, то P=0,6803324)

Felix77

3.01.2020 - 07:59

Спасибо!

Игорь

8.01.2020 - 16:59

Цитата(nokh @ 2.01.2020 - 20:54)

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

Не могу согласиться с данным во втором и третьем абзацах определением логита.

100$

8.01.2020 - 17:14

Цитата(Игорь @ 8.01.2020 - 16:59)

Не могу согласиться с данным во втором и третьем абзацах определением логита.

Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Игорь

8.01.2020 - 20:06

Цитата(100$ @ 8.01.2020 - 18:14)

Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.

100$

8.01.2020 - 22:29

Цитата(Игорь @ 8.01.2020 - 20:06)

Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии?

Непосредственное.

Цитата

Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.

Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.

Игорь

10.01.2020 - 08:20

Цитата(100$ @ 8.01.2020 - 23:29)

Непосредственное.

Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.

Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

nokh

10.01.2020 - 09:56

Цитата(Игорь @ 10.01.2020 - 10:20)

... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь.
В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php

100$

10.01.2020 - 13:53

Цитата(Игорь @ 10.01.2020 - 08:20)

Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

Игорь, дайте, пожалуйста, отдохнуть вашему фонтану.

salm

16.03.2022 - 21:37

А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...
и еще:

с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...
Спасибо заранее, извините, если чего неверно изложила...

nokh

21.03.2022 - 22:33

Цитата(salm @ 16.03.2022 - 23:37)

А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?

Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.

Цитата(salm @ 16.03.2022 - 23:37)

и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.

Цитата(salm @ 16.03.2022 - 23:37)

и еще:

с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...

Лень думать...

Anna_V

22.03.2022 - 07:02

Цитата(nokh @ 21.03.2022 - 22:33)

Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы.

Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

nokh

23.03.2022 - 13:41

Цитата(Anna_V @ 22.03.2022 - 09:02)

Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

~~"Бинарить"~~ дихотомизировать так количественный показатель будет самым логичным, но есть нюанс. Значение точки отсечения, полученное в ROC-анализе не совпадёт с таким значением, полученным в модели логистической регрессии. В ROC-анализе оно находится перебором всех значений показателя в качестве cut-off point, безо всякой модели (это для самого распространённого непараметрического варианта анализа, т.к. есть ещё бинормальная модель, предполагающая нормальное распределение показатели и в группе сравнения, и в группе риска и дающая не ступенчатую, а плавную ROC-кривую). В модели логистической регрессии используется минимизация ошибки логита, т.е. другой принцип. Поэтому в множественной логистической регрессии самое логичное разбиение на основе ROC-анализа может не оказаться оптимальным.

salm

30.03.2022 - 09:01

А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности

salm

30.03.2022 - 18:57

Цитата(nokh @ 21.03.2022 - 22:33)

Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.

Лень думать...

Спасибо) все понятно!!

salm

6.04.2022 - 23:54

Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

passant

7.04.2022 - 10:37

Цитата(salm @ 6.04.2022 - 23:54)

Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

Ну вам же уже все детально разъяснили выше. Вроде бы вам было все понятно. Хотите по третьему кругу пройти?

Если у вас на руках данные, где по каждому больному указан его реальный возраст, а вы почему-то решили перейти к бинарной переменной - то НИКАК вы это не объясните, тем более "грамотно". Тем более, если вы сами этого не понимаете. А если это надо в вашей диссертации объяснять - у вас же медицинская диссертация - то объясняйте это так, как вы будете объяснять пациенту: почему ему, которому 65 лет, вы назначаете одно лечение, а его соседу, которому 64 года - другое. Сможете? Вот так и объясняйте в диссертации.
P.S. "Улучшение" модели с несколькими факторами за счет перехода от количественной шкалы представления данных к номинальной - это вообще бред. Просто другими методами вы пользоваться не умеете (вас не учили, вы сами не научились). Вот так тоже можете объяснить.
А то, что "в статьях" нет объяснений - то учиться надо по учебникам, а не по статьям. Особенно если их писали такие-же "специалисты".

salm

7.04.2022 - 11:59

Цитата(passant @ 7.04.2022 - 10:37)

Ну вам же уже все детально разъяснили выше. Вроде бы вам было все понятно. Хотите по третьему кругу пройти?

Если у вас на руках данные, где по каждому больному указан его реальный возраст, а вы почему-то решили перейти к бинарной переменной - то НИКАК вы это не объясните, тем более "грамотно". Тем более, если вы сами этого не понимаете. А если это надо в вашей диссертации объяснять - у вас же медицинская диссертация - то объясняйте это так, как вы будете объяснять пациенту: почему ему, которому 65 лет, вы назначаете одно лечение, а его соседу, которому 64 года - другое. Сможете? Вот так и объясняйте в диссертации.
P.S. "Улучшение" модели с несколькими факторами за счет перехода от количественной шкалы представления данных к номинальной - это вообще бред. Просто другими методами вы пользоваться не умеете (вас не учили, вы сами не научились). Вот так тоже можете объяснить.
А то, что "в статьях" нет объяснений - то учиться надо по учебникам, а не по статьям. Особенно если их писали такие-же "специалисты".

Специально для Вас: как вы судите по тому какой я "специалист", если даже не знаете чтоу меня за специальность, я этого не озвучивала... форум вроде бы для подобных вопросов, нет?... Кому прям все понятно по специализированной стат литературе вряд ли вообще зайдут на эту ветку...
В любом случае, спасибо,

DoctorStat

14.04.2022 - 09:47

Цитата(salm @ 6.04.2022 - 23:54)

Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

Предположим - вы исследуете зависимость какого-то заболевания от разных факторов. И вдруг оказалось, что в вашей группе все больные пациенты старше 65 лет и зависимость тяжести (или другой изучаемой характеристики) заболевания от возраста после 65 лет отсутствует или пренебрежимо мала. В этом случае вы можете ограничить диапазон возрастов только двумя значениями: 0 - до 65, 1 - после 65 лет.

salm

10.05.2022 - 17:05

Доброго времени суток. Подскажите пожалуйста, могу ли я поступить следующим образом...Мне нужно сравнить диагностическую эффективность непрерывных переменных (их 4) с референтным методом (он у меня бинарный) при прогнозировании вероятности некоего исхода (соответственно бинарного) Для этого в рамках построения бинарных прогностических регрессионных моделей сравниваю AUC площади методом Делонга... Мне надо показать что они (количественные) параметры всяко лучше референтного метода (который имеет только два значения).
В итоге у меня 5 однофакторных прогностичсеких моделей для сравнения между собой: различия найдены. Я делаю вывод, что там где они значимые, диагностическая эффективность выше (под эффективностью я подразумеваю большую долю правильных ответов). Могу ли я таким образом доказать большую эффективность диагностического параметра?

salm

10.05.2022 - 17:45

Цитата(DoctorStat @ 14.04.2022 - 09:47)

Предположим - вы исследуете зависимость какого-то заболевания от разных факторов. И вдруг оказалось, что в вашей группе все больные пациенты старше 65 лет и зависимость тяжести (или другой изучаемой характеристики) заболевания от возраста после 65 лет отсутствует или пренебрежимо мала. В этом случае вы можете ограничить диапазон возрастов только двумя значениями: 0 - до 65, 1 - после 65 лет.

Спасибо

Игорь

11.05.2022 - 11:37

Цитата(salm @ 10.05.2022 - 18:05)

в рамках построения бинарных прогностических регрессионных моделей сравниваю AUC площади методом Делонга...

Нет такого метода. Есть предложение группы соавторов сравнивать AUC критерием Манна-Уитни. Данной проблемой занимались многие авторы, а не только процитированные, в том числе есть информация в монографиях В.В. Власова. Кстати, в работе соавторов неверно изображены ROC-кривые.

nzbr

13.05.2022 - 15:25

Цитата(salm @ 6.04.2022 - 23:54)

Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

Я сталкивался с подобным. Для возраста группы ВОЗ или какую-то возрастную отсечку с круглым числом 40-50-60-65-70 лет. Но возраст как раз проще всего. А вот с другими вещами бывает сложнее. Обычно ориентируются на какие-либо уже предложенные критерии в статьях других авторов. Не случайно "стоим на плечах гигантов".
Возможно вариантом было бы делить по медиане. Может кто-то ответит, подходит ли такой наивный способ.
В любом случае, статистика - это всего лишь инструмент. Мне кажется, главное представить модель в таком виде, что бы коллеги могли понять и использовать.

salm

16.05.2022 - 22:01

Цитата(Игорь @ 11.05.2022 - 11:37)

Нет такого метода. Есть предложение группы соавторов сравнивать AUC критерием Манна-Уитни. Данной проблемой занимались многие авторы, а не только процитированные, в том числе есть информация в монографиях В.В. Власова. Кстати, в работе соавторов неверно изображены ROC-кривые.

Ну так поняла, когда залезла в оригинальную работу Делона, это одно и то же.. Ну при сравнении критерий Мана Уитни применяется, так вроде.. Но почему то принято писать по деЛонгу, с ссылками на работы ДеЛонгов (родственники наверное))). Ну я без претензий, я так понимаю, коль он непараметрический, с допущениями попроще, и можно площади под кривыми сравнить (для непрерывных и бинарной переменной) и тем самым показать наличие или отсутствие преимущество диагностической эффективности какого то из параметров? Так ведь?..

salm

16.05.2022 - 22:05

Цитата(nzbr @ 13.05.2022 - 15:25)

Я сталкивался с подобным. Для возраста группы ВОЗ или какую-то возрастную отсечку с круглым числом 40-50-60-65-70 лет. Но возраст как раз проще всего. А вот с другими вещами бывает сложнее. Обычно ориентируются на какие-либо уже предложенные критерии в статьях других авторов. Не случайно "стоим на плечах гигантов".
Возможно вариантом было бы делить по медиане. Может кто-то ответит, подходит ли такой наивный способ.
В любом случае, статистика - это всего лишь инструмент. Мне кажется, главное представить модель в таком виде, что бы коллеги могли понять и использовать.

Спасибо большое за мнение, учту

Дело в том, что мое исследование в области сердечно-сосудистой патологии, самой распространенной и ассоциированной с возрастом. В принципе никого из коллег не смущает такое деление на 65 до и после, так как оно основано на "бесконечных" популяционных исследованиях, ничего не меняется, по крайней мере в данной группе заболеваний. Я просто думала, как то технически (ну я не знаю как еще выразиться) можно данное разделение оформить или описать чисто с точки зрения статистки..Ну и выслушать мнение.. А если речь идет о клинической целесообразности разделения на группы, то это видимо, не проблема (ну я теперь, на сегодня, так вижу)..

salm

25.05.2022 - 09:53

и еще:

мне понять смысл AUC при построении прогностических моделей: видимо, я неверно его понимаю. Я их периодически встречаю при сравнении диагностической эффективности методов: мол AUC такой попеременной был больше AUC такой то при диагностике такого то исхода... При этом, одна сравниваемая переменная категориальная или даже бинарная. Именно площадь, как таковая - что она значит?

nzbr

6.06.2022 - 07:50

Цитата(salm @ 30.03.2022 - 09:01)

А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности

Чем больше тем лучше

Площадь под кривой - оценка точности диагностического теста. Грубо говоря варьируется от 0.5 (50/50) до 1 (100%)

ИНО

6.06.2022 - 11:25

Цитата(salm @ 25.05.2022 - 09:53)

и еще:

мне понять смысл AUC при построении прогностических моделей: видимо, я неверно его понимаю. Я их периодически встречаю при сравнении диагностической эффективности методов: мол AUC такой попеременной был больше AUC такой то при диагностике такого то исхода... При этом, одна сравниваемая переменная категориальная или даже бинарная. Именно площадь, как таковая - что она значит?

А объясняемая - бинарная, AUC про это. Больший AUC означает лучшее соотношение чувствительности и специфичности, то есть лучшее качество классификатора (в вашей случае - модели, прогнозирующей исход). Только надо учитывать, что если ROC-кривые построены по тем же данным, на которых обучались модели, то практической пользы в сравнении AUC мало.

salm

30.06.2022 - 22:55

Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами.
Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол...
Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно?

passant

30.06.2022 - 23:54

Цитата(salm @ 30.06.2022 - 22:55)

Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами.
Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол...
Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно?

Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.

ИНО

1.07.2022 - 05:40

А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова

). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии

, ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.

salm

1.07.2022 - 09:27

Цитата(passant @ 30.06.2022 - 23:54)

Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.

А если так: вот есть показатель ИМТ, рассчитывается из массы и роста...но предположим что мы этого не знаем
ИМТ вводят, допустим, в прогнозирование исхода наличия гипертонии...
отдельно, допустим, ИМТ влияет на исход, в однофакторной модели
отдельно масса тела тоже влияет на исход
и вот мы эти факторы влияющие по отдельности вводим в многофакторную модель (проверка на мультиколлинеарность пройдена) и выходит, что масса тела утрачивает свою значимость ... Делаю вывод о том, что ИМТ объясняет то влияние на исход, которое заключал в себе ИМТ, и я вроде как делаю вывод о "более сильном предикторе" ИМТ но в составе модели, а именно с массой тела

salm

1.07.2022 - 09:55

Цитата(ИНО @ 1.07.2022 - 05:40)

А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова

). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии

, ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.

Нет нет... ОШ без коэффициентов я не собираюсь считать, я понимаю откуда они берутся. я хочу понять насколько правомерны выводы моих многочисленных коллег о том, что фактор в присутствии других "более сильных факторов" вылетает, опираясь на значимость. И я: как клиницист могу полагаться более на тот что остался, он для меня более весомый при оценке вероятности.. вот что я имею ввиду.. (и авторы статьи). Или по-другому: когда исследователей неинтересен сама модель как таковая, а интересует значимость влития на исход предикторов, ок которых принято традиционно рассуждать как о значимых (ну например, липиды, ЦРБ и возраст влияют на вероятность ИБС, а давайте посмотрим как поведут себя фаторы при добавлении какого-нибудь провоспалительного маркера...) вот такая логика...
Про мусор: я не пытаюсь заступиться ни за свой подход, ни за своих коллег. Я пытаюсь разобраться в их рассуждениях, чем они и насколько неверно они руководствовались и найти что поможет лично мне

правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...

100$

1.07.2022 - 17:45

Цитата(salm @ 1.07.2022 - 09:55)

...правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...

Да, так можно делать: это построение модели пошаговым включением регрессоров. При этом возможна ситуация, когда такой образ действий не выбирает оптимального набора предикторов.

Оффтоп:
Набор слов, оформленный в качестве цитаты - это ж просто цимус мит компот.

ИНО

1.07.2022 - 23:01

Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.

salm

2.07.2022 - 15:47

Цитата(ИНО @ 1.07.2022 - 23:01)

Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.

ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

salm

2.07.2022 - 15:57

А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...

salm

2.07.2022 - 16:27

Я может, сейчас лишнее напишу)) но Вы, пожалуйста, не раздражайтесь..
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте. Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии. Сам по себе факт того что я пытаюсь вникнуть вроде должен какую-то надежду внушать а не вызывать раздражение, и желание подколоть ответом.
Я ознакомилась с той литературой, которая мне доступна в плане понимания, я ознакомилась с курсом по статистике для врачей (там мне в принципе все понятно, но я понимаю, что так считать нельзя, это наиогромнейшее упрощение). Я могу и так посчитать, и это примут, и я защищусь, но так я не хочу (пока по крайней мере). Мне кажется этот форум для таких как я (а нас прям очень мало))).
Для меня, как для врача, важно понимать, что я разбираюсь в том, что хотели продемонстрировать в своих работах мои коллеги, и где они косячат.. В силу многих обстоятельств аспирант не имеет возможности тесно сотрудничать со статистиком, и даже когда имеет это часто неуспешно.
Вы же при посещении врача не слушаете бесконечные упреки в том, что вы неправильно пользуетесь органом. Обычно происходит так: грамотный врач спускается на уровень пациента, и в доступной ему форме излагает суть проблемы и методы ее решения, без колких замечаний, и еще более витиеватых словесных оборотов, я вижу вы тут все люди начитанные)))). Иначе нафиг это все вообще (я имею ввиду этот форум).
Вы меня еще раз извините, если я совсем тупая, ну не отвечайте, че уж
В любом случае, Вам спасибо!

ИНО

2.07.2022 - 19:30

Цитата

ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.

ИНО

2.07.2022 - 19:58

Цитата

Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте.

Ежели аспирант сознательно готовится выкинуть свой диссер в мусорное ведро сразу после получения степени, то ой. Это студенту еще можно простить такой подход к написанию дипломной работы (хотя на самом деле тоже нет).

Цитата

Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии.

Не стоит брать эту порочной моделью поведения в пример. Это очень опасное явление для любой науки, а для медицине - опасное в квадрате.

Цитата

Вы меня еще раз извините, если я совсем тупая

Ну зачем же стразу так. У нас в универе ни одной тупой аспирантки не видел, надеюсь, в медВУЗах с этим не хуже (иначе совсем страшно станет лечиться). А вот чего Вам реально не хватает, так это профильных знаний оп прикладной статистике. И на форуме, особенно полуживом (а в рунете иных нет), их не получить, только в литературе. Литература есть для совершенно разной аудитории, в т. ч. для неспециалистов, написанная простым языком и прямо с кодом R. Жаль, что почти вся на английском. Но попадается и переведенная. Например, конкретно по регрессии и классификации, вот: https://libgen.is/book/index.php?md5=69A834...70E80332B180182

salm

3.07.2022 - 00:59

Цитата(salm @ 2.07.2022 - 15:57)

А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...

Нет?))

ИНО

3.07.2022 - 02:18

То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.

salm

6.07.2022 - 08:53

Цитата(ИНО @ 3.07.2022 - 02:18)

То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.

В практическом - да. Просто руководитель поинтересовался что за показатель, я не смогла найти.
Спасибо за книгу, про суть метода максимального правдоподобия стал понятна (надеюсь)))

salm

6.07.2022 - 09:06

Цитата(ИНО @ 2.07.2022 - 19:30)

Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.

Ну представить что врач будет для конкретного пациента вычислять вероятность какого -то исхода мы не можем. Да, нас интересует сила факторов, направление действия и значимость, надежность какого либо из них при одновременном рассматривании других.. вот так... а сама формула никому не нужна, ее все перелистывают, не вникая. Так уж повелось. (Но если Вы посчитаете, что в клинической медицине так все плохо по этому - нет, уверяю, вообще не по этой причине). А почему я выбрала логистическую регрессию - ну потому что все привыкли именно к ней, и как умеют, так и интерпретируют. Но с другими методами едва ли кто знаком. Из тех, кто будет мою работу читать - не знаком никто. Да и с логистической регрессией тоже, но я вроде бы разобралась уже (хоть вы и не согласитесь))))
И не редки такие ситуации - статистик посчитал, даже выводы написал (ну естественно, небезвозмездно). А в работу это не вошло, руководитель посчитал ненужным, лишним или непонятным. Или рецензент попросил переделать. Вот и все...
Вам спасибо!!! За книгу огромнейшее спасибо еще раз!!!

salm

12.08.2022 - 12:05

Здравставуйте.
Скажите пожалуйста, вот у меня есть однофакторная модель, из нее мне на данном этапе нужен коэффициент, значимый, из которого я могу вычислить ОШ на исход и сказать - данный фактор значимо влиял на вероятность исхода. Это я понимаю... Далее, я добавляю в модель второй фактор, их коэффициенты также значимо отличны от нуля (так ведь), и они независимо (ну в медицине так это понимают) влияют на вероятность возникновения исхода.
Я же правильно понимаю: при построении модели для факторов вычисляются такие коэффициенты, с которыми каждый случай в выборке будет иметь наиболее близкую вероятность к истинному исходу...
А вот мне нужно следующее: я хочу сказать: фактор 1 (традиционный) + фактор 2 (новый) = это первая модель. А вторая модель = это фактор 1+ фактор 3. И я хочу сказать, что 2я модель (включающая фактор 3) лучше чем первая модель объясняет исход. Ну то есть фактор 3 лучше в плане объяснения вероятности в совокупности с фактором 1) Я видела в этом случае либо сравнивают площади под кривыми для регрессии, либо индекс реклассификации (NRI и IDI)
Мой вопрос - как мне сравнить AUC для регрессионныхых моделей? В моем стат пакете сравнение только для РОК моделей
Индексы реклассификации я нашла статьи, но они мне не поддаются)) пока...

100$

12.08.2022 - 13:03

Цитата

Мой вопрос - как мне сравнить AUC?

Идейно там все просто: разность эмпирических AUC делится на стандартную ошибку этой разности. Полученное z имеет стандартное нормальное распределение.

Вот формулы: тут

Или воспользоваться функцией roc.test() из пакета {pROC}

Можно еще с помощью пакета {boruta} построить график относительной важности предикторов и понять, какой предиктор сильнее.
Достоинством этого подхода считаю то, что изучается совместное распределение влияния факторов, а не их влияние по отдельности.

ИНО

13.08.2022 - 04:02

Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни. Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка. Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход.

Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго.

salm

13.08.2022 - 11:18

Цитата(100$ @ 12.08.2022 - 13:03)

Идейно там все просто: разность эмпирических AUC делится на стандартную ошибку этой разности. Полученное z имеет стандартное нормальное распределение.

Вот формулы: тут

Или воспользоваться функцией roc.test() из пакета {pROC}

Можно еще с помощью пакета {boruta} построить график относительной важности предикторов и понять, какой предиктор сильнее.
Достоинством этого подхода считаю то, что изучается совместное распределение влияния факторов, а не их влияние по отдельности.

Ооо пасиба!! Ща разберусь
Спасибо огромное

100$

13.08.2022 - 17:06

Цитата(ИНО @ 13.08.2022 - 04:02)

Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни.

Разработчики сообщают буквально следующее:

Description
This function compares two correlated (or paired) or uncorrelated (unpaired) ROC curves. Delong
and bootstrap methods test for a difference in the (partial) AUC of the ROC curves. The Venka-
traman method tests if the two curves are perfectly superposed. The sensitivity and specificity
methods test if the sensitivity (respectively specificity) of the ROC curves are different at the given
level of specificity (respectively sensitivity). Several syntaxes are available: two object of class roc
(which can be AUC or smoothed ROC), or either three vectors (response, predictor1, predictor2) or
a response vector and a matrix or data.frame with two columns (predictors).

Usage

roc.test(roc1, roc2, method=c("delong", "bootstrap","venkatraman", "sensitivity", "specificity"), ...)

Не знаю, как все это разнообразие свести к Манну и Уитни.

А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет.

Цитата

Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка.

Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов. У меня просто руки не доходят сделать это в своих Экселевских самоделках. А где это реализовано в существующем ПО (если реализовано вообще) - не знаю.

Цитата

Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход.

Патамушта мы хотим не просто констатировать, что один AIC на глаз меньше другого, а хотим располагать результатами формального теста, такого как обсуждаемый тест на равенство AUC.

Цитата

Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго.

Очень согласен. Теорию про пермутированные важности здесь Огурцов уже выкладывал, осталось лишь разобраться с пакетами, в которых это есть. Борута для меня просто как точка отсчета.