Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Логистическая регрессия, помогите понять

Автор: Felix77 2.01.2020 - 08:23

Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-explained-logistic-regression-with-example-in-r-b919acb1d6b3

Автор: nokh 2.01.2020 - 19:54

Цитата(Felix77 @ 2.01.2020 - 10:23) *
Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-explained-logistic-regression-with-example-in-r-b919acb1d6b3

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

> predicted.logit<-predict(logit,x)
> predicted.logit
1
0.85426
> p=1/(1+exp(-predicted.logit))
> p
1
0.70146

Соответственно, вероятность Р=0,70146
(а если не рассматривать порядковые данные как номинальные, то P=0,6803324)

Автор: Felix77 3.01.2020 - 07:59

Спасибо!

Автор: Игорь 8.01.2020 - 16:59

Цитата(nokh @ 2.01.2020 - 20:54) *
У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:


Не могу согласиться с данным во втором и третьем абзацах определением логита.

Автор: 100$ 8.01.2020 - 17:14

Цитата(Игорь @ 8.01.2020 - 16:59) *
Не могу согласиться с данным во втором и третьем абзацах определением логита.


Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Автор: Игорь 8.01.2020 - 20:06

Цитата(100$ @ 8.01.2020 - 18:14) *
Ибо истинный Логит - это логарифм отношения вероятности наступления события к вероятности того, что оно не произойдет.

Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии? Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.

Автор: 100$ 8.01.2020 - 22:29

Цитата(Игорь @ 8.01.2020 - 20:06) *
Какое отношение данное замечание имеет к обсуждаемой в теме логистической регрессии?


Непосредственное.


Цитата
Достаточно взять любой источник и убедиться, что выражение, называемое коллегой логитом, является множественной линейной регрессией.


Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.

Автор: Игорь 10.01.2020 - 08:20

Цитата(100$ @ 8.01.2020 - 23:29) *
Непосредственное.




Которая моделирует Ln(Pi/(1-Pi))

Вы растренировались, Игорь.

Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

Автор: nokh 10.01.2020 - 09:56

Цитата(Игорь @ 10.01.2020 - 10:20) *
... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь.
В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php

Автор: 100$ 10.01.2020 - 13:53

Цитата(Игорь @ 10.01.2020 - 08:20) *
Понимаете, если бы это был просто троллинг (которым он и является по факту), на этом можно было закончить обсуждение. В принципе, ничего экстраординарного - так обычно развлекаются весьма подготовленные люди на специализированных форумах, отбивая у новичков желание общаться и сводя ценность опубликованной информации к нулю. Для этого применяют ряд методов, основные из которых - необоснованное расширение темы обсуждения и увод обсуждения от основной темы во второстепенные ветки. Методы обычные для "научной" дискуссии. Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.


Игорь, дайте, пожалуйста, отдохнуть вашему фонтану.

Автор: salm 16.03.2022 - 21:37

А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...
и еще: help.gif с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...
Спасибо заранее, извините, если чего неверно изложила...

Автор: nokh 21.03.2022 - 22:33

Цитата(salm @ 16.03.2022 - 23:37) *
А подскажите, при введении в модель логистической регрессии количественного фактора имеет ли смысл указывать в диссертации его максимальное и минимальное значение? Помимо значения медиан и квартилей. Я с той целью спрашиваю: в линейной регрессии зависимая переменная рассчитывается с учетом тех значений, что лежат в диапазоне приведенных значений количественного фактора... а логистической как? также?

Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.
Цитата(salm @ 16.03.2022 - 23:37) *
и второй вопрос: у меня в модели логистической регрессии несколько определяющих количественных факторов. Один из них я хочу переделать в категориальный. ]имею ли я право один фактор поменять на категориальный или представить его вовсе как бинарный (порог возьму приемлемый, из литературы с обоснованием), но другой количественный фактор в модели оставить как есть? два эти фактора количественные: измеряют перфузию, ну то есть они паралитические и похожи по смыслу но одним и тем же не являются...

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.
Цитата(salm @ 16.03.2022 - 23:37) *
и еще: help.gif с трактованием: отношение шансов, к примеру, составит 2,5: это при увеличении на одну единицу... а если на две единицы будет увеличен определяющий фактор - вероятность повышается двукратно?...

Лень думать...

Автор: Anna_V 22.03.2022 - 07:02

Цитата(nokh @ 21.03.2022 - 22:33) *
Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы.


Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

Автор: nokh 23.03.2022 - 13:41

Цитата(Anna_V @ 22.03.2022 - 09:02) *
Добрый день. А если предварительно найти cut-off с помощью однофакторного ROC анализа и на основе этой точки "бинарить" показатель. Насколько это будет логично?

"Бинарить" дихотомизировать так количественный показатель будет самым логичным, но есть нюанс. Значение точки отсечения, полученное в ROC-анализе не совпадёт с таким значением, полученным в модели логистической регрессии. В ROC-анализе оно находится перебором всех значений показателя в качестве cut-off point, безо всякой модели (это для самого распространённого непараметрического варианта анализа, т.к. есть ещё бинормальная модель, предполагающая нормальное распределение показатели и в группе сравнения, и в группе риска и дающая не ступенчатую, а плавную ROC-кривую). В модели логистической регрессии используется минимизация ошибки логита, т.е. другой принцип. Поэтому в множественной логистической регрессии самое логичное разбиение на основе ROC-анализа может не оказаться оптимальным.

Автор: salm 30.03.2022 - 09:01

А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности

Автор: salm 30.03.2022 - 18:57

Цитата(nokh @ 21.03.2022 - 22:33) *
Полагаю, что в диссертации смысла нет. В диссертацию выносятся положения, зависимости и т.д, которые должны выглядеть как бесспорные. Дополнительные указания на то, что ваша модель не работает или не изучена при значении показателя меньше минимального и больше максимального добавляет конкретики, но снижает общность вывода, т.е. вы как бы говорите "вот здесь я изучила, а вот здесь и здесь - нет", хотя вас об этом ещё никто не спрашивал (и вряд ли спросит). Поэтому для себя эти границы держать стоит, особенно если вы будете использовать модель для прогноза, а излишне детализировать при описании в работе - не стоит.

Любой ряд количественных показателей в шкале отношений или интервалов можно переклассифицировать в порядковую шкалу, а все эти шкалы - в качественную бинарную. Ошибки в этом нет, но при огрублении шкалы происходит потеря части информации. Применительно к логистической регрессии количественный показатель будет "работать" во всём диапазоне и без привлечения сторонних данных, а результат работы огрублённого до бинарного показателя будет работать хуже или лучше в зависимости от того, насколько хорошо ваши данные совпали с чьим-то мнением из литературы. Т.е. во-первых идёт огрубление данных, во-вторых - вы вкладываете в свои самодостаточные данные чьё-то левое мнение. Короче, технически сделать бинарный из количественно можно, статистически всё будет корректно, но методологически - будет хуже.

Лень думать...



Спасибо) все понятно!!

Автор: salm 6.04.2022 - 23:54

Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

Автор: passant 7.04.2022 - 10:37

Цитата(salm @ 6.04.2022 - 23:54) *
Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?


Ну вам же уже все детально разъяснили выше. Вроде бы вам было все понятно. Хотите по третьему кругу пройти?

Если у вас на руках данные, где по каждому больному указан его реальный возраст, а вы почему-то решили перейти к бинарной переменной - то НИКАК вы это не объясните, тем более "грамотно". Тем более, если вы сами этого не понимаете. А если это надо в вашей диссертации объяснять - у вас же медицинская диссертация - то объясняйте это так, как вы будете объяснять пациенту: почему ему, которому 65 лет, вы назначаете одно лечение, а его соседу, которому 64 года - другое. Сможете? Вот так и объясняйте в диссертации.
P.S. "Улучшение" модели с несколькими факторами за счет перехода от количественной шкалы представления данных к номинальной - это вообще бред. Просто другими методами вы пользоваться не умеете (вас не учили, вы сами не научились). Вот так тоже можете объяснить.
А то, что "в статьях" нет объяснений - то учиться надо по учебникам, а не по статьям. Особенно если их писали такие-же "специалисты".

Автор: salm 7.04.2022 - 11:59

Цитата(passant @ 7.04.2022 - 10:37) *
Ну вам же уже все детально разъяснили выше. Вроде бы вам было все понятно. Хотите по третьему кругу пройти?

Если у вас на руках данные, где по каждому больному указан его реальный возраст, а вы почему-то решили перейти к бинарной переменной - то НИКАК вы это не объясните, тем более "грамотно". Тем более, если вы сами этого не понимаете. А если это надо в вашей диссертации объяснять - у вас же медицинская диссертация - то объясняйте это так, как вы будете объяснять пациенту: почему ему, которому 65 лет, вы назначаете одно лечение, а его соседу, которому 64 года - другое. Сможете? Вот так и объясняйте в диссертации.
P.S. "Улучшение" модели с несколькими факторами за счет перехода от количественной шкалы представления данных к номинальной - это вообще бред. Просто другими методами вы пользоваться не умеете (вас не учили, вы сами не научились). Вот так тоже можете объяснить.
А то, что "в статьях" нет объяснений - то учиться надо по учебникам, а не по статьям. Особенно если их писали такие-же "специалисты".


Специально для Вас: как вы судите по тому какой я "специалист", если даже не знаете чтоу меня за специальность, я этого не озвучивала... форум вроде бы для подобных вопросов, нет?... Кому прям все понятно по специализированной стат литературе вряд ли вообще зайдут на эту ветку...
В любом случае, спасибо,

Автор: DoctorStat 14.04.2022 - 09:47

Цитата(salm @ 6.04.2022 - 23:54) *
Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?
Предположим - вы исследуете зависимость какого-то заболевания от разных факторов. И вдруг оказалось, что в вашей группе все больные пациенты старше 65 лет и зависимость тяжести (или другой изучаемой характеристики) заболевания от возраста после 65 лет отсутствует или пренебрежимо мала. В этом случае вы можете ограничить диапазон возрастов только двумя значениями: 0 - до 65, 1 - после 65 лет.

Автор: salm 10.05.2022 - 17:05

Доброго времени суток. Подскажите пожалуйста, могу ли я поступить следующим образом...Мне нужно сравнить диагностическую эффективность непрерывных переменных (их 4) с референтным методом (он у меня бинарный) при прогнозировании вероятности некоего исхода (соответственно бинарного) Для этого в рамках построения бинарных прогностических регрессионных моделей сравниваю AUC площади методом Делонга... Мне надо показать что они (количественные) параметры всяко лучше референтного метода (который имеет только два значения).
В итоге у меня 5 однофакторных прогностичсеких моделей для сравнения между собой: различия найдены. Я делаю вывод, что там где они значимые, диагностическая эффективность выше (под эффективностью я подразумеваю большую долю правильных ответов). Могу ли я таким образом доказать большую эффективность диагностического параметра?

Автор: salm 10.05.2022 - 17:45

Цитата(DoctorStat @ 14.04.2022 - 09:47) *
Предположим - вы исследуете зависимость какого-то заболевания от разных факторов. И вдруг оказалось, что в вашей группе все больные пациенты старше 65 лет и зависимость тяжести (или другой изучаемой характеристики) заболевания от возраста после 65 лет отсутствует или пренебрежимо мала. В этом случае вы можете ограничить диапазон возрастов только двумя значениями: 0 - до 65, 1 - после 65 лет.

Спасибо

Автор: Игорь 11.05.2022 - 11:37

Цитата(salm @ 10.05.2022 - 18:05) *
в рамках построения бинарных прогностических регрессионных моделей сравниваю AUC площади методом Делонга...

Нет такого метода. Есть предложение группы соавторов сравнивать AUC критерием Манна-Уитни. Данной проблемой занимались многие авторы, а не только процитированные, в том числе есть информация в монографиях В.В. Власова. Кстати, в работе соавторов неверно изображены ROC-кривые.

Автор: nzbr 13.05.2022 - 15:25

Цитата(salm @ 6.04.2022 - 23:54) *
Не подскажете: как диссертации грамотнообьяснить с какой целью я представляю непрерывнуюпеременную (возраст) как бинарную (до 65 лет и больше). Так делают, но в статьях не вижу никаких пояснений. Мне это необходимосцелью улучшения моделиснесъолькими факторами.
Или просто может, просто статпакет сам отобрал при включении обоих вариантов...?

Я сталкивался с подобным. Для возраста группы ВОЗ или какую-то возрастную отсечку с круглым числом 40-50-60-65-70 лет. Но возраст как раз проще всего. А вот с другими вещами бывает сложнее. Обычно ориентируются на какие-либо уже предложенные критерии в статьях других авторов. Не случайно "стоим на плечах гигантов".
Возможно вариантом было бы делить по медиане. Может кто-то ответит, подходит ли такой наивный способ.
В любом случае, статистика - это всего лишь инструмент. Мне кажется, главное представить модель в таком виде, что бы коллеги могли понять и использовать.

Автор: salm 16.05.2022 - 22:01

Цитата(Игорь @ 11.05.2022 - 11:37) *
Нет такого метода. Есть предложение группы соавторов сравнивать AUC критерием Манна-Уитни. Данной проблемой занимались многие авторы, а не только процитированные, в том числе есть информация в монографиях В.В. Власова. Кстати, в работе соавторов неверно изображены ROC-кривые.

Ну так поняла, когда залезла в оригинальную работу Делона, это одно и то же.. Ну при сравнении критерий Мана Уитни применяется, так вроде.. Но почему то принято писать по деЛонгу, с ссылками на работы ДеЛонгов (родственники наверное))). Ну я без претензий, я так понимаю, коль он непараметрический, с допущениями попроще, и можно площади под кривыми сравнить (для непрерывных и бинарной переменной) и тем самым показать наличие или отсутствие преимущество диагностической эффективности какого то из параметров? Так ведь?..

Автор: salm 16.05.2022 - 22:05

Цитата(nzbr @ 13.05.2022 - 15:25) *
Я сталкивался с подобным. Для возраста группы ВОЗ или какую-то возрастную отсечку с круглым числом 40-50-60-65-70 лет. Но возраст как раз проще всего. А вот с другими вещами бывает сложнее. Обычно ориентируются на какие-либо уже предложенные критерии в статьях других авторов. Не случайно "стоим на плечах гигантов".
Возможно вариантом было бы делить по медиане. Может кто-то ответит, подходит ли такой наивный способ.
В любом случае, статистика - это всего лишь инструмент. Мне кажется, главное представить модель в таком виде, что бы коллеги могли понять и использовать.


Спасибо большое за мнение, учту

Дело в том, что мое исследование в области сердечно-сосудистой патологии, самой распространенной и ассоциированной с возрастом. В принципе никого из коллег не смущает такое деление на 65 до и после, так как оно основано на "бесконечных" популяционных исследованиях, ничего не меняется, по крайней мере в данной группе заболеваний. Я просто думала, как то технически (ну я не знаю как еще выразиться) можно данное разделение оформить или описать чисто с точки зрения статистки..Ну и выслушать мнение.. А если речь идет о клинической целесообразности разделения на группы, то это видимо, не проблема (ну я теперь, на сегодня, так вижу)..

Автор: salm 25.05.2022 - 09:53

и еще: help.gif мне понять смысл AUC при построении прогностических моделей: видимо, я неверно его понимаю. Я их периодически встречаю при сравнении диагностической эффективности методов: мол AUC такой попеременной был больше AUC такой то при диагностике такого то исхода... При этом, одна сравниваемая переменная категориальная или даже бинарная. Именно площадь, как таковая - что она значит?

Автор: nzbr 6.06.2022 - 07:50

Цитата(salm @ 30.03.2022 - 09:01) *
А скажите, корректно ли будет один количсетвенный показатель представить как бинарный (по пороговому значению), а другой количественный (но оценивающий тоже биологическое явления) оставить как непрерывный? имею ли я на это право, и стоит ли объяснять почему именно так я делаю? Причина в том, что модель лучше (а именно коэффициент Найджелкерка). И площадь под кривой чуть больше... Меня не интересует расчет вероятности, я провожу анализ монистической регрессии с целью определения значимости каждого фактора в оценке вероятности


Чем больше тем лучше

Площадь под кривой - оценка точности диагностического теста. Грубо говоря варьируется от 0.5 (50/50) до 1 (100%)

Автор: ИНО 6.06.2022 - 11:25

Цитата(salm @ 25.05.2022 - 09:53) *
и еще: help.gif мне понять смысл AUC при построении прогностических моделей: видимо, я неверно его понимаю. Я их периодически встречаю при сравнении диагностической эффективности методов: мол AUC такой попеременной был больше AUC такой то при диагностике такого то исхода... При этом, одна сравниваемая переменная категориальная или даже бинарная. Именно площадь, как таковая - что она значит?

А объясняемая - бинарная, AUC про это. Больший AUC означает лучшее соотношение чувствительности и специфичности, то есть лучшее качество классификатора (в вашей случае - модели, прогнозирующей исход). Только надо учитывать, что если ROC-кривые построены по тем же данным, на которых обучались модели, то практической пользы в сравнении AUC мало.

Автор: salm 30.06.2022 - 22:55

Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами.
Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол...
Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно?

Автор: passant 30.06.2022 - 23:54

Цитата(salm @ 30.06.2022 - 22:55) *
Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами.
Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол...
Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно?


Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.

Автор: ИНО 1.07.2022 - 05:40

А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова smile.gif ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии shok.gif , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.

Автор: salm 1.07.2022 - 09:27

Цитата(passant @ 30.06.2022 - 23:54) *
Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.


А если так: вот есть показатель ИМТ, рассчитывается из массы и роста...но предположим что мы этого не знаем
ИМТ вводят, допустим, в прогнозирование исхода наличия гипертонии...
отдельно, допустим, ИМТ влияет на исход, в однофакторной модели
отдельно масса тела тоже влияет на исход
и вот мы эти факторы влияющие по отдельности вводим в многофакторную модель (проверка на мультиколлинеарность пройдена) и выходит, что масса тела утрачивает свою значимость ... Делаю вывод о том, что ИМТ объясняет то влияние на исход, которое заключал в себе ИМТ, и я вроде как делаю вывод о "более сильном предикторе" ИМТ но в составе модели, а именно с массой тела

Автор: salm 1.07.2022 - 09:55

Цитата(ИНО @ 1.07.2022 - 05:40) *
А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова smile.gif ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии shok.gif , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.



Нет нет... ОШ без коэффициентов я не собираюсь считать, я понимаю откуда они берутся. я хочу понять насколько правомерны выводы моих многочисленных коллег о том, что фактор в присутствии других "более сильных факторов" вылетает, опираясь на значимость. И я: как клиницист могу полагаться более на тот что остался, он для меня более весомый при оценке вероятности.. вот что я имею ввиду.. (и авторы статьи). Или по-другому: когда исследователей неинтересен сама модель как таковая, а интересует значимость влития на исход предикторов, ок которых принято традиционно рассуждать как о значимых (ну например, липиды, ЦРБ и возраст влияют на вероятность ИБС, а давайте посмотрим как поведут себя фаторы при добавлении какого-нибудь провоспалительного маркера...) вот такая логика...
Про мусор: я не пытаюсь заступиться ни за свой подход, ни за своих коллег. Я пытаюсь разобраться в их рассуждениях, чем они и насколько неверно они руководствовались и найти что поможет лично мне

правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...

Автор: 100$ 1.07.2022 - 17:45

Цитата(salm @ 1.07.2022 - 09:55) *
...правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...


Да, так можно делать: это построение модели пошаговым включением регрессоров. При этом возможна ситуация, когда такой образ действий не выбирает оптимального набора предикторов.


Оффтоп:
Набор слов, оформленный в качестве цитаты - это ж просто цимус мит компот.

Автор: ИНО 1.07.2022 - 23:01

Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.

Автор: salm 2.07.2022 - 15:47

Цитата(ИНО @ 1.07.2022 - 23:01) *
Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.


ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

Автор: salm 2.07.2022 - 15:57

А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...

Автор: salm 2.07.2022 - 16:27

Я может, сейчас лишнее напишу)) но Вы, пожалуйста, не раздражайтесь..
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте. Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии. Сам по себе факт того что я пытаюсь вникнуть вроде должен какую-то надежду внушать а не вызывать раздражение, и желание подколоть ответом.
Я ознакомилась с той литературой, которая мне доступна в плане понимания, я ознакомилась с курсом по статистике для врачей (там мне в принципе все понятно, но я понимаю, что так считать нельзя, это наиогромнейшее упрощение). Я могу и так посчитать, и это примут, и я защищусь, но так я не хочу (пока по крайней мере). Мне кажется этот форум для таких как я (а нас прям очень мало))).
Для меня, как для врача, важно понимать, что я разбираюсь в том, что хотели продемонстрировать в своих работах мои коллеги, и где они косячат.. В силу многих обстоятельств аспирант не имеет возможности тесно сотрудничать со статистиком, и даже когда имеет это часто неуспешно.
Вы же при посещении врача не слушаете бесконечные упреки в том, что вы неправильно пользуетесь органом. Обычно происходит так: грамотный врач спускается на уровень пациента, и в доступной ему форме излагает суть проблемы и методы ее решения, без колких замечаний, и еще более витиеватых словесных оборотов, я вижу вы тут все люди начитанные)))). Иначе нафиг это все вообще (я имею ввиду этот форум).
Вы меня еще раз извините, если я совсем тупая, ну не отвечайте, че уж
В любом случае, Вам спасибо!

Автор: ИНО 2.07.2022 - 19:30

Цитата
ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.

Автор: ИНО 2.07.2022 - 19:58

Цитата
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте.

Ежели аспирант сознательно готовится выкинуть свой диссер в мусорное ведро сразу после получения степени, то ой. Это студенту еще можно простить такой подход к написанию дипломной работы (хотя на самом деле тоже нет).
Цитата
Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии.

Не стоит брать эту порочной моделью поведения в пример. Это очень опасное явление для любой науки, а для медицине - опасное в квадрате.
Цитата
Вы меня еще раз извините, если я совсем тупая

Ну зачем же стразу так. У нас в универе ни одной тупой аспирантки не видел, надеюсь, в медВУЗах с этим не хуже (иначе совсем страшно станет лечиться). А вот чего Вам реально не хватает, так это профильных знаний оп прикладной статистике. И на форуме, особенно полуживом (а в рунете иных нет), их не получить, только в литературе. Литература есть для совершенно разной аудитории, в т. ч. для неспециалистов, написанная простым языком и прямо с кодом R. Жаль, что почти вся на английском. Но попадается и переведенная. Например, конкретно по регрессии и классификации, вот: https://libgen.is/book/index.php?md5=69A8340447985EAD470E80332B180182

Автор: salm 3.07.2022 - 00:59

Цитата(salm @ 2.07.2022 - 15:57) *
А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...

Нет?))

Автор: ИНО 3.07.2022 - 02:18

То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.

Автор: salm 6.07.2022 - 08:53

Цитата(ИНО @ 3.07.2022 - 02:18) *
То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.


В практическом - да. Просто руководитель поинтересовался что за показатель, я не смогла найти.
Спасибо за книгу, про суть метода максимального правдоподобия стал понятна (надеюсь)))

Автор: salm 6.07.2022 - 09:06

Цитата(ИНО @ 2.07.2022 - 19:30) *
Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.


Ну представить что врач будет для конкретного пациента вычислять вероятность какого -то исхода мы не можем. Да, нас интересует сила факторов, направление действия и значимость, надежность какого либо из них при одновременном рассматривании других.. вот так... а сама формула никому не нужна, ее все перелистывают, не вникая. Так уж повелось. (Но если Вы посчитаете, что в клинической медицине так все плохо по этому - нет, уверяю, вообще не по этой причине). А почему я выбрала логистическую регрессию - ну потому что все привыкли именно к ней, и как умеют, так и интерпретируют. Но с другими методами едва ли кто знаком. Из тех, кто будет мою работу читать - не знаком никто. Да и с логистической регрессией тоже, но я вроде бы разобралась уже (хоть вы и не согласитесь))))
И не редки такие ситуации - статистик посчитал, даже выводы написал (ну естественно, небезвозмездно). А в работу это не вошло, руководитель посчитал ненужным, лишним или непонятным. Или рецензент попросил переделать. Вот и все...
Вам спасибо!!! За книгу огромнейшее спасибо еще раз!!!

Автор: salm 12.08.2022 - 12:05

Здравставуйте.
Скажите пожалуйста, вот у меня есть однофакторная модель, из нее мне на данном этапе нужен коэффициент, значимый, из которого я могу вычислить ОШ на исход и сказать - данный фактор значимо влиял на вероятность исхода. Это я понимаю... Далее, я добавляю в модель второй фактор, их коэффициенты также значимо отличны от нуля (так ведь), и они независимо (ну в медицине так это понимают) влияют на вероятность возникновения исхода.
Я же правильно понимаю: при построении модели для факторов вычисляются такие коэффициенты, с которыми каждый случай в выборке будет иметь наиболее близкую вероятность к истинному исходу...
А вот мне нужно следующее: я хочу сказать: фактор 1 (традиционный) + фактор 2 (новый) = это первая модель. А вторая модель = это фактор 1+ фактор 3. И я хочу сказать, что 2я модель (включающая фактор 3) лучше чем первая модель объясняет исход. Ну то есть фактор 3 лучше в плане объяснения вероятности в совокупности с фактором 1) Я видела в этом случае либо сравнивают площади под кривыми для регрессии, либо индекс реклассификации (NRI и IDI)
Мой вопрос - как мне сравнить AUC для регрессионныхых моделей? В моем стат пакете сравнение только для РОК моделей
Индексы реклассификации я нашла статьи, но они мне не поддаются)) пока...

Автор: 100$ 12.08.2022 - 13:03

Цитата
Мой вопрос - как мне сравнить AUC?


Идейно там все просто: разность эмпирических AUC делится на стандартную ошибку этой разности. Полученное z имеет стандартное нормальное распределение.

Вот формулы: https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Comparing_Two_ROC_Curves-Paired_Design.pdf

Или воспользоваться функцией roc.test() из пакета {pROC}

Можно еще с помощью пакета {boruta} построить график относительной важности предикторов и понять, какой предиктор сильнее.
Достоинством этого подхода считаю то, что изучается совместное распределение влияния факторов, а не их влияние по отдельности.

Автор: ИНО 13.08.2022 - 04:02

Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни. Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка. Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход.

Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго.

Автор: salm 13.08.2022 - 11:18

Цитата(100$ @ 12.08.2022 - 13:03) *
Идейно там все просто: разность эмпирических AUC делится на стандартную ошибку этой разности. Полученное z имеет стандартное нормальное распределение.

Вот формулы: https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/NCSS/Comparing_Two_ROC_Curves-Paired_Design.pdf

Или воспользоваться функцией roc.test() из пакета {pROC}

Можно еще с помощью пакета {boruta} построить график относительной важности предикторов и понять, какой предиктор сильнее.
Достоинством этого подхода считаю то, что изучается совместное распределение влияния факторов, а не их влияние по отдельности.

Ооо пасиба!! Ща разберусь
Спасибо огромное

Автор: 100$ 13.08.2022 - 17:06

Цитата(ИНО @ 13.08.2022 - 04:02) *
Если мне не изменяет память roc.test() использует статистику Вилкоксона-Манна-Уитни.


Разработчики сообщают буквально следующее:

Description
This function compares two correlated (or paired) or uncorrelated (unpaired) ROC curves. Delong
and bootstrap methods test for a difference in the (partial) AUC of the ROC curves. The Venka-
traman method tests if the two curves are perfectly superposed. The sensitivity and specificity
methods test if the sensitivity (respectively specificity) of the ROC curves are different at the given
level of specificity (respectively sensitivity). Several syntaxes are available: two object of class roc
(which can be AUC or smoothed ROC), or either three vectors (response, predictor1, predictor2) or
a response vector and a matrix or data.frame with two columns (predictors).

Usage

roc.test(roc1, roc2, method=c("delong", "bootstrap","venkatraman", "sensitivity", "specificity"), ...)

Не знаю, как все это разнообразие свести к Манну и Уитни.

А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет.



Цитата
Но! Сравнивать ROC, построенные по обучающей выборке для селекции оптимальной модели контрпродуктивно. Со случайным лесом в этом плане несколько проще, там можно строить эти кривые, используя OOB. В случае с логистической регрессией поможет только кроссвалидация или проверочная выборка.


Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов. У меня просто руки не доходят сделать это в своих Экселевских самоделках. А где это реализовано в существующем ПО (если реализовано вообще) - не знаю.

Цитата
Но почему Вы не хотите использовать внутренние критерии качества модели со штрафом на сложность,такие как AIC, BIC или AICc? В настоящее время это самый популярный подход.


Патамушта мы хотим не просто констатировать, что один AIC на глаз меньше другого, а хотим располагать результатами формального теста, такого как обсуждаемый тест на равенство AUC.

Цитата
Помимо Боруты есть тьма тьмущая алгоритмов ранжировки важности переменных при помощи случайных лесов (как простой, так и с автоматической селекцией значимых). Для простой ранжировки мне понравился пакет permimp, там есть настройка параметра "условности" (в смысле важности фактора при условии включении в модель вместе со всеми остальными, а не только самого по себе), которая помогает б. м. эффективно разделять скорректированные предикторы, выбирая из них наиболее важный, и отбрасывая прочие (Борута этого не может). Однако лично меня настораживает селекция переменных при помощи леса для последующей использовании в логистической регрессии. Все-таки это принципиально разные методы, и не факт, что тот фактор, который лучше других работает в одном из них будет столь же хорош во втором. К тому же, у ТС всего три потенциальных предиктора, и, думается, сильно больше наблюдений, а не наоборот, потому особой надобности углубляться в леса нет. А то они нынче так бурно поразрастались, что и заблудиться недолго.


Очень согласен. Теорию про пермутированные важности здесь Огурцов уже выкладывал, осталось лишь разобраться с пакетами, в которых это есть. Борута для меня просто как точка отсчета.



Автор: 100$ 13.08.2022 - 17:12

Цитата(salm @ 13.08.2022 - 11:18) *
Ща разберусь


Да уж, постарайтесь. А ежели сумеете все это проделать руками - готов снять перед вами шляпу прямо сейчас.

Автор: ИНО 14.08.2022 - 01:31

Цитата(100$ @ 13.08.2022 - 17:06) *
А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет.


До этого момента не было, теперь - есть. Вы что, не знаете про sci-hub?
Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни. Хотя в руководстве к pROC действительно об этом не упоминается. Значит, это я читал в руководстве к какому-то иному пакету со схожими функциями.

Цитата
Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов.

Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны). Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет.

 Делонг___сравнение_AUC.pdf ( 996,08 килобайт ) : 41
 

Автор: ИНО 14.08.2022 - 01:40

Цитата(salm @ 13.08.2022 - 11:18) *
Ооо пасиба!! Ща разберусь

Сниму шляпу если Вы будете успевать об этом читать (и понимать) быстрее, чем буржуи с китайцами будут об этом писать. Чуть ли не каждый месяц выходят по статье с категоричным утверждением: "Все предыдущие методы - фуфло, а вот мой новый - конфета". И если даже в конце предлагаться программный продукт, то дабы протестировать его полноценно в сравнении с конкурирующими подходами нужно неслабое железо, потому что случайные леса - один из самых вычислительно затратных методов машинного обучения. А если код на R, то конкретно на моем компьютере с большим набором данных можно перестановочную важность до старости считать. Надеюсь, Ваш сильно мощнее, а свободного времени сильно больше.

Автор: salm 14.08.2022 - 19:07

Здраааааствуйте!!!
Я тупая, но упрямая)))
Короче разбираться было ну очень сложно, но таким как я везет))) и нашла что-то попроще... ну или описано как попроще, статью прилагаю.
Общем там надо вроде как надо так:
Разницу между площадями разделить на корень из суммы квадратов SE для этих площадей плюс дважды коэффициент корреляции этих площадей, помноженный на эти ошибки...
корреляцию между методами я посчитала по вычисленной вероятности для здоровых и отдельно для больных
Получила Z, в моем случае 1.44 ( еще с третьей моделью сравнила первую эталонную там Z 1.21 и угомонилась))))
в списке литературы я укажу ссылку на статью.
А скажите, я могу в этой ситуации применить одностороннюю гипотезу для нахождения р по Z?
Спасибо.

 radiology.148.3.6878708.pdf ( 1,04 мегабайт ) : 34
 

Автор: 100$ 14.08.2022 - 19:28

Цитата(salm @ 14.08.2022 - 19:07) *
Здраааааствуйте!!!
Я тупая, но упрямая)))
Короче разбираться было ну очень сложно, но таким как я везет))) и нашла что-то попроще... ну или описано как попроще, статью прилагаю.
Общем там надо вроде как надо так:
Разницу между площадями разделить на корень из суммы квадратов SE для этих площадей плюс дважды коэффициент корреляции этих площадей, помноженный на эти ошибки...
корреляцию между методами я посчитала по вычисленной вероятности для здоровых и отдельно для больных
Получила Z, в моем случае 1.44 ( еще с третьей моделью сравнила первую эталонную там Z 1.21 и угомонилась))))
в списке литературы я укажу ссылку на статью.
А скажите, я могу в этой ситуации применить одностороннюю гипотезу для нахождения р по Z?
Спасибо.


Вообще-то там "минус". См. формулы (2) и (3). Вот это, я понимаю, разобралась ).

Оффтоп.
Игорь ссылается на эту статью в мануале к Аттестату.

Автор: 100$ 14.08.2022 - 19:41

Цитата(ИНО @ 14.08.2022 - 01:31) *
До этого момента не было, теперь - есть.


За статью спасибо.

Цитата
Вы что, не знаете про sci-hub?


Честно, не знал. Досель пасся на Projecteuclid.org. Когда-то у меня была книжная полка на JSTOR'e. Потом накрылась медным тазом.


Цитата
Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны).


Понятие случайного леса можно применить и к недревообразным классификаторам тож.

Цитата
Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет.


Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты.

Цитата
Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни.


Точнее, на метод обобщенных U-статистик Хёфдинга, коих Манна-Уитни является частным случаем.

Автор: salm 14.08.2022 - 19:56

Цитата(salm @ 14.08.2022 - 19:53) *
Опечаталась, торопиласт
Я вообще не слишком внимательна)
Зато и снимать ничего не нужно;)


Автор: ИНО 14.08.2022 - 22:18

Сцай-хаб, Либген и Гугль-академия - три кита современной науки!

Цитата(100$ @ 14.08.2022 - 19:41) *
Понятие случайного леса можно применить и к недревообразным классификаторам тож.

А можете подкрепить это утверждение библиографической ссылкой& Ибо понятие леса без единого дерева приводит меня в прострацию. Конечно, можно представить ансамбль из любых моделей, по принципу обучения похожий на случайный лес, называть это лесом... хм.

Цитата
Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты.

Осталось еще разобраться, какой метод расчета важностей выбрать, коих много больше трех. вообще. хорошая идея для "продуктивного анализа": перебирать все методы ранжировки до тех пор, пока желаемый исследователем предиктор не окажется на вершине. Такой вот новый инструмент датадреджинга в компанию к старым добрым ковровым бомбардировкам тестами и тысячестрчным корреляционным матрицам.


Автор: 100$ 14.08.2022 - 23:53

Цитата(ИНО @ 14.08.2022 - 22:18) *
А можете подкрепить это утверждение библиографической ссылкой?


Боюсь, что нет. Я просто знаю, что в работе

Prinzie A., Poel D. Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB // Working paper, Department of Marketing, Ghent University, 2007. P. 1-12

базовые элементы Бреймановских алгоритмов - баггинг и подпространства Хо обобщены на наивный Байесовский классификатор и мультиномиальную логит-модель.

Словосочетание Generalizing Random Forests to мне показалось достаточным, чтобы подобный анасамбль случайных NB и MNL назвать "лесом", не выясняя, сколько там деревьев, кустарников и травы выше человеческого роста.

Автор: ИНО 15.08.2022 - 08:04

Просмотрел статью по Вашей ссылке. Авторы явно заблудилисть в лесу терминологии и выбрали неудачное название статьи. При этом названия конкретных методов, ими предложенных, вполне корректны, без всяких "форестов". Вообще стиль изложения статьи сумбурный, расшифровки многих аббревиатур нет (только отсылки куда подальше к литературе). В последнюю таблицу провтыкал минут пять - нифига не понял, затем минут десть перечитывал раздел с описанием этой таблицы (всего несколько строчек) - все равно нифига не понял, плюнул, пошел спать.

Автор: salm 15.08.2022 - 09:41

Цитата(100$ @ 14.08.2022 - 19:28) *
Вообще-то там "минус". См. формулы (2) и (3). Вот это, я понимаю, разобралась ).

Оффтоп.
Игорь ссылается на эту статью в мануале к Аттестату.



Спасибо Вам огромное!!!!
Я все-таки напутала со знаком.
Спасибо что предупредили

Автор: salm 15.08.2022 - 10:24

А подскажите пожалуйста))
Вот мне нужен простой алгоритм (руководитель просит) для того что бы поднять диагностическую точность на моей выборке. Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность. У меня есть метод 2 - это оценка по непрерывной шкале пациентов той же выборки. Мне нужно определиться с порогов величиной метода 2, которая в совокупности с методом 1 повышала бы параметры диагностической эффективности (ну и про чувствительность и специфичность).
У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?

 ЧиС.pdf ( 9,58 килобайт ) : 51
 рис._3.8.pdf ( 26,19 килобайт ) : 46
 

Автор: 100$ 15.08.2022 - 13:40

Цитата(ИНО @ 15.08.2022 - 08:04) *
В последнюю таблицу провтыкал минут пять - нифига не понял, затем минут десть перечитывал раздел с описанием этой таблицы (всего несколько строчек) - все равно нифига не понял, плюнул, пошел спать.


Простите, а что там можно не понять? Для наиболее удачной модели RMNL_10 (best overall model) с проранжированными по важности фичами авторы выдают первые 10 позиций этой ранжировки и сравнивают с рангами этих же фич в RF и RNB. Я вижу, что из этих фич RF отобрал только 6, а RNB - цельных 9.

Автор: ИНО 16.08.2022 - 12:24

Для начала почему у первых двух, этих-самых "фич" одинаковые названия. Но спасибо, что разъяснили общий смысл. Ваш английский явно лучше моего.

Автор: 100$ 16.08.2022 - 15:16

Цитата(ИНО @ 16.08.2022 - 12:24) *
Для начала почему у первых двух, этих-самых "фич" одинаковые названия.


По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3).

Автор: ИНО 16.08.2022 - 16:44

salm, а Вы уверены, что нужна единая точка отсечки для метода 2 при разных уровнях фактора метода 1? Думается, что куда полезнее и проще было бы иметь разные точки отсечки в зависимости от того, есть ли у пациента это-самое, что определяет метод 1 или же нет. Решается двумя отдельными ROC-анализами (первый для тех, у кого есть, второй - для тех, у кого нет), можно вообще без моделей.

Цитата(100$ @ 16.08.2022 - 15:16) *
По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3).

Перечитал с гуглопереводом. Все равно не понял, почему предикторы имеют дублирующие названия. Видимо, без доступа к этому набору данных тайна сия будет покрыта мраком вечно. Далее, не могу понять, почему для RF большинство строк пустуют? Как RF вообще может ни разу не выбрать какой-либо предиктор? Сколько раз использовал - не было такого. Насколько я помню, классический лес Брэймана сотсоит из необрезанных деревьев CART, поэтому даже мусорные предикторы обязаны иметь импортансы, пусть и маленькие. Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные. При этом импортансы из классического RF хоть на основе индекса Джинни, хоть перестановочные, нельзя использовать напрямую для составления сквозного рейтинга в случаях разнородных данных (например, если в одной модели есть непрерывные величины и категориальные с разным количеством уровней). Без учета этих нюансов последняя таблица имеет мало смысла. Единственное, что мне ясно из нее: принципиально разные модели по-разному выбирают наиболее значимые предикторы и это было ожидаемо. Например, если связь зависимой переменной с предиктором сильна, но не монотонна, то любая обобщенна линейная модель (и ансамбль оных) ее не заметит, для RF же тут никакой проблемы нет. Но он может быть не столь хорош для обычной линейной связи. Если разнородные предикторы скоррелированы между собой, то при включении в такой вот "топ-10" между ними идет жесткая борьба и конечный выбор может в большей степени быть зависим от "любви" конкретного метода моделирования к конкретной форме зависимостей, нежели от реальной значимости предикторов. К сожалению из этой статьи нельзя сказать какая модель дала рейтинг более близкий к истине, т. к. эта истина неизвестна. Узнать ее можно было бы при использовании синтетическго набора данных, но почему-то авторы не сделали этого. В общем ИМХО, предлагаемые методы, может, и хороши, но статья - все равно говно.

Автор: 100$ 16.08.2022 - 21:29

Цитата(ИНО @ 16.08.2022 - 16:44) *
Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные.


Похоже, сегодня просто не ваш день. Вот, только для вас:

We utilize the out-of-bag (oob) to assess the feature importances [Breiman].

Table 5 lists the top-10 features for RMNL_10 (best overall model) together with
their z-score calculated on oob data


Хорошо помню, что Борута бракует фичи аккурат на основании z-скоров.

А вообще, давайте на этом поставим красивую жирную точку.
Я продолжаю стоять на том, что дерево - такой же классификатор, как и логистическая регрессия. Поэтому случайный ансамбль, выращенный на основе идей RF тоже можно назвать лесом. Ребята со мной согласны:

Therefore, inspired by RF, we propose Random MNL (RMNL) as a new bagged classifier combining a
forest of R MNLs estimated with m randomly selected features on the r-th bootstrap sample.


Автор: ИНО 16.08.2022 - 22:55

Скажу больше: сегодня - не мой год, и такой уже 9-й к ряду. Но это не отменяет того факта, что я спрашивал вовсе не о том, о чем Вы сейчас сказали, а именно не об использовании OOB, а о конкретной методике рассчета важностей, коих даже для классического случайного леса предложено несколько (в т. ч. с использованием ООB). А z-score вообще упоминается в контексте RMNL, а не RF. Борута считает очень хитро, с созданием "теневых предикторов", если б она использовалась в работе, то, была бы упомянута (хотя с неряшливым подходом этих авторов к написанию статьи уже не в чем нельзя быть полностью уверенным).

Ваша жирная точка зрения мне понятна, но не может быть мною принята. Потому как простейшая понятийная логика говорит, что нет деревьев - нет и леса. И даже сами авторы, похоже, колеблются. Во всяком случае, они назвали предложенный метод из процитированного Вами абзаца RMNL, а не RFMNL или MNLRF, т. е. слова "forest" постеснялись. Хотя в тексте кое-где все же оно не к месту проскакивает. Возможно даже, что один автор считал его употребление в данном контексте допустимым, а другой - нет, либо рецензент потребовал убрать.

Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог.

Автор: 100$ 17.08.2022 - 00:31

Цитата(ИНО @ 16.08.2022 - 22:55) *
Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог.


Рискну предположить (см. п. 4.1), что это как раз те фичи, которые RF счел мусорными. Там же ясно написано, что из общего количества фич, равного 441, RF отобрал 336. По-видимому, ребята стряпали 5-ю таблицу в качестве месседжа типа: "Ага, вот базовый алгоритм RF эти фичи залажал, а оне на самом деле вона какие важные! Z-скоры аж зашкаливают!". Знай, мол, наших.

Мне просто показалось, что словосочетание "статистический ансамбль случайных классификаторов" ничего не говорит ни уму, ни сердцу о том, как он (ансамбль) был получен. Зато слово "лес" сразу отсылает к бутстреп-агрегированию и подпространствам Хо.

Для форумных переболтушек сойдет. На внесении в учебники и нормативные документы не настаиваю.

Автор: ИНО 17.08.2022 - 05:54

Видимо, у каждого свои ассоциации со словом "лес", но, боюсь, ассоциация "деревья" встречается гораздо чаще, чем "подпространства Хо". Кстати, я об этом Хо и слыхом не слыхивал, пока Вы его не упомянули.

Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно (по крайней мере в случае с RF, описание "лесного наивного Байеса" я изучать не стал, так что не знаю, что там да как). Можно разве что вообразить гипотетическую ситуацию с огромным количеством предикторов и такой настройкой гиперпараметров, когда некоторые из них не будут предоставлены на рассмотрение ни одному дереву. Но это будет совсем неправильный лес, в котором водятся неправильные пчелы который нельзя публиковать, чтобы совсем уж не опозориться.

Автор: 100$ 17.08.2022 - 12:12

Цитата(ИНО @ 17.08.2022 - 05:54) *
Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно...


Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич.
Таблица 5 содержит фрагмент ранжировки, и ранжировка эта должна быть получена по единой методике, иначе ее нельзя объединить в одну таблицу.

Ребята застолбили за собой перенос идей RF на NB и MNL, и это главное. Возможно, на соседней улице кто-то в этот момент высаживал лес логистических регрессий.

Автор: passant 17.08.2022 - 16:37

salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?"

Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм.

Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял.

Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная?

Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&showtopic=4833&view=findpost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего???

Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ?
Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше).

Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом).

Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи.

Автор: ИНО 17.08.2022 - 17:08

Цитата(100$ @ 17.08.2022 - 12:12) *
Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич.


Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется.


Автор: 100$ 17.08.2022 - 20:17

Цитата(ИНО @ 17.08.2022 - 17:08) *
Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется.


Я полагаю, что все это им тоже известно.

Автор: 100$ 17.08.2022 - 20:20

Цитата(salm @ 15.08.2022 - 10:24) *
Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность.



До сих пор для этого таблицы 2х2 за глаза хватало.

Автор: ИНО 17.08.2022 - 20:41

Цитата(100$ @ 17.08.2022 - 20:17) *
Я полагаю, что все это им тоже известно.

Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице unknw.gif

Автор: 100$ 17.08.2022 - 20:56

Цитата(ИНО @ 17.08.2022 - 20:41) *
Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице unknw.gif


Ну, так и напишите им в славный город Гент.
Копию вашего запроса не забудьте направить в Спортлото.
Их ответ опубликуйте здесь на форуме.
Я подожду.

Автор: ИНО 18.08.2022 - 06:14

Зачем же сразу острить про Спортлото? Не раз уже писал зарубежным авторам, и большинство вполне себе корректно отвечало в течение, максимум, двух недель. Но это были ситуации, когда я был по-настоящему заинтересован в получении информации. Эта же статья - совсем не тот случай, поскольку лично мне и без переписки с ней "все ясно", не в технических деталях, а, так сказать, в общем и целом wink.gif

Но Вы вызвались на роль ее адвоката, так что Вам и писать biggrin.gif

Автор: salm 9.09.2022 - 18:48

Добрый лень. Спасибо, что отвечаете
У меня есть один классический предиктор - он бинарный. Вторая обьясняющая периенная добавляемая в модель -она по непрерывной шкале измеренна. Вот их всего две, я получаю модель с коэффициентами. Изначально я так делаю, чтобы показать что Добавление в модель этой непрерывной переменной при прогнозирования вероятности исхода улучшает всю модель ( ну то есть как я это понимаю, каждому участнику из моей выборки будет присвоено значение вероятности наиблизкое к истинному (заодно проверю свои знания)))? почему только два предиктора: ну вот в данном случае, меня интересуют только они
Из таблицы сопряжен у меня есть показатели чувствительности и специфичности для бинарного предиктора ( тот что первый фактор)
Я, добавляя непрерывную переменную в модель бинарной лог регрессии улучшаю ее ( я понимаю что улучшение и состоит в том что каждому пациенту будет присвоена вероятность от 0 до 1 более точная) но при этом оптимальное пороговое значение я могу выбрать для значения вероятности. А мне не это надо))))
Мне надо с учетом того первого бинарного фактора найти оптимальную точку для непрерывной переменной (для второго фактора) с тем, чтобы получить простой диагностический алгоритм (ну назову его так))) вот при одновременном положительном значении первого фактора и второго нтже конкретной (искомой мной) пороговой точки я получаю Ч и С такую то
Ну то есть оптимальный порог при рок анализе один, а при комбинации в логоегрессии с бинарным фактором, он другой, если я хочу долю истиный ответов увеличить и это возможно..
Оптимальная пороговая величина в комбинации с доугим предиктором другая. Я понимаю что это не входит в задачи при построении регрессионной модели, но мне каааажется))) что связь то есть)) и так возможно
Возможно? Может, с помощью этого графика выделить оптимальную точку вероятности и сопоставить ее со значением непрерывной переменной?..
а задача ну изначально несложная - комбинировать два предиктора ( бинарный и непрерывный) в таблицу 4на 4, и высислить Ч и С

Автор: ИНО 9.09.2022 - 21:40

Лень добрым не бывает!

А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там.

Автор: salm 9.09.2022 - 22:35

Цитата(ИНО @ 9.09.2022 - 21:40) *
Лень добрым не бывает!

А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там.


Ни с чего не взяла, просто задумалась, (зафантизировалась)) мало ли..
И спросила. На всякий случай
Спасибо

Автор: 100$ 10.09.2022 - 00:07

Цитата(salm @ 9.09.2022 - 18:48) *
Возможно?


Возможно. Причем до смешного просто: надо оценить логистическую регрессию с одним-единственным вспомогательным регрессором - плотностью совместного распределения дихотомическаго и непрерывнаго регрессоров.
С последующим ROC-анализом. Как учили.

Правда, предстоит много сопутствующей работы:
а) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

б) с помощью техники k-folds crossvalidation оценить обобщающую способность модели.

Пользоваться такой конструкцией будет тоже очень просто: пришел пациент с таким-то значением дихотомической и таким-то значением непрерывной переменной. По обучающей выборке (той, по которой оценивали модель) быстренько оцениваем ядерную плотность непрерывного регрессора для вновь поступившего объекта, умножаем ее на оцененный по выборке параметр биномиального распределения (по данным дихотомической переменной) и полученную плотность совместного распределениия закидываем в оцененное уравнение регрессии. Voila!

С такой диссертацией под мышкой дверь на заседание диссертационного Совета можно ногой открывать.

Автор: ИНО 11.09.2022 - 10:33

Ну очень просто, да biggrin.gif Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной? Или да ну ее на фиг, странную задачу эту? Вообще, идея здравая - нечего информацией разбрасываться. Однако тогда чем обычная двухфакторная логистическая регрессия не угодила?

Цитата(100$ @ 10.09.2022 - 00:07) *
сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

Странное утверждение. Любой предиктор полезен, если действительно уменьшает ошибку предсказания, пусть даже всего на 1%. Иное дело, что на практике затраты на сбор дополнительных данных для такого небольшого улучшения может не стоить свеч, но это уже не предмет статистики.

Автор: 100$ 11.09.2022 - 14:10

Цитата(ИНО @ 11.09.2022 - 10:33) *
Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной?


Таковой будет точка максимальной совместной плотности, если она (точка) существует.

Кроме того, существует техника дискриминантного анализа дихотомических переменных (Гибб, Штремель, 2015), пакет {binDA}
Тогда, видимо, придется решать переборную задачу: выбираем произвольный порог отсечения, классифицируем, смотрим качество классификации.
И так много раз.
Метод также в качестве бонуса выдает диаграммку важности предикторов.

Автор: ИНО 11.09.2022 - 17:16

Опять Вы в какие-то дебри ноу-хау лезете. Диаграммка перестановочных важностей целых двух предикторов - это сильно. Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели. И, поскольку оба предиктора будут бинарными, важность каждого из них подскажет обычный коэффициент регрессии с ДИ, даже стандартизировать не нужно.

Но только искать единственную среденепотолочную по больнице точку - глупость. Разве что, если первый предиктор - это пол пациента, и надо их как-то уравнять во избежание подозрений в сексизме smile.gif

Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора. Там же, на диаграмме, будут точечки наблюдений, по положению которых станет понятно, а стоит ли вообще с этой затеей возиться. Очень простая и широко используемая штука. Но таки открывать дверь диссовета ногой, вооружившись ею, наверное, не получится. А вот больных диагностировать вполне.


Автор: 100$ 11.09.2022 - 18:14

Я рассуждаю просто: вся информация о совместном распределении предикторов заключена в плотности этого самого распределения.
Но, прежде чем искать черную кошку в темной комнате, я хочу удостовериься, что она там есть. Каким образом? А очень просто: если совместная плотность имеет глобальный максимум - задача имеет решение. Если там куча локальных максимумов - никаких рекомендаций по осмысленному выбору значения непрерывного предиктора, которое можно было бы использовать в качестве некоего порога отсечения, дать нельзя.
Ну, а уж если там вообще нет никаких максимумов, ни глобального, ни локальных - задача вообще не имеет решения.


Цитата
Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели.


Можно. Аж до вздутия кишечника. А можно до Матрениных заговений. А можно до Второго пришествия. Патамушта заранее неизвестно, есть ли на множестве значений непрерывного предиктора единственное решение этой задачи, или таких решений нет вообще, или их (решений) там бесконечное множество.

Цитата
Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора


Я, видимо, чего-то не понимаю: как одна модель может дать два сигмоида? Пакет дихотомическую переменную как-то очень хитро кодирует? Правда, непонятно.
Кроме того, как я привык думать, любая модель (и логистическая регрессия - не исключение) - это, вообще-то, про зависимую переменную, а не про предикторы.
Вы оценили модель, в которой по умолчанию порог дихотомизации зависимой переменной - 0,5. Ему соотвестствуют определенные ошибки i и ii рода. Если поиграться этим порогом, стремясь сбалансировать ошибки, получится ROC-анализ. А каким образом это помогает "оптимально" дихотомизировать регрессоры?
В общем, жду вашего ответа, как соловей лета.

Автор: ИНО 12.09.2022 - 00:26

Ядерная оценка плотности - это не хухры-мухры! Найдете вы в ней один максимум, или много зависит не только от реальной картины ППД, но и от а) выбора параметра ядра (не то чтобы тривиальная и однозначна решаемая задача), б) выбора самого ядра (в меньшей степени, но все же), в) выбора фиксированного или адаптивного ядра, а в последнем случае - также параметра чувствительности. Поигравшись с этими настройками можно на одной и той же выборке "найти" пиков от 0 до n, и и какой из этих вариантов будет ближе к истине определить на практике затруднительно (особенно если за ранее не знаешь, на что примерно оно должно быть похоже). Поэтому ядерную оценку в качестве инструментальной переменной обычно используют не от хорошей жизни, а именно в случаях, когда без нее задача не решается (решается плохо). Ибо это равносильно введению дополнительных оцениваемых по выборке параметров. Оцениваемых с трудом и неоднозначно. В нашем же случае простым перебором, не мудрствуя лукаво, задачу решить вполне можно, эдакий брутфорс. Кстати, так же обычно производится поиск оптимальных гиперпараметров случайного леса или бустинга, и никто не жалуется, хотя там вычислительные затраты куда больше. Но, повторюсь, с практической точки зрения задача сформулирована не слишком корректно, эдакая средняя температура по больнице.

Насколько я понял, ТС хочет дихотомизировать именно непрерывный предиктор. Зачем - тайна сия велика есть. Ну может чтоб в блокнотике ставить вместо четырехзначной цифры + или -, или какую-то тест-систему с полосками замутить.

Насчет двух сигмоидов. Вот для примера картинка из моей научной работы, тут хоть и не сигмоиды, а иные кривые, но суть явления ясна. Модель одна, предикатов два: бинарный и непрерывный. Первый обозначен цветом, второй отложен по оси абсцисс.

 

Автор: 100$ 12.09.2022 - 01:47

А зачем такие страсти-мордасти?
Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался.


P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную?
Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю.

P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич.
Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам?
И в чем ее познавательная ценность?

Автор: ИНО 12.09.2022 - 19:35

Цитата(100$ @ 12.09.2022 - 01:47) *
А зачем такие страсти-мордасти?
Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался.


Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения. Причем то, какие настройки правильные, - большой вопрос. Методов поиска оптимальной ширины окна тьма тьмущая, и результаты они дают сильно разные. Например, не помню уже какой именно, основанный на кросссвалидации (а только таких существует не менее трех, не говоря уж о прочих), а может, и все они, работает неправильно при наличии малейших признаков группировки наблюдений (например, той которая возникает, если цена деления шкалы прибора не исчезающе мала на фоне размаха измеряемой величины). И так у каждого свои слабые места. Поэтому на тему очередного "самого правильного метода" постоянно выходят все новые статьи. Но, как показывает практика, каждый из них хорошо работает лишь в частных случаях. А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков. А там еще один параметр добавляется. В итоге наша регрессионная модель приходит в непредсказуемую зависимость от кучи дополнительных параметров. Это явно метод для тех, чье жизненное кредо "не созданы мы для легких путей" smile.gif . Просто графически форуму распределения с помощью одномерной ядерной оценки плотности удобно и приятно, но все, что сверх того, намного сложнее, и, вероятно, является большей частью уделом специалистов. Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов.


Цитата
P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную?
Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю.


Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так shok.gif http://molbiol.ru/forums/index.php?showtopic=102724&view=findpost&p=1910974 я задавался этим вопросом, ответа не получил. Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю. Хотя, наверное, не мешало бы сравнить результаты, с теми, которые выдают другие программы.

Цитата
P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич.
Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам?
И в чем ее познавательная ценность?
Почему черный? Он же белый! Но суть Вы уловили верно. Только там еще учтено взаимодейстивие двух факторов, без него кривые были бы параллельны, но тоже две. А как эти две частные кривульки можно обобщить до одной глобальной? Не представляю. Суть диагараммы проста: влияние непрерывного предиктора на зависимую переменную различается в зависимости от другого дихотомичесокого предиктора (принадлежности к одной из двух групп). Можно, например, представить, что красным изображены девочки, а синим - мальчики, по оси абсцисс отложена доза препарата, а по оси ординат - уровень в крови фактора Ы (хотя на самом деле это вовсе не так, но сути представления не меняет).

Автор: 100$ 12.09.2022 - 23:04

Цитата(ИНО @ 12.09.2022 - 19:35) *
А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков.


Ну, вообще-то базовая проблема ядерного сглаживания - не ложные пики, а краевые эффекты, но речь не о том.
Речь о том, что я хочу хоть в первом приближении уловить точку, в окрестности которой можно поискать некий оптимум.
Патамушта в общем случае вожделенный поиск удачной точки дихотомизации (особливо в присутствии "переключателя" - дихотомической переменной) - это поиск того, чего нет.


Цитата
Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения.


А вы часто видели в медицине равномерные распределения? Я - нет. Поэтому, завидев равномерное распределение, тотчас отыграю назад ).

Цитата
Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов.


Ничего себе "небольшое изменение". От него-то по большей части все и зависит.
И потом, а чего вы, собственно, хотите? Задача восстановления плотности (в т.ч. и условной) относится к классу некорректных задач. Поэтому единственно правильного учения там нет и быть не может. Любая непараметрическая регрессия - это формализация понятия "сглаживание на глазок".

Наверное, в статистике для самого расчудесного метода можно подобрать датасет, который ему (методу) не по зубам.
На одном датасете у меня, н-р, нейросеть просто колом встала.
Ну и что? Бывает.

Цитата
Если победите зверя этого, дайте знать.


Я в свое время отдал дань пакету {kedd}, а теперь даже не вижу его в перечне пакетов, доступных для загрузки.
Все эти пакеты имеют свойство быстро надоедать. Примерно как листание всех этих бесконечных pdf'ов.

Однако, в перечне соавторов {np} заявлен Джеффри Расин, а это, можно сказать, мой любимый писатель на тему непараметрической регрессии.

Цитата
Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так ... Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю.


Спасибо за экспресс-консультацию. Теперь буду делать так же.

Автор: ИНО 13.09.2022 - 01:42

Цитата(100$ @ 12.09.2022 - 23:04) *
Ну, вообще-то базовая проблема ядерного сглаживания - не ложные пики, а краевые эффекты, но речь не о том.

Там много проблем. Но насчет краевых эффектов хотелось бы уточнения, потому как под этим понятием можно подразумевать существенно разные вещи (из них ядерные методы в разных приложениях страдают, как минимум, двумя).
Цитата
А вы часто видели в медицине равномерные распределения? Я - нет. Поэтому, завидев равномерное распределение, тотчас отыграю назад ).

Я вообще к медицине имею отношение только как пациент. Но много времени посвятил изучению проблемы ядерной оценки плотности распределения на окружности, там равномерное - классика.
Цитата
Ничего себе "небольшое изменение". От него-то по большей части все и зависит.

Все завависет от самой ширины окна. А вот все методы, если они корректны, должны приводить к схожему показателю. Но на практике там страшный разброд и шатание.

Цитата
Поэтому единственно правильного учения там нет и быть не может.

Но моделирование по идее должно показывать, какие правильнее других. И якобы с доказетельствами этого выходит множество статей. Но проверку на реальных данных они выдерживабт плохо, по крайней мере таков мой опыт. Для своих данных ничего лучше простого и древнего эмпирического правила Сильвирмана для гауссова ядра я не нашел.

Цитата
На одном датасете у меня, н-р, нейросеть просто колом встала.
Ну и что? Бывает.

По нейросети ничего не могу сказать - не пользовал. Только слышал краем уха, что правильную нейросеть под конкретную задачу запрограммировать тот еще гемор.

Цитата
Я в свое время отдал дань пакету {kedd}, а теперь даже не вижу его в перечне пакетов, доступных для загрузки.

MRAN поможет.

Однако, в перечне соавторов {np} заявлен Джеффри Расин, а это, можно сказать, мой любимый писатель на тему непараметрической регрессии.
ну. такой гуру точно знает как правильно это np под конкретные задачи программировать. Увы в статьях его, посвященных данному пакету (одна есть даже в русском переводе, правда с вырезанным R-кодом) большинство параметров аргументов упомянтутых функций вообще не оговариваются. Во всех иллюстративных примерах показано преимущество его методов над традиционными параметрическими (типа всегда, если есть не более двух непрерывных предикторов), увы в моих попытках ситуация была обратной. Даже с одним количественным и одним бинарным предиктрами получалось сильно хуже, чем банальная линейно-полиномивальная модель.

Автор: Leonov 22.09.2022 - 16:41

При использовании многомерного метода статистического анализа по логистической регрессии нужно помнить, что такой анализ производится по раскрытию именно сложных зависимостей между парой или более количества подгрупп. А также при этом используется и несколько разных признаков, которые и количественные, и группирующие. Так вот для такого многомерного метода логистической регрессии как раз можно и нужно использовать не один вариант анализа, а также разные методы, и разные технологии. Например сам я уже в течении 40 лет используя метод логистической регрессии, как раз для одной такой технологии, использую примерно от 15 до 45 разных вариантов методов анализа. Почему и выбираются при этом порядка 3-8 самые важные полученные уравнения. И при этом также по введённым в уравнения признаки, также сортируются от самого важного, до последнего, менее важного набора включённых признаков. А некоторые признаки вообще оказываются неважными, и не полезными. И по каждому полученному уравнению важно вводить и таблицу сопряжённости исходных и используемых подгрупп, где также выделяются важности, или неважности, используемых подгрупп. А при использовании пары сравниваемых подгрупп, желательно продуктивно использовать и ROC-анализ. Эти используемые детали можете почитать по 10 статьям в адресе http://biometrica.tomsk.ru/logit_0.htm .

Автор: Игорь 24.09.2022 - 09:11

Как надо делать: Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000.

Как не надо - выше.

Автор: 100$ 25.09.2022 - 18:46

Цитата(Игорь @ 24.09.2022 - 09:11) *
Как надо делать: Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000.


Шо, все 400 страниц?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)