Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Логистическая регрессия, помогите понять
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2
100$
Цитата(salm @ 13.08.2022 - 11:18) *
Ща разберусь


Да уж, постарайтесь. А ежели сумеете все это проделать руками - готов снять перед вами шляпу прямо сейчас.
ИНО
Цитата(100$ @ 13.08.2022 - 17:06) *
А у вас есть под рукой базовая статья Delong и соавт. (1988), чтобы ее сюда выложить? А то я на JSTOR'е так и не сумел на нее полюбоваться: видит око, да зуб неймет.


До этого момента не было, теперь - есть. Вы что, не знаете про sci-hub?
Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни. Хотя в руководстве к pROC действительно об этом не упоминается. Значит, это я читал в руководстве к какому-то иному пакету со схожими функциями.

Цитата
Теоретически - ничего подобного: сажается лес логистических регрессий и на основе подпространств Хо (Тин Кам Хо, 1988) оценивается относительная важность предикторов.

Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны). Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет.
ИНО
Цитата(salm @ 13.08.2022 - 11:18) *
Ооо пасиба!! Ща разберусь

Сниму шляпу если Вы будете успевать об этом читать (и понимать) быстрее, чем буржуи с китайцами будут об этом писать. Чуть ли не каждый месяц выходят по статье с категоричным утверждением: "Все предыдущие методы - фуфло, а вот мой новый - конфета". И если даже в конце предлагаться программный продукт, то дабы протестировать его полноценно в сравнении с конкурирующими подходами нужно неслабое железо, потому что случайные леса - один из самых вычислительно затратных методов машинного обучения. А если код на R, то конкретно на моем компьютере с большим набором данных можно перестановочную важность до старости считать. Надеюсь, Ваш сильно мощнее, а свободного времени сильно больше.
salm
Здраааааствуйте!!!
Я тупая, но упрямая)))
Короче разбираться было ну очень сложно, но таким как я везет))) и нашла что-то попроще... ну или описано как попроще, статью прилагаю.
Общем там надо вроде как надо так:
Разницу между площадями разделить на корень из суммы квадратов SE для этих площадей плюс дважды коэффициент корреляции этих площадей, помноженный на эти ошибки...
корреляцию между методами я посчитала по вычисленной вероятности для здоровых и отдельно для больных
Получила Z, в моем случае 1.44 ( еще с третьей моделью сравнила первую эталонную там Z 1.21 и угомонилась))))
в списке литературы я укажу ссылку на статью.
А скажите, я могу в этой ситуации применить одностороннюю гипотезу для нахождения р по Z?
Спасибо.
100$
Цитата(salm @ 14.08.2022 - 19:07) *
Здраааааствуйте!!!
Я тупая, но упрямая)))
Короче разбираться было ну очень сложно, но таким как я везет))) и нашла что-то попроще... ну или описано как попроще, статью прилагаю.
Общем там надо вроде как надо так:
Разницу между площадями разделить на корень из суммы квадратов SE для этих площадей плюс дважды коэффициент корреляции этих площадей, помноженный на эти ошибки...
корреляцию между методами я посчитала по вычисленной вероятности для здоровых и отдельно для больных
Получила Z, в моем случае 1.44 ( еще с третьей моделью сравнила первую эталонную там Z 1.21 и угомонилась))))
в списке литературы я укажу ссылку на статью.
А скажите, я могу в этой ситуации применить одностороннюю гипотезу для нахождения р по Z?
Спасибо.


Вообще-то там "минус". См. формулы (2) и (3). Вот это, я понимаю, разобралась ).

Оффтоп.
Игорь ссылается на эту статью в мануале к Аттестату.
100$
Цитата(ИНО @ 14.08.2022 - 01:31) *
До этого момента не было, теперь - есть.


За статью спасибо.

Цитата
Вы что, не знаете про sci-hub?


Честно, не знал. Досель пасся на Projecteuclid.org. Когда-то у меня была книжная полка на JSTOR'e. Потом накрылась медным тазом.


Цитата
Ух, какие дебри! Увы, понятия не имею, что такое пространства Хо, и как из регрессионных прямых (кривых) можно вырастить лес (думал, для этого деревья нужны).


Понятие случайного леса можно применить и к недревообразным классификаторам тож.

Цитата
Однако в обычной логистической регрессии, чтобы ранжировать предикторы по важности достаточно взглянуть на стандартизированные коэффициенты с ДИ. Именно с этого предлагаю начать ТС, а побуждать в разнообразных лесах она еще успеет.


Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты.

Цитата
Особо не вникал, но уяснил, что метод Делонга опирается на Манна-Уитни.


Точнее, на метод обобщенных U-статистик Хёфдинга, коих Манна-Уитни является частным случаем.
salm
Цитата(salm @ 14.08.2022 - 19:53) *
Опечаталась, торопиласт
Я вообще не слишком внимательна)
Зато и снимать ничего не нужно;)

ИНО
Сцай-хаб, Либген и Гугль-академия - три кита современной науки!

Цитата(100$ @ 14.08.2022 - 19:41) *
Понятие случайного леса можно применить и к недревообразным классификаторам тож.

А можете подкрепить это утверждение библиографической ссылкой& Ибо понятие леса без единого дерева приводит меня в прострацию. Конечно, можно представить ансамбль из любых моделей, по принципу обучения похожий на случайный лес, называть это лесом... хм.

Цитата
Правда, методов расчета этих коэффициентов только мне известно целых три. Возможно, их гораздо больше. Поэтому надо посмотреть, как между собой соотносятся диаграммы важности предикторов и стандартизированные к-ты.

Осталось еще разобраться, какой метод расчета важностей выбрать, коих много больше трех. вообще. хорошая идея для "продуктивного анализа": перебирать все методы ранжировки до тех пор, пока желаемый исследователем предиктор не окажется на вершине. Такой вот новый инструмент датадреджинга в компанию к старым добрым ковровым бомбардировкам тестами и тысячестрчным корреляционным матрицам.

100$
Цитата(ИНО @ 14.08.2022 - 22:18) *
А можете подкрепить это утверждение библиографической ссылкой?


Боюсь, что нет. Я просто знаю, что в работе

Prinzie A., Poel D. Random Multiclass Classification: Generalizing Random Forests to Random MNL and Random NB // Working paper, Department of Marketing, Ghent University, 2007. P. 1-12

базовые элементы Бреймановских алгоритмов - баггинг и подпространства Хо обобщены на наивный Байесовский классификатор и мультиномиальную логит-модель.

Словосочетание Generalizing Random Forests to мне показалось достаточным, чтобы подобный анасамбль случайных NB и MNL назвать "лесом", не выясняя, сколько там деревьев, кустарников и травы выше человеческого роста.
ИНО
Просмотрел статью по Вашей ссылке. Авторы явно заблудилисть в лесу терминологии и выбрали неудачное название статьи. При этом названия конкретных методов, ими предложенных, вполне корректны, без всяких "форестов". Вообще стиль изложения статьи сумбурный, расшифровки многих аббревиатур нет (только отсылки куда подальше к литературе). В последнюю таблицу провтыкал минут пять - нифига не понял, затем минут десть перечитывал раздел с описанием этой таблицы (всего несколько строчек) - все равно нифига не понял, плюнул, пошел спать.
salm
Цитата(100$ @ 14.08.2022 - 19:28) *
Вообще-то там "минус". См. формулы (2) и (3). Вот это, я понимаю, разобралась ).

Оффтоп.
Игорь ссылается на эту статью в мануале к Аттестату.



Спасибо Вам огромное!!!!
Я все-таки напутала со знаком.
Спасибо что предупредили
salm
А подскажите пожалуйста))
Вот мне нужен простой алгоритм (руководитель просит) для того что бы поднять диагностическую точность на моей выборке. Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность. У меня есть метод 2 - это оценка по непрерывной шкале пациентов той же выборки. Мне нужно определиться с порогов величиной метода 2, которая в совокупности с методом 1 повышала бы параметры диагностической эффективности (ну и про чувствительность и специфичность).
У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?
100$
Цитата(ИНО @ 15.08.2022 - 08:04) *
В последнюю таблицу провтыкал минут пять - нифига не понял, затем минут десть перечитывал раздел с описанием этой таблицы (всего несколько строчек) - все равно нифига не понял, плюнул, пошел спать.


Простите, а что там можно не понять? Для наиболее удачной модели RMNL_10 (best overall model) с проранжированными по важности фичами авторы выдают первые 10 позиций этой ранжировки и сравнивают с рангами этих же фич в RF и RNB. Я вижу, что из этих фич RF отобрал только 6, а RNB - цельных 9.
ИНО
Для начала почему у первых двух, этих-самых "фич" одинаковые названия. Но спасибо, что разъяснили общий смысл. Ваш английский явно лучше моего.
100$
Цитата(ИНО @ 16.08.2022 - 12:24) *
Для начала почему у первых двух, этих-самых "фич" одинаковые названия.


По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3).
ИНО
salm, а Вы уверены, что нужна единая точка отсечки для метода 2 при разных уровнях фактора метода 1? Думается, что куда полезнее и проще было бы иметь разные точки отсечки в зависимости от того, есть ли у пациента это-самое, что определяет метод 1 или же нет. Решается двумя отдельными ROC-анализами (первый для тех, у кого есть, второй - для тех, у кого нет), можно вообще без моделей.

Цитата(100$ @ 16.08.2022 - 15:16) *
По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3).

Перечитал с гуглопереводом. Все равно не понял, почему предикторы имеют дублирующие названия. Видимо, без доступа к этому набору данных тайна сия будет покрыта мраком вечно. Далее, не могу понять, почему для RF большинство строк пустуют? Как RF вообще может ни разу не выбрать какой-либо предиктор? Сколько раз использовал - не было такого. Насколько я помню, классический лес Брэймана сотсоит из необрезанных деревьев CART, поэтому даже мусорные предикторы обязаны иметь импортансы, пусть и маленькие. Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные. При этом импортансы из классического RF хоть на основе индекса Джинни, хоть перестановочные, нельзя использовать напрямую для составления сквозного рейтинга в случаях разнородных данных (например, если в одной модели есть непрерывные величины и категориальные с разным количеством уровней). Без учета этих нюансов последняя таблица имеет мало смысла. Единственное, что мне ясно из нее: принципиально разные модели по-разному выбирают наиболее значимые предикторы и это было ожидаемо. Например, если связь зависимой переменной с предиктором сильна, но не монотонна, то любая обобщенна линейная модель (и ансамбль оных) ее не заметит, для RF же тут никакой проблемы нет. Но он может быть не столь хорош для обычной линейной связи. Если разнородные предикторы скоррелированы между собой, то при включении в такой вот "топ-10" между ними идет жесткая борьба и конечный выбор может в большей степени быть зависим от "любви" конкретного метода моделирования к конкретной форме зависимостей, нежели от реальной значимости предикторов. К сожалению из этой статьи нельзя сказать какая модель дала рейтинг более близкий к истине, т. к. эта истина неизвестна. Узнать ее можно было бы при использовании синтетическго набора данных, но почему-то авторы не сделали этого. В общем ИМХО, предлагаемые методы, может, и хороши, но статья - все равно говно.
100$
Цитата(ИНО @ 16.08.2022 - 16:44) *
Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные.


Похоже, сегодня просто не ваш день. Вот, только для вас:

We utilize the out-of-bag (oob) to assess the feature importances [Breiman].

Table 5 lists the top-10 features for RMNL_10 (best overall model) together with
their z-score calculated on oob data


Хорошо помню, что Борута бракует фичи аккурат на основании z-скоров.

А вообще, давайте на этом поставим красивую жирную точку.
Я продолжаю стоять на том, что дерево - такой же классификатор, как и логистическая регрессия. Поэтому случайный ансамбль, выращенный на основе идей RF тоже можно назвать лесом. Ребята со мной согласны:

Therefore, inspired by RF, we propose Random MNL (RMNL) as a new bagged classifier combining a
forest of R MNLs estimated with m randomly selected features on the r-th bootstrap sample.

ИНО
Скажу больше: сегодня - не мой год, и такой уже 9-й к ряду. Но это не отменяет того факта, что я спрашивал вовсе не о том, о чем Вы сейчас сказали, а именно не об использовании OOB, а о конкретной методике рассчета важностей, коих даже для классического случайного леса предложено несколько (в т. ч. с использованием ООB). А z-score вообще упоминается в контексте RMNL, а не RF. Борута считает очень хитро, с созданием "теневых предикторов", если б она использовалась в работе, то, была бы упомянута (хотя с неряшливым подходом этих авторов к написанию статьи уже не в чем нельзя быть полностью уверенным).

Ваша жирная точка зрения мне понятна, но не может быть мною принята. Потому как простейшая понятийная логика говорит, что нет деревьев - нет и леса. И даже сами авторы, похоже, колеблются. Во всяком случае, они назвали предложенный метод из процитированного Вами абзаца RMNL, а не RFMNL или MNLRF, т. е. слова "forest" постеснялись. Хотя в тексте кое-где все же оно не к месту проскакивает. Возможно даже, что один автор считал его употребление в данном контексте допустимым, а другой - нет, либо рецензент потребовал убрать.

Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог.
100$
Цитата(ИНО @ 16.08.2022 - 22:55) *
Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог.


Рискну предположить (см. п. 4.1), что это как раз те фичи, которые RF счел мусорными. Там же ясно написано, что из общего количества фич, равного 441, RF отобрал 336. По-видимому, ребята стряпали 5-ю таблицу в качестве месседжа типа: "Ага, вот базовый алгоритм RF эти фичи залажал, а оне на самом деле вона какие важные! Z-скоры аж зашкаливают!". Знай, мол, наших.

Мне просто показалось, что словосочетание "статистический ансамбль случайных классификаторов" ничего не говорит ни уму, ни сердцу о том, как он (ансамбль) был получен. Зато слово "лес" сразу отсылает к бутстреп-агрегированию и подпространствам Хо.

Для форумных переболтушек сойдет. На внесении в учебники и нормативные документы не настаиваю.
ИНО
Видимо, у каждого свои ассоциации со словом "лес", но, боюсь, ассоциация "деревья" встречается гораздо чаще, чем "подпространства Хо". Кстати, я об этом Хо и слыхом не слыхивал, пока Вы его не упомянули.

Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно (по крайней мере в случае с RF, описание "лесного наивного Байеса" я изучать не стал, так что не знаю, что там да как). Можно разве что вообразить гипотетическую ситуацию с огромным количеством предикторов и такой настройкой гиперпараметров, когда некоторые из них не будут предоставлены на рассмотрение ни одному дереву. Но это будет совсем неправильный лес, в котором водятся неправильные пчелы который нельзя публиковать, чтобы совсем уж не опозориться.
100$
Цитата(ИНО @ 17.08.2022 - 05:54) *
Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно...


Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич.
Таблица 5 содержит фрагмент ранжировки, и ранжировка эта должна быть получена по единой методике, иначе ее нельзя объединить в одну таблицу.

Ребята застолбили за собой перенос идей RF на NB и MNL, и это главное. Возможно, на соседней улице кто-то в этот момент высаживал лес логистических регрессий.
passant
salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?"

Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм.

Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял.

Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная?

Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&sh...ost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего???

Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ?
Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше).

Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом).

Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи.
ИНО
Цитата(100$ @ 17.08.2022 - 12:12) *
Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич.


Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется.

100$
Цитата(ИНО @ 17.08.2022 - 17:08) *
Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется.


Я полагаю, что все это им тоже известно.
100$
Цитата(salm @ 15.08.2022 - 10:24) *
Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность.



До сих пор для этого таблицы 2х2 за глаза хватало.
ИНО
Цитата(100$ @ 17.08.2022 - 20:17) *
Я полагаю, что все это им тоже известно.

Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице unknw.gif
100$
Цитата(ИНО @ 17.08.2022 - 20:41) *
Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице unknw.gif


Ну, так и напишите им в славный город Гент.
Копию вашего запроса не забудьте направить в Спортлото.
Их ответ опубликуйте здесь на форуме.
Я подожду.
ИНО
Зачем же сразу острить про Спортлото? Не раз уже писал зарубежным авторам, и большинство вполне себе корректно отвечало в течение, максимум, двух недель. Но это были ситуации, когда я был по-настоящему заинтересован в получении информации. Эта же статья - совсем не тот случай, поскольку лично мне и без переписки с ней "все ясно", не в технических деталях, а, так сказать, в общем и целом wink.gif

Но Вы вызвались на роль ее адвоката, так что Вам и писать biggrin.gif
salm
Добрый лень. Спасибо, что отвечаете
У меня есть один классический предиктор - он бинарный. Вторая обьясняющая периенная добавляемая в модель -она по непрерывной шкале измеренна. Вот их всего две, я получаю модель с коэффициентами. Изначально я так делаю, чтобы показать что Добавление в модель этой непрерывной переменной при прогнозирования вероятности исхода улучшает всю модель ( ну то есть как я это понимаю, каждому участнику из моей выборки будет присвоено значение вероятности наиблизкое к истинному (заодно проверю свои знания)))? почему только два предиктора: ну вот в данном случае, меня интересуют только они
Из таблицы сопряжен у меня есть показатели чувствительности и специфичности для бинарного предиктора ( тот что первый фактор)
Я, добавляя непрерывную переменную в модель бинарной лог регрессии улучшаю ее ( я понимаю что улучшение и состоит в том что каждому пациенту будет присвоена вероятность от 0 до 1 более точная) но при этом оптимальное пороговое значение я могу выбрать для значения вероятности. А мне не это надо))))
Мне надо с учетом того первого бинарного фактора найти оптимальную точку для непрерывной переменной (для второго фактора) с тем, чтобы получить простой диагностический алгоритм (ну назову его так))) вот при одновременном положительном значении первого фактора и второго нтже конкретной (искомой мной) пороговой точки я получаю Ч и С такую то
Ну то есть оптимальный порог при рок анализе один, а при комбинации в логоегрессии с бинарным фактором, он другой, если я хочу долю истиный ответов увеличить и это возможно..
Оптимальная пороговая величина в комбинации с доугим предиктором другая. Я понимаю что это не входит в задачи при построении регрессионной модели, но мне каааажется))) что связь то есть)) и так возможно
Возможно? Может, с помощью этого графика выделить оптимальную точку вероятности и сопоставить ее со значением непрерывной переменной?..
а задача ну изначально несложная - комбинировать два предиктора ( бинарный и непрерывный) в таблицу 4на 4, и высислить Ч и С
ИНО
Лень добрым не бывает!

А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там.
salm
Цитата(ИНО @ 9.09.2022 - 21:40) *
Лень добрым не бывает!

А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там.


Ни с чего не взяла, просто задумалась, (зафантизировалась)) мало ли..
И спросила. На всякий случай
Спасибо
100$
Цитата(salm @ 9.09.2022 - 18:48) *
Возможно?


Возможно. Причем до смешного просто: надо оценить логистическую регрессию с одним-единственным вспомогательным регрессором - плотностью совместного распределения дихотомическаго и непрерывнаго регрессоров.
С последующим ROC-анализом. Как учили.

Правда, предстоит много сопутствующей работы:
а) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

б) с помощью техники k-folds crossvalidation оценить обобщающую способность модели.

Пользоваться такой конструкцией будет тоже очень просто: пришел пациент с таким-то значением дихотомической и таким-то значением непрерывной переменной. По обучающей выборке (той, по которой оценивали модель) быстренько оцениваем ядерную плотность непрерывного регрессора для вновь поступившего объекта, умножаем ее на оцененный по выборке параметр биномиального распределения (по данным дихотомической переменной) и полученную плотность совместного распределениия закидываем в оцененное уравнение регрессии. Voila!

С такой диссертацией под мышкой дверь на заседание диссертационного Совета можно ногой открывать.
ИНО
Ну очень просто, да biggrin.gif Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной? Или да ну ее на фиг, странную задачу эту? Вообще, идея здравая - нечего информацией разбрасываться. Однако тогда чем обычная двухфакторная логистическая регрессия не угодила?

Цитата(100$ @ 10.09.2022 - 00:07) *
сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный".
Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша.

Странное утверждение. Любой предиктор полезен, если действительно уменьшает ошибку предсказания, пусть даже всего на 1%. Иное дело, что на практике затраты на сбор дополнительных данных для такого небольшого улучшения может не стоить свеч, но это уже не предмет статистики.
100$
Цитата(ИНО @ 11.09.2022 - 10:33) *
Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной?


Таковой будет точка максимальной совместной плотности, если она (точка) существует.

Кроме того, существует техника дискриминантного анализа дихотомических переменных (Гибб, Штремель, 2015), пакет {binDA}
Тогда, видимо, придется решать переборную задачу: выбираем произвольный порог отсечения, классифицируем, смотрим качество классификации.
И так много раз.
Метод также в качестве бонуса выдает диаграммку важности предикторов.
ИНО
Опять Вы в какие-то дебри ноу-хау лезете. Диаграммка перестановочных важностей целых двух предикторов - это сильно. Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели. И, поскольку оба предиктора будут бинарными, важность каждого из них подскажет обычный коэффициент регрессии с ДИ, даже стандартизировать не нужно.

Но только искать единственную среденепотолочную по больнице точку - глупость. Разве что, если первый предиктор - это пол пациента, и надо их как-то уравнять во избежание подозрений в сексизме smile.gif

Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора. Там же, на диаграмме, будут точечки наблюдений, по положению которых станет понятно, а стоит ли вообще с этой затеей возиться. Очень простая и широко используемая штука. Но таки открывать дверь диссовета ногой, вооружившись ею, наверное, не получится. А вот больных диагностировать вполне.

100$
Я рассуждаю просто: вся информация о совместном распределении предикторов заключена в плотности этого самого распределения.
Но, прежде чем искать черную кошку в темной комнате, я хочу удостовериься, что она там есть. Каким образом? А очень просто: если совместная плотность имеет глобальный максимум - задача имеет решение. Если там куча локальных максимумов - никаких рекомендаций по осмысленному выбору значения непрерывного предиктора, которое можно было бы использовать в качестве некоего порога отсечения, дать нельзя.
Ну, а уж если там вообще нет никаких максимумов, ни глобального, ни локальных - задача вообще не имеет решения.


Цитата
Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели.


Можно. Аж до вздутия кишечника. А можно до Матрениных заговений. А можно до Второго пришествия. Патамушта заранее неизвестно, есть ли на множестве значений непрерывного предиктора единственное решение этой задачи, или таких решений нет вообще, или их (решений) там бесконечное множество.

Цитата
Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора


Я, видимо, чего-то не понимаю: как одна модель может дать два сигмоида? Пакет дихотомическую переменную как-то очень хитро кодирует? Правда, непонятно.
Кроме того, как я привык думать, любая модель (и логистическая регрессия - не исключение) - это, вообще-то, про зависимую переменную, а не про предикторы.
Вы оценили модель, в которой по умолчанию порог дихотомизации зависимой переменной - 0,5. Ему соотвестствуют определенные ошибки i и ii рода. Если поиграться этим порогом, стремясь сбалансировать ошибки, получится ROC-анализ. А каким образом это помогает "оптимально" дихотомизировать регрессоры?
В общем, жду вашего ответа, как соловей лета.
ИНО
Ядерная оценка плотности - это не хухры-мухры! Найдете вы в ней один максимум, или много зависит не только от реальной картины ППД, но и от а) выбора параметра ядра (не то чтобы тривиальная и однозначна решаемая задача), б) выбора самого ядра (в меньшей степени, но все же), в) выбора фиксированного или адаптивного ядра, а в последнем случае - также параметра чувствительности. Поигравшись с этими настройками можно на одной и той же выборке "найти" пиков от 0 до n, и и какой из этих вариантов будет ближе к истине определить на практике затруднительно (особенно если за ранее не знаешь, на что примерно оно должно быть похоже). Поэтому ядерную оценку в качестве инструментальной переменной обычно используют не от хорошей жизни, а именно в случаях, когда без нее задача не решается (решается плохо). Ибо это равносильно введению дополнительных оцениваемых по выборке параметров. Оцениваемых с трудом и неоднозначно. В нашем же случае простым перебором, не мудрствуя лукаво, задачу решить вполне можно, эдакий брутфорс. Кстати, так же обычно производится поиск оптимальных гиперпараметров случайного леса или бустинга, и никто не жалуется, хотя там вычислительные затраты куда больше. Но, повторюсь, с практической точки зрения задача сформулирована не слишком корректно, эдакая средняя температура по больнице.

Насколько я понял, ТС хочет дихотомизировать именно непрерывный предиктор. Зачем - тайна сия велика есть. Ну может чтоб в блокнотике ставить вместо четырехзначной цифры + или -, или какую-то тест-систему с полосками замутить.

Насчет двух сигмоидов. Вот для примера картинка из моей научной работы, тут хоть и не сигмоиды, а иные кривые, но суть явления ясна. Модель одна, предикатов два: бинарный и непрерывный. Первый обозначен цветом, второй отложен по оси абсцисс.
100$
А зачем такие страсти-мордасти?
Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался.


P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную?
Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю.

P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич.
Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам?
И в чем ее познавательная ценность?
ИНО
Цитата(100$ @ 12.09.2022 - 01:47) *
А зачем такие страсти-мордасти?
Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался.


Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения. Причем то, какие настройки правильные, - большой вопрос. Методов поиска оптимальной ширины окна тьма тьмущая, и результаты они дают сильно разные. Например, не помню уже какой именно, основанный на кросссвалидации (а только таких существует не менее трех, не говоря уж о прочих), а может, и все они, работает неправильно при наличии малейших признаков группировки наблюдений (например, той которая возникает, если цена деления шкалы прибора не исчезающе мала на фоне размаха измеряемой величины). И так у каждого свои слабые места. Поэтому на тему очередного "самого правильного метода" постоянно выходят все новые статьи. Но, как показывает практика, каждый из них хорошо работает лишь в частных случаях. А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков. А там еще один параметр добавляется. В итоге наша регрессионная модель приходит в непредсказуемую зависимость от кучи дополнительных параметров. Это явно метод для тех, чье жизненное кредо "не созданы мы для легких путей" smile.gif . Просто графически форуму распределения с помощью одномерной ядерной оценки плотности удобно и приятно, но все, что сверх того, намного сложнее, и, вероятно, является большей частью уделом специалистов. Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов.


Цитата
P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную?
Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю.


Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так shok.gif Вот-тут я задавался этим вопросом, ответа не получил. Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю. Хотя, наверное, не мешало бы сравнить результаты, с теми, которые выдают другие программы.

Цитата
P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич.
Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам?
И в чем ее познавательная ценность?
Почему черный? Он же белый! Но суть Вы уловили верно. Только там еще учтено взаимодейстивие двух факторов, без него кривые были бы параллельны, но тоже две. А как эти две частные кривульки можно обобщить до одной глобальной? Не представляю. Суть диагараммы проста: влияние непрерывного предиктора на зависимую переменную различается в зависимости от другого дихотомичесокого предиктора (принадлежности к одной из двух групп). Можно, например, представить, что красным изображены девочки, а синим - мальчики, по оси абсцисс отложена доза препарата, а по оси ординат - уровень в крови фактора Ы (хотя на самом деле это вовсе не так, но сути представления не меняет).
100$
Цитата(ИНО @ 12.09.2022 - 19:35) *
А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков.


Ну, вообще-то базовая проблема ядерного сглаживания - не ложные пики, а краевые эффекты, но речь не о том.
Речь о том, что я хочу хоть в первом приближении уловить точку, в окрестности которой можно поискать некий оптимум.
Патамушта в общем случае вожделенный поиск удачной точки дихотомизации (особливо в присутствии "переключателя" - дихотомической переменной) - это поиск того, чего нет.


Цитата
Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения.


А вы часто видели в медицине равномерные распределения? Я - нет. Поэтому, завидев равномерное распределение, тотчас отыграю назад ).

Цитата
Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов.


Ничего себе "небольшое изменение". От него-то по большей части все и зависит.
И потом, а чего вы, собственно, хотите? Задача восстановления плотности (в т.ч. и условной) относится к классу некорректных задач. Поэтому единственно правильного учения там нет и быть не может. Любая непараметрическая регрессия - это формализация понятия "сглаживание на глазок".

Наверное, в статистике для самого расчудесного метода можно подобрать датасет, который ему (методу) не по зубам.
На одном датасете у меня, н-р, нейросеть просто колом встала.
Ну и что? Бывает.

Цитата
Если победите зверя этого, дайте знать.


Я в свое время отдал дань пакету {kedd}, а теперь даже не вижу его в перечне пакетов, доступных для загрузки.
Все эти пакеты имеют свойство быстро надоедать. Примерно как листание всех этих бесконечных pdf'ов.

Однако, в перечне соавторов {np} заявлен Джеффри Расин, а это, можно сказать, мой любимый писатель на тему непараметрической регрессии.

Цитата
Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так ... Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю.


Спасибо за экспресс-консультацию. Теперь буду делать так же.
ИНО
Цитата(100$ @ 12.09.2022 - 23:04) *
Ну, вообще-то базовая проблема ядерного сглаживания - не ложные пики, а краевые эффекты, но речь не о том.

Там много проблем. Но насчет краевых эффектов хотелось бы уточнения, потому как под этим понятием можно подразумевать существенно разные вещи (из них ядерные методы в разных приложениях страдают, как минимум, двумя).
Цитата
А вы часто видели в медицине равномерные распределения? Я - нет. Поэтому, завидев равномерное распределение, тотчас отыграю назад ).

Я вообще к медицине имею отношение только как пациент. Но много времени посвятил изучению проблемы ядерной оценки плотности распределения на окружности, там равномерное - классика.
Цитата
Ничего себе "небольшое изменение". От него-то по большей части все и зависит.

Все завависет от самой ширины окна. А вот все методы, если они корректны, должны приводить к схожему показателю. Но на практике там страшный разброд и шатание.

Цитата
Поэтому единственно правильного учения там нет и быть не может.

Но моделирование по идее должно показывать, какие правильнее других. И якобы с доказетельствами этого выходит множество статей. Но проверку на реальных данных они выдерживабт плохо, по крайней мере таков мой опыт. Для своих данных ничего лучше простого и древнего эмпирического правила Сильвирмана для гауссова ядра я не нашел.

Цитата
На одном датасете у меня, н-р, нейросеть просто колом встала.
Ну и что? Бывает.

По нейросети ничего не могу сказать - не пользовал. Только слышал краем уха, что правильную нейросеть под конкретную задачу запрограммировать тот еще гемор.

Цитата
Я в свое время отдал дань пакету {kedd}, а теперь даже не вижу его в перечне пакетов, доступных для загрузки.

MRAN поможет.

Однако, в перечне соавторов {np} заявлен Джеффри Расин, а это, можно сказать, мой любимый писатель на тему непараметрической регрессии.
ну. такой гуру точно знает как правильно это np под конкретные задачи программировать. Увы в статьях его, посвященных данному пакету (одна есть даже в русском переводе, правда с вырезанным R-кодом) большинство параметров аргументов упомянтутых функций вообще не оговариваются. Во всех иллюстративных примерах показано преимущество его методов над традиционными параметрическими (типа всегда, если есть не более двух непрерывных предикторов), увы в моих попытках ситуация была обратной. Даже с одним количественным и одним бинарным предиктрами получалось сильно хуже, чем банальная линейно-полиномивальная модель.
Leonov
При использовании многомерного метода статистического анализа по логистической регрессии нужно помнить, что такой анализ производится по раскрытию именно сложных зависимостей между парой или более количества подгрупп. А также при этом используется и несколько разных признаков, которые и количественные, и группирующие. Так вот для такого многомерного метода логистической регрессии как раз можно и нужно использовать не один вариант анализа, а также разные методы, и разные технологии. Например сам я уже в течении 40 лет используя метод логистической регрессии, как раз для одной такой технологии, использую примерно от 15 до 45 разных вариантов методов анализа. Почему и выбираются при этом порядка 3-8 самые важные полученные уравнения. И при этом также по введённым в уравнения признаки, также сортируются от самого важного, до последнего, менее важного набора включённых признаков. А некоторые признаки вообще оказываются неважными, и не полезными. И по каждому полученному уравнению важно вводить и таблицу сопряжённости исходных и используемых подгрупп, где также выделяются важности, или неважности, используемых подгрупп. А при использовании пары сравниваемых подгрупп, желательно продуктивно использовать и ROC-анализ. Эти используемые детали можете почитать по 10 статьям в адресе http://biometrica.tomsk.ru/logit_0.htm .
Игорь
Как надо делать: Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000.

Как не надо - выше.
100$
Цитата(Игорь @ 24.09.2022 - 09:11) *
Как надо делать: Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000.


Шо, все 400 страниц?
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.