Логистическая регрессия, помогите понять - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

7 страниц

« < 3 4 5 6 7 >

Добавить ответ в эту тему

Открыть тему

Логистическая регрессия, помогите понять

salm Просмотр профиля	15.08.2022 - 09:41 Сообщение #61
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Цитата(100$ @ 14.08.2022 - 19:28) Вообще-то там "минус". См. формулы (2) и (3). Вот это, я понимаю, разобралась ). Оффтоп. Игорь ссылается на эту статью в мануале к Аттестату. Спасибо Вам огромное!!!! Я все-таки напутала со знаком. Спасибо что предупредили

salm Просмотр профиля	15.08.2022 - 10:24 Сообщение #62
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	А подскажите пожалуйста)) Вот мне нужен простой алгоритм (руководитель просит) для того что бы поднять диагностическую точность на моей выборке. Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность. У меня есть метод 2 - это оценка по непрерывной шкале пациентов той же выборки. Мне нужно определиться с порогов величиной метода 2, которая в совокупности с методом 1 повышала бы параметры диагностической эффективности (ну и про чувствительность и специфичность). У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея? Сообщение отредактировал salm - 15.08.2022 - 10:49 Прикрепленные файлы ЧиС.pdf ( 9,58 килобайт ) Кол-во скачиваний: 52 рис._3.8.pdf ( 26,19 килобайт ) Кол-во скачиваний: 48

100$ Просмотр профиля	15.08.2022 - 13:40 Сообщение #63
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 15.08.2022 - 08:04) В последнюю таблицу провтыкал минут пять - нифига не понял, затем минут десть перечитывал раздел с описанием этой таблицы (всего несколько строчек) - все равно нифига не понял, плюнул, пошел спать. Простите, а что там можно не понять? Для наиболее удачной модели RMNL_10 (best overall model) с проранжированными по важности фичами авторы выдают первые 10 позиций этой ранжировки и сравнивают с рангами этих же фич в RF и RNB. Я вижу, что из этих фич RF отобрал только 6, а RNB - цельных 9.

ИНО Просмотр профиля	16.08.2022 - 12:24 Сообщение #64
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Для начала почему у первых двух, этих-самых "фич" одинаковые названия. Но спасибо, что разъяснили общий смысл. Ваш английский явно лучше моего.

100$ Просмотр профиля	16.08.2022 - 15:16 Сообщение #65
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 16.08.2022 - 12:24) Для начала почему у первых двух, этих-самых "фич" одинаковые названия. По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3).

ИНО Просмотр профиля	16.08.2022 - 16:44 Сообщение #66
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	salm, а Вы уверены, что нужна единая точка отсечки для метода 2 при разных уровнях фактора метода 1? Думается, что куда полезнее и проще было бы иметь разные точки отсечки в зависимости от того, есть ли у пациента это-самое, что определяет метод 1 или же нет. Решается двумя отдельными ROC-анализами (первый для тех, у кого есть, второй - для тех, у кого нет), можно вообще без моделей. Цитата(100$ @ 16.08.2022 - 15:16) По той же самой причине, почему там 2 socio-demo и 4 order'а: это какие-то известные только им градации/категории чего-то там (см. раrt 3). Перечитал с гуглопереводом. Все равно не понял, почему предикторы имеют дублирующие названия. Видимо, без доступа к этому набору данных тайна сия будет покрыта мраком вечно. Далее, не могу понять, почему для RF большинство строк пустуют? Как RF вообще может ни разу не выбрать какой-либо предиктор? Сколько раз использовал - не было такого. Насколько я помню, классический лес Брэймана сотсоит из необрезанных деревьев CART, поэтому даже мусорные предикторы обязаны иметь импортансы, пусть и маленькие. Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные. При этом импортансы из классического RF хоть на основе индекса Джинни, хоть перестановочные, нельзя использовать напрямую для составления сквозного рейтинга в случаях разнородных данных (например, если в одной модели есть непрерывные величины и категориальные с разным количеством уровней). Без учета этих нюансов последняя таблица имеет мало смысла. Единственное, что мне ясно из нее: принципиально разные модели по-разному выбирают наиболее значимые предикторы и это было ожидаемо. Например, если связь зависимой переменной с предиктором сильна, но не монотонна, то любая обобщенна линейная модель (и ансамбль оных) ее не заметит, для RF же тут никакой проблемы нет. Но он может быть не столь хорош для обычной линейной связи. Если разнородные предикторы скоррелированы между собой, то при включении в такой вот "топ-10" между ними идет жесткая борьба и конечный выбор может в большей степени быть зависим от "любви" конкретного метода моделирования к конкретной форме зависимостей, нежели от реальной значимости предикторов. К сожалению из этой статьи нельзя сказать какая модель дала рейтинг более близкий к истине, т. к. эта истина неизвестна. Узнать ее можно было бы при использовании синтетическго набора данных, но почему-то авторы не сделали этого. В общем ИМХО, предлагаемые методы, может, и хороши, но статья - все равно говно. Сообщение отредактировал ИНО - 16.08.2022 - 20:14

100$ Просмотр профиля	16.08.2022 - 21:29 Сообщение #67
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 16.08.2022 - 16:44) Кстати, не нашел упоминаний о том, как их рассчитывали, а ведь методы есть разные. Похоже, сегодня просто не ваш день. Вот, только для вас: We utilize the out-of-bag (oob) to assess the feature importances [Breiman]. Table 5 lists the top-10 features for RMNL_10 (best overall model) together with their z-score calculated on oob data Хорошо помню, что Борута бракует фичи аккурат на основании z-скоров. А вообще, давайте на этом поставим красивую жирную точку. Я продолжаю стоять на том, что дерево - такой же классификатор, как и логистическая регрессия. Поэтому случайный ансамбль, выращенный на основе идей RF тоже можно назвать лесом. Ребята со мной согласны: Therefore, inspired by RF, we propose Random MNL (RMNL) as a new bagged classifier combining a forest of R MNLs estimated with m randomly selected features on the r-th bootstrap sample.

ИНО Просмотр профиля	16.08.2022 - 22:55 Сообщение #68
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Скажу больше: сегодня - не мой год, и такой уже 9-й к ряду. Но это не отменяет того факта, что я спрашивал вовсе не о том, о чем Вы сейчас сказали, а именно не об использовании OOB, а о конкретной методике рассчета важностей, коих даже для классического случайного леса предложено несколько (в т. ч. с использованием ООB). А z-score вообще упоминается в контексте RMNL, а не RF. Борута считает очень хитро, с созданием "теневых предикторов", если б она использовалась в работе, то, была бы упомянута (хотя с неряшливым подходом этих авторов к написанию статьи уже не в чем нельзя быть полностью уверенным). Ваша жирная точка зрения мне понятна, но не может быть мною принята. Потому как простейшая понятийная логика говорит, что нет деревьев - нет и леса. И даже сами авторы, похоже, колеблются. Во всяком случае, они назвали предложенный метод из процитированного Вами абзаца RMNL, а не RFMNL или MNLRF, т. е. слова "forest" постеснялись. Хотя в тексте кое-где все же оно не к месту проскакивает. Возможно даже, что один автор считал его употребление в данном контексте допустимым, а другой - нет, либо рецензент потребовал убрать. Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог. Сообщение отредактировал ИНО - 16.08.2022 - 22:56

100$ Просмотр профиля	17.08.2022 - 00:31 Сообщение #69
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 16.08.2022 - 22:55) Вы, коли уж встали, на позицию защиты статьи лучше б ответили, почему в последней таблице так много пустых клеток в столбце RF. Я эту загадку разгадать не смог. Рискну предположить (см. п. 4.1), что это как раз те фичи, которые RF счел мусорными. Там же ясно написано, что из общего количества фич, равного 441, RF отобрал 336. По-видимому, ребята стряпали 5-ю таблицу в качестве месседжа типа: "Ага, вот базовый алгоритм RF эти фичи залажал, а оне на самом деле вона какие важные! Z-скоры аж зашкаливают!". Знай, мол, наших. Мне просто показалось, что словосочетание "статистический ансамбль случайных классификаторов" ничего не говорит ни уму, ни сердцу о том, как он (ансамбль) был получен. Зато слово "лес" сразу отсылает к бутстреп-агрегированию и подпространствам Хо. Для форумных переболтушек сойдет. На внесении в учебники и нормативные документы не настаиваю. Сообщение отредактировал 100$ - 17.08.2022 - 00:51

ИНО Просмотр профиля	17.08.2022 - 05:54 Сообщение #70
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Видимо, у каждого свои ассоциации со словом "лес", но, боюсь, ассоциация "деревья" встречается гораздо чаще, чем "подпространства Хо". Кстати, я об этом Хо и слыхом не слыхивал, пока Вы его не упомянули. Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно (по крайней мере в случае с RF, описание "лесного наивного Байеса" я изучать не стал, так что не знаю, что там да как). Можно разве что вообразить гипотетическую ситуацию с огромным количеством предикторов и такой настройкой гиперпараметров, когда некоторые из них не будут предоставлены на рассмотрение ни одному дереву. Но это будет совсем неправильный лес, ~~в котором водятся неправильные пчелы~~ который нельзя публиковать, чтобы совсем уж не опозориться.

100$ Просмотр профиля	17.08.2022 - 12:12 Сообщение #71
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 17.08.2022 - 05:54) Еще раз повторяю: обычный RF не делит "фичи" на "мусорные" и "не мусорные", это уже работа для различных специализированных расширений метода (той же Боруты, например) либо непосредственно исследователя, который глядя на импортансы, решает на свой страх и риск, что выбросить, а что оставить в "оптимальной" модели. Ни о чем таком в статье ни слова не нашел. Поэтому, откуда взялись пустоты в таблице, решительно непонятно... Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич. Таблица 5 содержит фрагмент ранжировки, и ранжировка эта должна быть получена по единой методике, иначе ее нельзя объединить в одну таблицу. Ребята застолбили за собой перенос идей RF на NB и MNL, и это главное. Возможно, на соседней улице кто-то в этот момент высаживал лес логистических регрессий. Сообщение отредактировал 100$ - 17.08.2022 - 12:14

passant Просмотр профиля	17.08.2022 - 16:37 Сообщение #72
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?" Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм. Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял. Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная? Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&sh...ost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего??? Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ? Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше). Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом). Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи. Сообщение отредактировал passant - 17.08.2022 - 16:40

ИНО Просмотр профиля	17.08.2022 - 17:08 Сообщение #73
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата(100$ @ 17.08.2022 - 12:12) Значит, у них был не обычный RF, а тот, который умеет ранжировать фичи на основании z-скоров. Чай, не на глаз же они отобрали m=336 фич. Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется.

100$ Просмотр профиля	17.08.2022 - 20:17 Сообщение #74
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 17.08.2022 - 17:08) Умеет то ранжировать любой, не любой делает это правильно (что однако не мешает делать правильные прогнозы). А вот сортировать и выбрасывать "мусор" умеют только некоторые специфические методы на основе случайного леса, специально для этого разработанные (в статье не упоминаются). Насколько я понял, это m (традиционно называемое mtree) - количество "фич", предоставленных каждому дереву. Вследствие бутстрепа для разных деревьев наборы разные, а весь лес должен рассмотреть все без исключения. Иначе сам смысл полностью теряется. Я полагаю, что все это им тоже известно.

100$ Просмотр профиля	17.08.2022 - 20:20 Сообщение #75
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(salm @ 15.08.2022 - 10:24) Метод 1, допустим, предусматривает бинарную оценку (есть дефект, нет дефекта, на основе таблицы 4х4 определена чувствительность и специфичность. До сих пор для этого таблицы 2х2 за глаза хватало.

« Предыдущая тема · Медицинская статистика · Следующая тема »

7 страниц

« < 3 4 5 6 7 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.