Логистическая регрессия, помогите понять

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

7 страниц

« < 4 5 6 7 >

Логистическая регрессия, помогите понять

Опции

ИНО Просмотр профиля	17.08.2022 - 20:41 Сообщение #76
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата(100$ @ 17.08.2022 - 20:17) Я полагаю, что все это им тоже известно. Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице

100$ Просмотр профиля	17.08.2022 - 20:56 Сообщение #77
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 17.08.2022 - 20:41) Я не знаю, что известно им, но знаю, что неизвестно мне, а именно, как появились дырки в таблице Ну, так и напишите им в славный город Гент. Копию вашего запроса не забудьте направить в Спортлото. Их ответ опубликуйте здесь на форуме. Я подожду.

ИНО Просмотр профиля	18.08.2022 - 06:14 Сообщение #78
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Зачем же сразу острить про Спортлото? Не раз уже писал зарубежным авторам, и большинство вполне себе корректно отвечало в течение, максимум, двух недель. Но это были ситуации, когда я был по-настоящему заинтересован в получении информации. Эта же статья - совсем не тот случай, поскольку лично мне и без переписки с ней "все ясно", не в технических деталях, а, так сказать, в общем и целом Но Вы вызвались на роль ее адвоката, так что Вам и писать

salm Просмотр профиля	9.09.2022 - 18:48 Сообщение #79
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Добрый лень. Спасибо, что отвечаете У меня есть один классический предиктор - он бинарный. Вторая обьясняющая периенная добавляемая в модель -она по непрерывной шкале измеренна. Вот их всего две, я получаю модель с коэффициентами. Изначально я так делаю, чтобы показать что Добавление в модель этой непрерывной переменной при прогнозирования вероятности исхода улучшает всю модель ( ну то есть как я это понимаю, каждому участнику из моей выборки будет присвоено значение вероятности наиблизкое к истинному (заодно проверю свои знания)))? почему только два предиктора: ну вот в данном случае, меня интересуют только они Из таблицы сопряжен у меня есть показатели чувствительности и специфичности для бинарного предиктора ( тот что первый фактор) Я, добавляя непрерывную переменную в модель бинарной лог регрессии улучшаю ее ( я понимаю что улучшение и состоит в том что каждому пациенту будет присвоена вероятность от 0 до 1 более точная) но при этом оптимальное пороговое значение я могу выбрать для значения вероятности. А мне не это надо)))) Мне надо с учетом того первого бинарного фактора найти оптимальную точку для непрерывной переменной (для второго фактора) с тем, чтобы получить простой диагностический алгоритм (ну назову его так))) вот при одновременном положительном значении первого фактора и второго нтже конкретной (искомой мной) пороговой точки я получаю Ч и С такую то Ну то есть оптимальный порог при рок анализе один, а при комбинации в логоегрессии с бинарным фактором, он другой, если я хочу долю истиный ответов увеличить и это возможно.. Оптимальная пороговая величина в комбинации с доугим предиктором другая. Я понимаю что это не входит в задачи при построении регрессионной модели, но мне каааажется))) что связь то есть)) и так возможно Возможно? Может, с помощью этого графика выделить оптимальную точку вероятности и сопоставить ее со значением непрерывной переменной?.. а задача ну изначально несложная - комбинировать два предиктора ( бинарный и непрерывный) в таблицу 4на 4, и высислить Ч и С

ИНО Просмотр профиля	9.09.2022 - 21:40 Сообщение #80
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Лень добрым не бывает! А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там. Сообщение отредактировал ИНО - 9.09.2022 - 21:40

salm Просмотр профиля	9.09.2022 - 22:35 Сообщение #81
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Цитата(ИНО @ 9.09.2022 - 21:40) Лень добрым не бывает! А с чего Вы взяли, что для комбинации первого уровня бинарной переменной с непрерывной оптимальная точка бинаризации последней будет той же, что и для комбинации второго уровня с той же переменной? Скорее Вам следует провести два отдельных ROC-анализа и найти две оптимальных точки, выбор между которыми будет зависеть от наличия или отсутствия у больного чего-то там. Ни с чего не взяла, просто задумалась, (зафантизировалась)) мало ли.. И спросила. На всякий случай Спасибо

100$ Просмотр профиля	10.09.2022 - 00:07 Сообщение #82
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(salm @ 9.09.2022 - 18:48) Возможно? Возможно. Причем до смешного просто: надо оценить логистическую регрессию с одним-единственным вспомогательным регрессором - плотностью совместного распределения дихотомическаго и непрерывнаго регрессоров. С последующим ROC-анализом. Как учили. Правда, предстоит много сопутствующей работы: а) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный". Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша. б) с помощью техники k-folds crossvalidation оценить обобщающую способность модели. Пользоваться такой конструкцией будет тоже очень просто: пришел пациент с таким-то значением дихотомической и таким-то значением непрерывной переменной. По обучающей выборке (той, по которой оценивали модель) быстренько оцениваем ядерную плотность непрерывного регрессора для вновь поступившего объекта, умножаем ее на оцененный по выборке параметр биномиального распределения (по данным дихотомической переменной) и полученную плотность совместного распределениия закидываем в оцененное уравнение регрессии. Voila! С такой диссертацией под мышкой дверь на заседание диссертационного Совета можно ногой открывать. Сообщение отредактировал 100$ - 10.09.2022 - 00:31

ИНО Просмотр профиля	11.09.2022 - 10:33 Сообщение #83
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Ну очень просто, да Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной? Или да ну ее на фиг, странную задачу эту? Вообще, идея здравая - нечего информацией разбрасываться. Однако тогда чем обычная двухфакторная логистическая регрессия не угодила? Цитата(100$ @ 10.09.2022 - 00:07) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный". Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша. Странное утверждение. Любой предиктор полезен, если действительно уменьшает ошибку предсказания, пусть даже всего на 1%. Иное дело, что на практике затраты на сбор дополнительных данных для такого небольшого улучшения может не стоить свеч, но это уже не предмет статистики.

100$ Просмотр профиля	11.09.2022 - 14:10 Сообщение #84
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 11.09.2022 - 10:33) Кстати, так и не увидел, как Вы при помощи этого ноу-хау метода собрались выполнять непосредственную задачу ТС - найти оптимальную точку дихотомизации непрерывной переменной? Таковой будет точка максимальной совместной плотности, если она (точка) существует. Кроме того, существует техника дискриминантного анализа дихотомических переменных (Гибб, Штремель, 2015), пакет {binDA} Тогда, видимо, придется решать переборную задачу: выбираем произвольный порог отсечения, классифицируем, смотрим качество классификации. И так много раз. Метод также в качестве бонуса выдает диаграммку важности предикторов. Сообщение отредактировал 100$ - 11.09.2022 - 14:18

ИНО Просмотр профиля	11.09.2022 - 17:16 Сообщение #85
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Опять Вы в какие-то дебри ноу-хау лезете. Диаграммка перестановочных важностей целых двух предикторов - это сильно. Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели. И, поскольку оба предиктора будут бинарными, важность каждого из них подскажет обычный коэффициент регрессии с ДИ, даже стандартизировать не нужно. Но только искать единственную среденепотолочную по больнице точку - глупость. Разве что, если первый предиктор - это пол пациента, и надо их как-то уравнять во избежание подозрений в сексизме Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора. Там же, на диаграмме, будут точечки наблюдений, по положению которых станет понятно, а стоит ли вообще с этой затеей возиться. Очень простая и широко используемая штука. Но таки открывать дверь диссовета ногой, вооружившись ею, наверное, не получится. А вот больных диагностировать вполне.

100$ Просмотр профиля	11.09.2022 - 18:14 Сообщение #86
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Я рассуждаю просто: вся информация о совместном распределении предикторов заключена в плотности этого самого распределения. Но, прежде чем искать черную кошку в темной комнате, я хочу удостовериься, что она там есть. Каким образом? А очень просто: если совместная плотность имеет глобальный максимум - задача имеет решение. Если там куча локальных максимумов - никаких рекомендаций по осмысленному выбору значения непрерывного предиктора, которое можно было бы использовать в качестве некоего порога отсечения, дать нельзя. Ну, а уж если там вообще нет никаких максимумов, ни глобального, ни локальных - задача вообще не имеет решения. Цитата Перебирать точки отсечения до достижения минимума ошибки кроссвалидации или же внутреннего информационного критерия можно в обычной двухфакторной логистической модели. Можно. Аж до вздутия кишечника. А можно до Матрениных заговений. А можно до Второго пришествия. Патамушта заранее неизвестно, есть ли на множестве значений непрерывного предиктора единственное решение этой задачи, или таких решений нет вообще, или их (решений) там бесконечное множество. Цитата Закрываю глаза и вижу два сигмоида (по одному для каждого значения дихотомического предиктора) и соответственно, две разные оптимальные точки дихотомизации непрерывного предиктора в зависимости от дихотомического предиктора Я, видимо, чего-то не понимаю: как одна модель может дать два сигмоида? Пакет дихотомическую переменную как-то очень хитро кодирует? Правда, непонятно. Кроме того, как я привык думать, любая модель (и логистическая регрессия - не исключение) - это, вообще-то, про зависимую переменную, а не про предикторы. Вы оценили модель, в которой по умолчанию порог дихотомизации зависимой переменной - 0,5. Ему соотвестствуют определенные ошибки i и ii рода. Если поиграться этим порогом, стремясь сбалансировать ошибки, получится ROC-анализ. А каким образом это помогает "оптимально" дихотомизировать регрессоры? В общем, жду вашего ответа, как соловей лета. Сообщение отредактировал 100$ - 11.09.2022 - 18:30

ИНО

12.09.2022 - 00:26

Сообщение #87

Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632

Ядерная оценка плотности - это не хухры-мухры! Найдете вы в ней один максимум, или много зависит не только от реальной картины ППД, но и от а) выбора параметра ядра (не то чтобы тривиальная и однозначна решаемая задача), б) выбора самого ядра (в меньшей степени, но все же), в) выбора фиксированного или адаптивного ядра, а в последнем случае - также параметра чувствительности. Поигравшись с этими настройками можно на одной и той же выборке "найти" пиков от 0 до n, и и какой из этих вариантов будет ближе к истине определить на практике затруднительно (особенно если за ранее не знаешь, на что примерно оно должно быть похоже). Поэтому ядерную оценку в качестве инструментальной переменной обычно используют не от хорошей жизни, а именно в случаях, когда без нее задача не решается (решается плохо). Ибо это равносильно введению дополнительных оцениваемых по выборке параметров. Оцениваемых с трудом и неоднозначно. В нашем же случае простым перебором, не мудрствуя лукаво, задачу решить вполне можно, эдакий брутфорс. Кстати, так же обычно производится поиск оптимальных гиперпараметров случайного леса или бустинга, и никто не жалуется, хотя там вычислительные затраты куда больше. Но, повторюсь, с практической точки зрения задача сформулирована не слишком корректно, эдакая средняя температура по больнице.

Насколько я понял, ТС хочет дихотомизировать именно непрерывный предиктор. Зачем - тайна сия велика есть. Ну может чтоб в блокнотике ставить вместо четырехзначной цифры + или -, или какую-то тест-систему с полосками замутить.

Насчет двух сигмоидов. Вот для примера картинка из моей научной работы, тут хоть и не сигмоиды, а иные кривые, но суть явления ясна. Модель одна, предикатов два: бинарный и непрерывный. Первый обозначен цветом, второй отложен по оси абсцисс.

Сообщение отредактировал ИНО - 12.09.2022 - 01:31

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

100$ Просмотр профиля	12.09.2022 - 01:47 Сообщение #88
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	А зачем такие страсти-мордасти? Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался. P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную? Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю. P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич. Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам? И в чем ее познавательная ценность? Сообщение отредактировал 100$ - 12.09.2022 - 13:35

ИНО Просмотр профиля	12.09.2022 - 19:35 Сообщение #89
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Цитата(100$ @ 12.09.2022 - 01:47) А зачем такие страсти-мордасти? Выберу и тип окна, и его настройки так, чтобы получить пересглаженную оценку - это ж не приговор. Лишь бы на ней глобальный пик читался. Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения. Причем то, какие настройки правильные, - большой вопрос. Методов поиска оптимальной ширины окна тьма тьмущая, и результаты они дают сильно разные. Например, не помню уже какой именно, основанный на кросссвалидации (а только таких существует не менее трех, не говоря уж о прочих), а может, и все они, работает неправильно при наличии малейших признаков группировки наблюдений (например, той которая возникает, если цена деления шкалы прибора не исчезающе мала на фоне размаха измеряемой величины). И так у каждого свои слабые места. Поэтому на тему очередного "самого правильного метода" постоянно выходят все новые статьи. Но, как показывает практика, каждый из них хорошо работает лишь в частных случаях. А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков. А там еще один параметр добавляется. В итоге наша регрессионная модель приходит в непредсказуемую зависимость от кучи дополнительных параметров. Это явно метод для тех, чье жизненное кредо "не созданы мы для легких путей" . Просто графически форуму распределения с помощью одномерной ядерной оценки плотности удобно и приятно, но все, что сверх того, намного сложнее, и, вероятно, является большей частью уделом специалистов. Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов. Цитата P.S. А для оценки логистической регрессии в R дихотомическая переменная - это просто столбец 1 и 0, или ее надо перекодировать в факторную переменную? Попробовал и так, и сяк, оценки коэффициентов близкие, но как правильно - пока не знаю. Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так Вот-тут я задавался этим вопросом, ответа не получил. Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю. Хотя, наверное, не мешало бы сравнить результаты, с теми, которые выдают другие программы. Цитата P.P.S. Насчет картинки. Прямо "Черный квадрат" какой-то. Хотя автор, вроде бы, не Малевич. Это какие-то частные кривульки: одна соответствует нулям дихотомического фактора, а другая - единицам? И в чем ее познавательная ценность? Почему черный? Он же белый! Но суть Вы уловили верно. Только там еще учтено взаимодейстивие двух факторов, без него кривые были бы параллельны, но тоже две. А как эти две частные кривульки можно обобщить до одной глобальной? Не представляю. Суть диагараммы проста: влияние непрерывного предиктора на зависимую переменную различается в зависимости от другого дихотомичесокого предиктора (принадлежности к одной из двух групп). Можно, например, представить, что красным изображены девочки, а синим - мальчики, по оси абсцисс отложена доза препарата, а по оси ординат - уровень в крови фактора Ы (хотя на самом деле это вовсе не так, но сути представления не меняет).

100$ Просмотр профиля	12.09.2022 - 23:04 Сообщение #90
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 12.09.2022 - 19:35) А ведь еще есть адаптивные ядра, которые не то чтобы можно, а просто нужно использовать при малых n., чтобы не получить ложных пиков. Ну, вообще-то базовая проблема ядерного сглаживания - не ложные пики, а краевые эффекты, но речь не о том. Речь о том, что я хочу хоть в первом приближении уловить точку, в окрестности которой можно поискать некий оптимум. Патамушта в общем случае вожделенный поиск удачной точки дихотомизации (особливо в присутствии "переключателя" - дихотомической переменной) - это поиск того, чего нет. Цитата Эдак, выбрав неправильные настройки, можно пересгладить до равномерного распределения. А вы часто видели в медицине равномерные распределения? Я - нет. Поэтому, завидев равномерное распределение, тотчас отыграю назад ). Цитата Например, существует расчудесный пакет {np} c огромным арсеналом методов ядерной непараметрической и полупараметрической регрессии. Но, увы мне не удалось построить с его помощью ни одной б. м. адекватной модели. Небольшое изменение настроек, например, смена метода определения ширины окна приводило просто к чудовищным переменам регрессионных кривых с моими данными. Так и забросил его, немного поигравшись. Если победите зверя этого, дайте знать. Кстати, количество аргумернтов в функциях там максимальное из того, что я встречал в пакетах R (как бы не под сотню) - это к вопросу о простоте ядерных методов. Ничего себе "небольшое изменение". От него-то по большей части все и зависит. И потом, а чего вы, собственно, хотите? Задача восстановления плотности (в т.ч. и условной) относится к классу некорректных задач. Поэтому единственно правильного учения там нет и быть не может. Любая непараметрическая регрессия - это формализация понятия "сглаживание на глазок". Наверное, в статистике для самого расчудесного метода можно подобрать датасет, который ему (методу) не по зубам. На одном датасете у меня, н-р, нейросеть просто колом встала. Ну и что? Бывает. Цитата Если победите зверя этого, дайте знать. Я в свое время отдал дань пакету {kedd}, а теперь даже не вижу его в перечне пакетов, доступных для загрузки. Все эти пакеты имеют свойство быстро надоедать. Примерно как листание всех этих бесконечных pdf'ов. Однако, в перечне соавторов {np} заявлен Джеффри Расин, а это, можно сказать, мой любимый писатель на тему непараметрической регрессии. Цитата Тайна сия велика есть! В документации описаны два способа, которые по идее должны быть эквивалентны, но в реальности это почему-то не так ... Поскольку почтив во всех виденных мною публикациях с примерами дихотомическая переменная задается как фактор в таблице "длинного формата", всегда так и делаю. Спасибо за экспресс-консультацию. Теперь буду делать так же. Сообщение отредактировал 100$ - 12.09.2022 - 23:05

« Предыдущая тема · Медицинская статистика · Следующая тема »

7 страниц

« < 4 5 6 7 >

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум