Здравствуйте, гость ( Вход | Регистрация )
2.01.2020 - 08:23
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 30.04.2018 Пользователь №: 31313 |
Доброго времени суток!
https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3 |
|
|
![]() |
![]() |
![]() |
17.08.2022 - 16:37
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?"
Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм. Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял. Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная? Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&sh...ost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего??? Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ? Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше). Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом). Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи. Сообщение отредактировал passant - 17.08.2022 - 16:40 |
|
|
![]() |
![]() |
9.09.2022 - 18:48
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Добрый лень. Спасибо, что отвечаете
У меня есть один классический предиктор - он бинарный. Вторая обьясняющая периенная добавляемая в модель -она по непрерывной шкале измеренна. Вот их всего две, я получаю модель с коэффициентами. Изначально я так делаю, чтобы показать что Добавление в модель этой непрерывной переменной при прогнозирования вероятности исхода улучшает всю модель ( ну то есть как я это понимаю, каждому участнику из моей выборки будет присвоено значение вероятности наиблизкое к истинному (заодно проверю свои знания)))? почему только два предиктора: ну вот в данном случае, меня интересуют только они Из таблицы сопряжен у меня есть показатели чувствительности и специфичности для бинарного предиктора ( тот что первый фактор) Я, добавляя непрерывную переменную в модель бинарной лог регрессии улучшаю ее ( я понимаю что улучшение и состоит в том что каждому пациенту будет присвоена вероятность от 0 до 1 более точная) но при этом оптимальное пороговое значение я могу выбрать для значения вероятности. А мне не это надо)))) Мне надо с учетом того первого бинарного фактора найти оптимальную точку для непрерывной переменной (для второго фактора) с тем, чтобы получить простой диагностический алгоритм (ну назову его так))) вот при одновременном положительном значении первого фактора и второго нтже конкретной (искомой мной) пороговой точки я получаю Ч и С такую то Ну то есть оптимальный порог при рок анализе один, а при комбинации в логоегрессии с бинарным фактором, он другой, если я хочу долю истиный ответов увеличить и это возможно.. Оптимальная пороговая величина в комбинации с доугим предиктором другая. Я понимаю что это не входит в задачи при построении регрессионной модели, но мне каааажется))) что связь то есть)) и так возможно Возможно? Может, с помощью этого графика выделить оптимальную точку вероятности и сопоставить ее со значением непрерывной переменной?.. а задача ну изначально несложная - комбинировать два предиктора ( бинарный и непрерывный) в таблицу 4на 4, и высислить Ч и С |
|
|
![]() |
![]() |
10.09.2022 - 00:07
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Возможно? Возможно. Причем до смешного просто: надо оценить логистическую регрессию с одним-единственным вспомогательным регрессором - плотностью совместного распределения дихотомическаго и непрерывнаго регрессоров. С последующим ROC-анализом. Как учили. Правда, предстоит много сопутствующей работы: а) сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный". Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша. б) с помощью техники k-folds crossvalidation оценить обобщающую способность модели. Пользоваться такой конструкцией будет тоже очень просто: пришел пациент с таким-то значением дихотомической и таким-то значением непрерывной переменной. По обучающей выборке (той, по которой оценивали модель) быстренько оцениваем ядерную плотность непрерывного регрессора для вновь поступившего объекта, умножаем ее на оцененный по выборке параметр биномиального распределения (по данным дихотомической переменной) и полученную плотность совместного распределениия закидываем в оцененное уравнение регрессии. Voila! С такой диссертацией под мышкой дверь на заседание диссертационного Совета можно ногой открывать. Сообщение отредактировал 100$ - 10.09.2022 - 00:31 |
|
|
![]() |
![]() |
11.09.2022 - 10:33
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Ну очень просто, да
сначала с помощью подходящей техники не мешало бы оценить пермутированную важность регрессоров, чтобы понимать, "кто здесь главный". Если окажется, что дихотомическая переменная важнее, то исходная идея улучшить модель введением второго регрессора не так уж и хороша. Странное утверждение. Любой предиктор полезен, если действительно уменьшает ошибку предсказания, пусть даже всего на 1%. Иное дело, что на практике затраты на сбор дополнительных данных для такого небольшого улучшения может не стоить свеч, но это уже не предмет статистики. |
|
|
![]() |
![]() |
Felix77 Логистическая регрессия, помогите понять 2.01.2020 - 08:23
nokh Цитата(Felix77 @ 2.01.2020 - 10:23) ... 2.01.2020 - 19:54
Игорь Цитата(nokh @ 2.01.2020 - 20:54) У а... 8.01.2020 - 16:59
100$ Цитата(Игорь @ 8.01.2020 - 16:59) Не... 8.01.2020 - 17:14
Игорь Цитата(100$ @ 8.01.2020 - 18:14... 8.01.2020 - 20:06
100$ Цитата(Игорь @ 8.01.2020 - 20:06) Ка... 8.01.2020 - 22:29
Игорь Цитата(100$ @ 8.01.2020 - 23:29... 10.01.2020 - 08:20
nokh Цитата(Игорь @ 10.01.2020 - 10:20) .... 10.01.2020 - 09:56
100$ Цитата(Игорь @ 10.01.2020 - 08:20) П... 10.01.2020 - 13:53
Felix77 Спасибо! 3.01.2020 - 07:59
salm А подскажите, при введении в модель логистической ... 16.03.2022 - 21:37
nokh Цитата(salm @ 16.03.2022 - 23:37) А ... 21.03.2022 - 22:33
Anna_V Цитата(nokh @ 21.03.2022 - 22:33) Пр... 22.03.2022 - 07:02

nokh Цитата(Anna_V @ 22.03.2022 - 09:02) ... 23.03.2022 - 13:41
salm Цитата(nokh @ 21.03.2022 - 22:33) По... 30.03.2022 - 18:57
salm А скажите, корректно ли будет один количсетвенный ... 30.03.2022 - 09:01
nzbr Цитата(salm @ 30.03.2022 - 09:01) А ... 6.06.2022 - 07:50
salm Не подскажете: как диссертации грамотнообьяснить с... 6.04.2022 - 23:54
passant Цитата(salm @ 6.04.2022 - 23:54) Не ... 7.04.2022 - 10:37

salm Цитата(passant @ 7.04.2022 - 10:37) ... 7.04.2022 - 11:59
DoctorStat Цитата(salm @ 6.04.2022 - 23:54) Не ... 14.04.2022 - 09:47

salm Цитата(DoctorStat @ 14.04.2022 - 09... 10.05.2022 - 17:45
nzbr Цитата(salm @ 6.04.2022 - 23:54) Не ... 13.05.2022 - 15:25
salm Цитата(nzbr @ 13.05.2022 - 15:25) Я ... 16.05.2022 - 22:05
salm Доброго времени суток. Подскажите пожалуйста, могу... 10.05.2022 - 17:05
Игорь Цитата(salm @ 10.05.2022 - 18:05) в ... 11.05.2022 - 11:37
salm Цитата(Игорь @ 11.05.2022 - 11:37) Н... 16.05.2022 - 22:01
salm и еще: мне понять смысл AUC при построении прогно... 25.05.2022 - 09:53
ИНО Цитата(salm @ 25.05.2022 - 09:53) и ... 6.06.2022 - 11:25
salm Здравствуйте еще раз!!! А я могу испол... 30.06.2022 - 22:55
passant Цитата(salm @ 30.06.2022 - 22:55) Зд... 30.06.2022 - 23:54
salm Цитата(passant @ 30.06.2022 - 23:54)... 1.07.2022 - 09:27
ИНО А вот я категорически против. Когда факторов много... 1.07.2022 - 05:40
salm Цитата(ИНО @ 1.07.2022 - 05:40) А во... 1.07.2022 - 09:55
100$ Цитата(salm @ 1.07.2022 - 09:55) ...... 1.07.2022 - 17:45
ИНО Под "мусором" я подразумевал предикторы,... 1.07.2022 - 23:01
salm Цитата(ИНО @ 1.07.2022 - 23:01) Под ... 2.07.2022 - 15:47
salm А не подскажете ли как вычисляется в процентах, на... 2.07.2022 - 15:57
salm Цитата(salm @ 2.07.2022 - 15:57) А н... 3.07.2022 - 00:59
salm Я может, сейчас лишнее напишу)) но Вы, пожалуйста,... 2.07.2022 - 16:27
ИНО Цитатану доказать что старый-добрый не влияет -это... 2.07.2022 - 19:30
salm Цитата(ИНО @ 2.07.2022 - 19:30) Наск... 6.07.2022 - 09:06
ИНО ЦитатаЯ же аспирант, моя задача- это разобраться к... 2.07.2022 - 19:58
ИНО То, что Вы просите называется, "декомпозиция ... 3.07.2022 - 02:18
salm Цитата(ИНО @ 3.07.2022 - 02:18) То, ... 6.07.2022 - 08:53
salm Здравставуйте.
Скажите пожалуйста, вот у меня ест... 12.08.2022 - 12:05
100$ ЦитатаМой вопрос - как мне сравнить AUC?
Идейно т... 12.08.2022 - 13:03
salm Цитата(100$ @ 12.08.2022 - 13:0... 13.08.2022 - 11:18
100$ Цитата(salm @ 13.08.2022 - 11:18) Ща... 13.08.2022 - 17:12
ИНО Цитата(salm @ 13.08.2022 - 11:18) Оо... 14.08.2022 - 01:40
ИНО Если мне не изменяет память roc.test() использует ... 13.08.2022 - 04:02
100$ Цитата(ИНО @ 13.08.2022 - 04:02) Есл... 13.08.2022 - 17:06
ИНО Цитата(100$ @ 13.08.2022 - 17:0... 14.08.2022 - 01:31
100$ Цитата(ИНО @ 14.08.2022 - 01:31) До ... 14.08.2022 - 19:41
ИНО Сцай-хаб, Либген и Гугль-академия - три кита совре... 14.08.2022 - 22:18
100$ Цитата(ИНО @ 14.08.2022 - 22:18) А м... 14.08.2022 - 23:53
salm Здраааааствуйте!!!
Я тупая, но упрямая... 14.08.2022 - 19:07
100$ Цитата(salm @ 14.08.2022 - 19:07) Зд... 14.08.2022 - 19:28
salm Цитата(100$ @ 14.08.2022 - 19:2... 15.08.2022 - 09:41
ИНО Просмотрел статью по Вашей ссылке. Авторы явно заб... 15.08.2022 - 08:04
100$ Цитата(ИНО @ 15.08.2022 - 08:04) В п... 15.08.2022 - 13:40
salm А подскажите пожалуйста))
Вот мне нужен простой а... 15.08.2022 - 10:24
100$ Цитата(salm @ 15.08.2022 - 10:24) Ме... 17.08.2022 - 20:20
ИНО Для начала почему у первых двух, этих-самых ... 16.08.2022 - 12:24
100$ Цитата(ИНО @ 16.08.2022 - 12:24) Для... 16.08.2022 - 15:16
ИНО salm, а Вы уверены, что нужна единая точка отсечки... 16.08.2022 - 16:44
100$ Цитата(ИНО @ 16.08.2022 - 16:44) Кст... 16.08.2022 - 21:29
ИНО Скажу больше: сегодня - не мой год, и такой уже 9-... 16.08.2022 - 22:55
100$ Цитата(ИНО @ 16.08.2022 - 22:55) Вы,... 17.08.2022 - 00:31
ИНО Видимо, у каждого свои ассоциации со словом ... 17.08.2022 - 05:54
100$ Цитата(ИНО @ 17.08.2022 - 05:54) Еще... 17.08.2022 - 12:12
ИНО Цитата(100$ @ 17.08.2022 - 12:1... 17.08.2022 - 17:08
100$ Цитата(ИНО @ 17.08.2022 - 17:08) Уме... 17.08.2022 - 20:17
ИНО Цитата(100$ @ 17.08.2022 - 20:1... 17.08.2022 - 20:41
100$ Цитата(ИНО @ 17.08.2022 - 20:41) Я н... 17.08.2022 - 20:56
100$ Цитата(ИНО @ 11.09.2022 - 10:33) Кст... 11.09.2022 - 14:10
ИНО Зачем же сразу острить про Спортлото? Не раз уже п... 18.08.2022 - 06:14
ИНО Лень добрым не бывает!
А с чего Вы взяли, что... 9.09.2022 - 21:40
salm Цитата(ИНО @ 9.09.2022 - 21:40) Лень... 9.09.2022 - 22:35
ИНО Опять Вы в какие-то дебри ноу-хау лезете. Диаграмм... 11.09.2022 - 17:16
100$ Я рассуждаю просто: вся информация о совместном ра... 11.09.2022 - 18:14
ИНО Ядерная оценка плотности - это не хухры-мухры... 12.09.2022 - 00:26
100$ А зачем такие страсти-мордасти?
Выберу и тип окна,... 12.09.2022 - 01:47
ИНО Цитата(100$ @ 12.09.2022 - 01:4... 12.09.2022 - 19:35
100$ Цитата(ИНО @ 12.09.2022 - 19:35) А в... 12.09.2022 - 23:04
ИНО Цитата(100$ @ 12.09.2022 - 23:0... 13.09.2022 - 01:42
Leonov При использовании многомерного метода статистическ... 22.09.2022 - 16:41
Игорь Как надо делать: Hosmer D.W., Lemeshow S. Applied ... 24.09.2022 - 09:11
100$ Цитата(Игорь @ 24.09.2022 - 09:11) К... 25.09.2022 - 18:46![]() ![]() |