Логистическая регрессия, помогите понять |
Здравствуйте, гость ( Вход | Регистрация )
Логистическая регрессия, помогите понять |
30.06.2022 - 23:54
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами. Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол... Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно? Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели. |
|
1.07.2022 - 05:40
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.
Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ. P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес. |
|
1.07.2022 - 09:27
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели. А если так: вот есть показатель ИМТ, рассчитывается из массы и роста...но предположим что мы этого не знаем ИМТ вводят, допустим, в прогнозирование исхода наличия гипертонии... отдельно, допустим, ИМТ влияет на исход, в однофакторной модели отдельно масса тела тоже влияет на исход и вот мы эти факторы влияющие по отдельности вводим в многофакторную модель (проверка на мультиколлинеарность пройдена) и выходит, что масса тела утрачивает свою значимость ... Делаю вывод о том, что ИМТ объясняет то влияние на исход, которое заключал в себе ИМТ, и я вроде как делаю вывод о "более сильном предикторе" ИМТ но в составе модели, а именно с массой тела |
|
1.07.2022 - 09:55
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит. Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ. P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес. Нет нет... ОШ без коэффициентов я не собираюсь считать, я понимаю откуда они берутся. я хочу понять насколько правомерны выводы моих многочисленных коллег о том, что фактор в присутствии других "более сильных факторов" вылетает, опираясь на значимость. И я: как клиницист могу полагаться более на тот что остался, он для меня более весомый при оценке вероятности.. вот что я имею ввиду.. (и авторы статьи). Или по-другому: когда исследователей неинтересен сама модель как таковая, а интересует значимость влития на исход предикторов, ок которых принято традиционно рассуждать как о значимых (ну например, липиды, ЦРБ и возраст влияют на вероятность ИБС, а давайте посмотрим как поведут себя фаторы при добавлении какого-нибудь провоспалительного маркера...) вот такая логика... Про мусор: я не пытаюсь заступиться ни за свой подход, ни за своих коллег. Я пытаюсь разобраться в их рассуждениях, чем они и насколько неверно они руководствовались и найти что поможет лично мне правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет... Сообщение отредактировал salm - 1.07.2022 - 11:36 |
|
1.07.2022 - 17:45
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
...правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет... Да, так можно делать: это построение модели пошаговым включением регрессоров. При этом возможна ситуация, когда такой образ действий не выбирает оптимального набора предикторов. Оффтоп: Набор слов, оформленный в качестве цитаты - это ж просто цимус мит компот. |
|
1.07.2022 - 23:01
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.
Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные. Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может. |
|
2.07.2022 - 15:47
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть. Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные. Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может. ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое Спасибо Сообщение отредактировал salm - 2.07.2022 - 15:48 |
|
2.07.2022 - 15:57
Сообщение
#38
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...
|
|
2.07.2022 - 16:27
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Я может, сейчас лишнее напишу)) но Вы, пожалуйста, не раздражайтесь..
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте. Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии. Сам по себе факт того что я пытаюсь вникнуть вроде должен какую-то надежду внушать а не вызывать раздражение, и желание подколоть ответом. Я ознакомилась с той литературой, которая мне доступна в плане понимания, я ознакомилась с курсом по статистике для врачей (там мне в принципе все понятно, но я понимаю, что так считать нельзя, это наиогромнейшее упрощение). Я могу и так посчитать, и это примут, и я защищусь, но так я не хочу (пока по крайней мере). Мне кажется этот форум для таких как я (а нас прям очень мало))). Для меня, как для врача, важно понимать, что я разбираюсь в том, что хотели продемонстрировать в своих работах мои коллеги, и где они косячат.. В силу многих обстоятельств аспирант не имеет возможности тесно сотрудничать со статистиком, и даже когда имеет это часто неуспешно. Вы же при посещении врача не слушаете бесконечные упреки в том, что вы неправильно пользуетесь органом. Обычно происходит так: грамотный врач спускается на уровень пациента, и в доступной ему форме излагает суть проблемы и методы ее решения, без колких замечаний, и еще более витиеватых словесных оборотов, я вижу вы тут все люди начитанные)))). Иначе нафиг это все вообще (я имею ввиду этот форум). Вы меня еще раз извините, если я совсем тупая, ну не отвечайте, че уж В любом случае, Вам спасибо! Сообщение отредактировал salm - 2.07.2022 - 16:55 |
|
2.07.2022 - 19:30
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Цитата ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое Спасибо Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных. |
|
2.07.2022 - 19:58
Сообщение
#41
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Цитата Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте. Ежели аспирант сознательно готовится выкинуть свой диссер в мусорное ведро сразу после получения степени, то ой. Это студенту еще можно простить такой подход к написанию дипломной работы (хотя на самом деле тоже нет). Цитата Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии. Не стоит брать эту порочной моделью поведения в пример. Это очень опасное явление для любой науки, а для медицине - опасное в квадрате. Цитата Вы меня еще раз извините, если я совсем тупая Ну зачем же стразу так. У нас в универе ни одной тупой аспирантки не видел, надеюсь, в медВУЗах с этим не хуже (иначе совсем страшно станет лечиться). А вот чего Вам реально не хватает, так это профильных знаний оп прикладной статистике. И на форуме, особенно полуживом (а в рунете иных нет), их не получить, только в литературе. Литература есть для совершенно разной аудитории, в т. ч. для неспециалистов, написанная простым языком и прямо с кодом R. Жаль, что почти вся на английском. Но попадается и переведенная. Например, конкретно по регрессии и классификации, вот: https://libgen.is/book/index.php?md5=69A834...70E80332B180182 |
|
3.07.2022 - 00:59
Сообщение
#42
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
|
|
3.07.2022 - 02:18
Сообщение
#43
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)
Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии. |
|
6.07.2022 - 08:53
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:) Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии. В практическом - да. Просто руководитель поинтересовался что за показатель, я не смогла найти. Спасибо за книгу, про суть метода максимального правдоподобия стал понятна (надеюсь))) |
|
6.07.2022 - 09:06
Сообщение
#45
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных. Ну представить что врач будет для конкретного пациента вычислять вероятность какого -то исхода мы не можем. Да, нас интересует сила факторов, направление действия и значимость, надежность какого либо из них при одновременном рассматривании других.. вот так... а сама формула никому не нужна, ее все перелистывают, не вникая. Так уж повелось. (Но если Вы посчитаете, что в клинической медицине так все плохо по этому - нет, уверяю, вообще не по этой причине). А почему я выбрала логистическую регрессию - ну потому что все привыкли именно к ней, и как умеют, так и интерпретируют. Но с другими методами едва ли кто знаком. Из тех, кто будет мою работу читать - не знаком никто. Да и с логистической регрессией тоже, но я вроде бы разобралась уже (хоть вы и не согласитесь)))) И не редки такие ситуации - статистик посчитал, даже выводы написал (ну естественно, небезвозмездно). А в работу это не вошло, руководитель посчитал ненужным, лишним или непонятным. Или рецензент попросил переделать. Вот и все... Вам спасибо!!! За книгу огромнейшее спасибо еще раз!!! |
|