Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V  < 1 2 3 4 5 > »   
Добавить ответ в эту темуОткрыть тему
> Логистическая регрессия, помогите понять
passant
сообщение 30.06.2022 - 23:54
Сообщение #31





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(salm @ 30.06.2022 - 22:55) *
Здравствуйте еще раз!!! А я могу использовать логистичсекую регрессию следующим образом: мне надо оценить вероятность конкретного исхода с включением нескольких факторов (насильно загнать их в модель) с той целью, что бы продемонстрировать, что среди учтенных факторов (тех, которым все мы привыкли, целесообразные с практической точки зрения) какие то сохраняют значимое влияние (с направлением связи, скорректирован ОШ), а какие то теряют значимость... При этом, не указывать самой формулы с коэффициентами.
Короче, взять только ОШ в модели для предикторов что бы показать что вот конкретные факторы, например величина кровотока и возраст влияют на исход, а пол, наличие диабета, курение и еще что то - НЕзначимые, тем самым показать что возраст и величина кровотока объясняют то влияние на исход, которое имело (но частично) по отдельности диабет, курение и пол...
Вот такой вывод возможен? Ну еси Хи2 для всей модели значимость есть и допущения на линейность, независимость и коллинеарность я проверю.. Ну то есть самамодель , выходит, меня не интересует и применять ее я не собираюсь.Не я придумала такое, просто часто вижу... Так можно?


Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 1.07.2022 - 05:40
Сообщение #32





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова smile.gif ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии shok.gif , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 1.07.2022 - 09:27
Сообщение #33





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(passant @ 30.06.2022 - 23:54) *
Хм, насколько я могу понять - еще раз, я никоим образом не врач - вы как-то "перемудриваете" :-). Для того, что-бы ответить "есть связь-нет связи" между "исходом" и каждым из факторов по отдельности достаточно посчитать их коэффициенты корреляции (разные для разных факторов разумеется) ну и p_value этих коэффициентов в придачу. И сразу станет понятно, кто влияет, а кто нет. А вот уже те, которые влияют - вот их уже можно (если нужно) объединять в регрессионные модели.


А если так: вот есть показатель ИМТ, рассчитывается из массы и роста...но предположим что мы этого не знаем
ИМТ вводят, допустим, в прогнозирование исхода наличия гипертонии...
отдельно, допустим, ИМТ влияет на исход, в однофакторной модели
отдельно масса тела тоже влияет на исход
и вот мы эти факторы влияющие по отдельности вводим в многофакторную модель (проверка на мультиколлинеарность пройдена) и выходит, что масса тела утрачивает свою значимость ... Делаю вывод о том, что ИМТ объясняет то влияние на исход, которое заключал в себе ИМТ, и я вроде как делаю вывод о "более сильном предикторе" ИМТ но в составе модели, а именно с массой тела
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 1.07.2022 - 09:55
Сообщение #34





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(ИНО @ 1.07.2022 - 05:40) *
А вот я категорически против. Когда факторов много, и между ними потенциально возможны взаимодействия, тупой перебор попарных корреляций контрпродуктивен (не сочтите за повторение любимого рекламного слогана доктора Леонова smile.gif ). И что делать с кучей полученных p: нарезать по Бонферрони, пока не останется шиш с маслом, или, не мучаясь угрызениями совести, "забыть" те пары, анализ которых не дал желаемого результата? Вообще, корреляционный анализ уместен в первую очередь тогда, когда трудно выделить зависимые и независимые переменные. В нашем же случае, я так понимаю возможностью влияния болезни на курение можно смело пренебречь и сосредоточиться только на влиянии курения на болезнь (и т. п.). А это - классическая задача регрессии. Хотя на диаграммы рассеяния глянуть предварительно стоит.

Но судя по тому, что salm собирается считать по регрессионной модели некие "скорректированные ОШ", не используя при этом коэффициенты регрессии shok.gif , ей пока следует плотно заняться изучением матчасти. Причем начинать не с обобщенных линейных моделей, а прямо с азов, пройдя через горькое и осознание того факта, что доказать нулевую гипотезу (отсутствие влияния) в принципе невозможно. Затем перейти ко множественной линейной регрессии, и нагядно убедится, как пагубно влияет подача любого мусора (хотя бы искусственно сгенеруированного шума) на уровни значимости даже "железных" предикторов, что делает высказанную идею: добавить в модель что-либо нетрадиционное с целью доказать незначимость того, что в нее клали традиционно, - абсурдной в квадрате. Ну а уж опосля уяснить бесхитростную связь логита с ОШ.

P.S. Для отделения мух от котлет, особенно в ситуации p>n (а у врачей она почти всегда такая), куда лучше годится случайный лес.



Нет нет... ОШ без коэффициентов я не собираюсь считать, я понимаю откуда они берутся. я хочу понять насколько правомерны выводы моих многочисленных коллег о том, что фактор в присутствии других "более сильных факторов" вылетает, опираясь на значимость. И я: как клиницист могу полагаться более на тот что остался, он для меня более весомый при оценке вероятности.. вот что я имею ввиду.. (и авторы статьи). Или по-другому: когда исследователей неинтересен сама модель как таковая, а интересует значимость влития на исход предикторов, ок которых принято традиционно рассуждать как о значимых (ну например, липиды, ЦРБ и возраст влияют на вероятность ИБС, а давайте посмотрим как поведут себя фаторы при добавлении какого-нибудь провоспалительного маркера...) вот такая логика...
Про мусор: я не пытаюсь заступиться ни за свой подход, ни за своих коллег. Я пытаюсь разобраться в их рассуждениях, чем они и насколько неверно они руководствовались и найти что поможет лично мне

правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...

Сообщение отредактировал salm - 1.07.2022 - 11:36
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 1.07.2022 - 17:45
Сообщение #35





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(salm @ 1.07.2022 - 09:55) *
...правильно ли сделан вывод: вот один фактор сам по себе значим, но мы вводим в модель с ним другой, который с точки зрения патофизиологии обьясняет лучше результат, и нам надо показать это статистикой, а именно, он значимость первого фактора сведена нет...


Да, так можно делать: это построение модели пошаговым включением регрессоров. При этом возможна ситуация, когда такой образ действий не выбирает оптимального набора предикторов.


Оффтоп:
Набор слов, оформленный в качестве цитаты - это ж просто цимус мит компот.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 1.07.2022 - 23:01
Сообщение #36





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 2.07.2022 - 15:47
Сообщение #37





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(ИНО @ 1.07.2022 - 23:01) *
Под "мусором" я подразумевал предикторы, не имеющие в реальности связи с откликом (влияние северного сияния), но растрачивающие впустую степени свободы модели. Из-за них реально влияющее может номинальную значимость потерять. Упомянутый случайный лес такой проблемой практически не страдает. Там, правда, p для каждого отдельного предиктора найти сложновато, но такие методы есть.

Если же новый предиктор не является мусорным, но тесно коррелирован с уже имеющимся, наблюдается другая прблема - мультиколлинеарность. При этом старый предиктор также может потерять номинальную значимость, но не реальную! Решений проблемы мультиколлинеарости есть множество, простейший оставить только один предиктор из коррелирвоанной группы. А вот единственно правильного способа ответить на вопрос, какой именно, не существует. Еще не мешало бы разобраться с целью моделирования: объяснение или прогноз. Критерии оптимальности модели для этих двух целей разные.

Но, в общем, как ни крути, но Ваша затея доказать при помощи регрессии, что старый-добрый предиктор на самом деле не влияет и тем самым пошатнуть устои, ничем хорошим не кончиться не может.


ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

Сообщение отредактировал salm - 2.07.2022 - 15:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 2.07.2022 - 15:57
Сообщение #38





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 2.07.2022 - 16:27
Сообщение #39





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Я может, сейчас лишнее напишу)) но Вы, пожалуйста, не раздражайтесь..
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте. Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии. Сам по себе факт того что я пытаюсь вникнуть вроде должен какую-то надежду внушать а не вызывать раздражение, и желание подколоть ответом.
Я ознакомилась с той литературой, которая мне доступна в плане понимания, я ознакомилась с курсом по статистике для врачей (там мне в принципе все понятно, но я понимаю, что так считать нельзя, это наиогромнейшее упрощение). Я могу и так посчитать, и это примут, и я защищусь, но так я не хочу (пока по крайней мере). Мне кажется этот форум для таких как я (а нас прям очень мало))).
Для меня, как для врача, важно понимать, что я разбираюсь в том, что хотели продемонстрировать в своих работах мои коллеги, и где они косячат.. В силу многих обстоятельств аспирант не имеет возможности тесно сотрудничать со статистиком, и даже когда имеет это часто неуспешно.
Вы же при посещении врача не слушаете бесконечные упреки в том, что вы неправильно пользуетесь органом. Обычно происходит так: грамотный врач спускается на уровень пациента, и в доступной ему форме излагает суть проблемы и методы ее решения, без колких замечаний, и еще более витиеватых словесных оборотов, я вижу вы тут все люди начитанные)))). Иначе нафиг это все вообще (я имею ввиду этот форум).
Вы меня еще раз извините, если я совсем тупая, ну не отвечайте, че уж
В любом случае, Вам спасибо!

Сообщение отредактировал salm - 2.07.2022 - 16:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 2.07.2022 - 19:30
Сообщение #40





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата
ну доказать что старый-добрый не влияет -это не затея, а способ разобраться. Иначе все эти расчеты, пусть бы они и по правилам, они клиницисту пустое
Спасибо

Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 2.07.2022 - 19:58
Сообщение #41





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата
Я же аспирант, моя задача- это разобраться как можно полно (в меру своих возможностей) в методах стат анализа (простых относительно ) и научиться их интерпретировать. Никто не собирается руководствоваться моими расчетами при принятии клинических решений, поверьте.

Ежели аспирант сознательно готовится выкинуть свой диссер в мусорное ведро сразу после получения степени, то ой. Это студенту еще можно простить такой подход к написанию дипломной работы (хотя на самом деле тоже нет).
Цитата
Я видела достаточно диссертаций по моей и смежным тематикам, там много сравнений, корреляций, порой ненужных и без выводов. Я еще не встречала защитившегося, который бы уверенно разбирался в том, что ему посчитали нанятые статистики. И это речь о простых методах. Человек защитился, а продемонстрировать что он понял, почему вывод именно такой он не в состоянии.

Не стоит брать эту порочной моделью поведения в пример. Это очень опасное явление для любой науки, а для медицине - опасное в квадрате.
Цитата
Вы меня еще раз извините, если я совсем тупая

Ну зачем же стразу так. У нас в универе ни одной тупой аспирантки не видел, надеюсь, в медВУЗах с этим не хуже (иначе совсем страшно станет лечиться). А вот чего Вам реально не хватает, так это профильных знаний оп прикладной статистике. И на форуме, особенно полуживом (а в рунете иных нет), их не получить, только в литературе. Литература есть для совершенно разной аудитории, в т. ч. для неспециалистов, написанная простым языком и прямо с кодом R. Жаль, что почти вся на английском. Но попадается и переведенная. Например, конкретно по регрессии и классификации, вот: https://libgen.is/book/index.php?md5=69A834...70E80332B180182
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 3.07.2022 - 00:59
Сообщение #42





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(salm @ 2.07.2022 - 15:57) *
А не подскажете ли как вычисляется в процентах, на сколько конкретный предиктор в многофакторный модели объясняет вероятность исхода? Используя значение статистики Вальда?... А как вычислить? Или я не права?...

Нет?))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 3.07.2022 - 02:18
Сообщение #43





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 6.07.2022 - 08:53
Сообщение #44





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(ИНО @ 3.07.2022 - 02:18) *
То, что Вы просите называется, "декомпозиция дисперсии" или "анализ компонентов дисперсии" и применяется обычно в моделях случайных эффектов. И вариантов там много, в зависимости от а) метода оценки параметров и б) типа суммы квадратов. Но главное, все это обычно применяют именно для случайных эффектов, направление действия которых не интересует исследователя либо в принципе не поддается контролю. Например: "25% дисперсии показателя Y крови человека определяется индивидуальной принадлежностью испытуемого, 25 % - его семейной принадлежностью, а остальные 50% - настроением лаборанта, проводившего анализ:)

Вас же, если я правильно понимаю ситуацию, больше должно интересовать конкретное влияние фактора Х на показатель Y, например: "Одна выкуриваемая в день сигарета увеличивает (уменьшает) Y на столько-то (с таким-то доверительным интервалом)". В практическом смысле это сильно полезнее, чем проценты дисперсии.


В практическом - да. Просто руководитель поинтересовался что за показатель, я не смогла найти.
Спасибо за книгу, про суть метода максимального правдоподобия стал понятна (надеюсь)))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 6.07.2022 - 09:06
Сообщение #45





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(ИНО @ 2.07.2022 - 19:30) *
Насколько я понимаю, клиницисту важно в первую очередь не объяснение, а верное предсказание, для этого можно смело запихивать дополнительные предикторы (если есть веские теоретические основание не считать их мусорными) и не обращать внимание на p, а смотреть толко на точность прогноза. Даже если ни один предиктор формально не значим, модель в целом может давать хорошие прогнозы. И уж точно автоматически выкидывать предикторы с p>0,05 - не от большого ума. Если есть необходимость упростить прогнозную модель (например, чтобы доказать, что если брать у больного 1-2 анализа вместо 100, точность прогноза упадет незначительно), делать это надо на основе перекрестной проверки или проверки на новых данных.


Ну представить что врач будет для конкретного пациента вычислять вероятность какого -то исхода мы не можем. Да, нас интересует сила факторов, направление действия и значимость, надежность какого либо из них при одновременном рассматривании других.. вот так... а сама формула никому не нужна, ее все перелистывают, не вникая. Так уж повелось. (Но если Вы посчитаете, что в клинической медицине так все плохо по этому - нет, уверяю, вообще не по этой причине). А почему я выбрала логистическую регрессию - ну потому что все привыкли именно к ней, и как умеют, так и интерпретируют. Но с другими методами едва ли кто знаком. Из тех, кто будет мою работу читать - не знаком никто. Да и с логистической регрессией тоже, но я вроде бы разобралась уже (хоть вы и не согласитесь))))
И не редки такие ситуации - статистик посчитал, даже выводы написал (ну естественно, небезвозмездно). А в работу это не вошло, руководитель посчитал ненужным, лишним или непонятным. Или рецензент попросил переделать. Вот и все...
Вам спасибо!!! За книгу огромнейшее спасибо еще раз!!!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

7 страниц V  < 1 2 3 4 5 > » 
Добавить ответ в эту темуОткрыть тему