Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Набор данных для ROC-анализа
salm
сообщение 6.12.2021 - 15:24
Сообщение #1





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Всем доброго времени суток!!!
Как вы считаете: при проведении ROC-анализа набор непрерывных данных должен включать все встречающиеся в жизни параметры, или же возможен анализ только с включением двух близких групп? Практически: в исследование входит 1группа с многососудистым поражением коронарных сосудов и 2группа с однососудистым поражением коронарных сосудов. Так настаивает руководство. во всех зарубежных работах в подобные исследования с подобными целями включались больные с любым поражением КА, включалась здоровая группа, в некоторых и здоровые добровольцы, у которых рассматриваемый параметр выше чем в изучаемой популяции больных с ИБС. Есть отечественная работа, где в РОК-анализ вошли пациенты с многососудистым поражением и промежуточным, то есть между ними как бы пробел. Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться
Спасибо!!!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 6.12.2021 - 21:40
Сообщение #2





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(salm @ 6.12.2021 - 17:24) *
Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться

ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать.
На заметку.
1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest).
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
salm
сообщение 8.12.2021 - 12:54
Сообщение #3





Группа: Пользователи
Сообщений: 62
Регистрация: 6.12.2021
Пользователь №: 39615



Цитата(nokh @ 6.12.2021 - 22:40) *
ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать.
На заметку.
1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest).
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана.


Спасибо за уделенное время. Да, цель исследования - оценить эффективность диагностической методики при выявлении многососудистого поражения. У меня создается впечатление, что в данном случае, включение в анализ двух близких групп имеет цель сравнить группы по фактору, не столько практический, я видимо не права. Вот что смущает: во всех иностранных работах по данной тематики в рок анализа также в многофакторный анализ оценки вероятности выявления такой тяжелой группы включались все пациенты, в том числе и здоровые, Там и параметры чувствительность, специфичность и прочее существенно выше чем те, что выходят у нас при включении только двух групп. И это характерно и для других методик, где оцениваются диагностические возможности выявления многососудистого поражения с помощью оценки кровотока: ОФЭКТ, ПЭТ/КТ, стресс-МРТ, КТ перфузии, везде... Всех больных в итоге для анализа сливают вместе. А в статьях по рок-анализу я не встречала рекомендации по тому, какие группы целесообразно включить в анализ, там лишь указано что он должен проводиться исходя из практического соображения, вот я и спрашиваю. Иностранные статьи я не брала по статистике, меня просто на нх не хватает(
Спасибо.

Сообщение отредактировал salm - 8.12.2021 - 13:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему