Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Набор данных для ROC-анализа

Автор: salm 6.12.2021 - 15:24

Всем доброго времени суток!!!
Как вы считаете: при проведении ROC-анализа набор непрерывных данных должен включать все встречающиеся в жизни параметры, или же возможен анализ только с включением двух близких групп? Практически: в исследование входит 1группа с многососудистым поражением коронарных сосудов и 2группа с однососудистым поражением коронарных сосудов. Так настаивает руководство. во всех зарубежных работах в подобные исследования с подобными целями включались больные с любым поражением КА, включалась здоровая группа, в некоторых и здоровые добровольцы, у которых рассматриваемый параметр выше чем в изучаемой популяции больных с ИБС. Есть отечественная работа, где в РОК-анализ вошли пациенты с многососудистым поражением и промежуточным, то есть между ними как бы пробел. Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться
Спасибо!!!

Автор: nokh 6.12.2021 - 21:40

Цитата(salm @ 6.12.2021 - 17:24) *
Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться

ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать.
На заметку.
1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest).
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана.

Автор: Игорь 7.12.2021 - 12:56

Цитата(nokh @ 6.12.2021 - 22:40) *
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии

Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-kachestva-binarnyh-klassifikatorov/viewer


Автор: salm 8.12.2021 - 12:54

Цитата(nokh @ 6.12.2021 - 22:40) *
ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать.
На заметку.
1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest).
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана.


Спасибо за уделенное время. Да, цель исследования - оценить эффективность диагностической методики при выявлении многососудистого поражения. У меня создается впечатление, что в данном случае, включение в анализ двух близких групп имеет цель сравнить группы по фактору, не столько практический, я видимо не права. Вот что смущает: во всех иностранных работах по данной тематики в рок анализа также в многофакторный анализ оценки вероятности выявления такой тяжелой группы включались все пациенты, в том числе и здоровые, Там и параметры чувствительность, специфичность и прочее существенно выше чем те, что выходят у нас при включении только двух групп. И это характерно и для других методик, где оцениваются диагностические возможности выявления многососудистого поражения с помощью оценки кровотока: ОФЭКТ, ПЭТ/КТ, стресс-МРТ, КТ перфузии, везде... Всех больных в итоге для анализа сливают вместе. А в статьях по рок-анализу я не встречала рекомендации по тому, какие группы целесообразно включить в анализ, там лишь указано что он должен проводиться исходя из практического соображения, вот я и спрашиваю. Иностранные статьи я не брала по статистике, меня просто на нх не хватает(
Спасибо.

Автор: salm 8.12.2021 - 13:07

Цитата(Игорь @ 7.12.2021 - 13:56) *
Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-kachestva-binarnyh-klassifikatorov/viewer

Поняла Вас, извините за лишнюю тему... Я спрашиваю именно про РОК анализ одной непрерывной переменной (мн е нужна пороговая величина кровотока), а не про многофакторную модель с ее показателями оценки вероятности...но я и не сомневаюсь что не оконца понимаю все. Просто есть мнение именно статиста, что включать с этой целью нужно всех.
В любом случае, спасибо за ответ и ссылку. мне очень нужно стороннее мнение.
И еще: в литературе встречаются доверительные интервалы для чувствительности и специфичность... в программном пакете этого нет, и я не совсем понимаю их смысл.. Для площади под кривой смысл мне понятен - она должна значимо отличаться от нулевой (0.5) кривой и доверительный интервал не пересекает ее... а с этими параметрами как быть? Это анализ чувствительности специфичности? 4-хпольная таблица чтоли? Где это искать, не подскажете? В разделе статметоды самой работы я не вижу этого.. наверное, не понимаю...

Автор: salm 8.12.2021 - 13:12

Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05?

Автор: nokh 8.12.2021 - 22:55

Цитата(salm @ 8.12.2021 - 15:12) *
Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05?

Itercept - это константа, значение которое остаётся, если все другие члены модели равны нулю. Не оценивается и ни на что не влияет при описании модели, но должна включаться в модель при расчёте по ней. По поводу того что есть в зарубежных статьях и кто там что насоветовал ничего не понял, да и не хочу.... Я свою точку зрения уже высказал, причём прямо по пунктам.

Автор: Игорь 11.12.2021 - 15:29

В соседней теме http://forum.disser.ru/index.php?showtopic=5151 упоминается программа PSPP. В ней ROC анализ есть.

Автор: salm 16.05.2022 - 22:23

Всем hi.gif!!!
А не подскажете ли...:
Вот при проведении РОК анализа мне нужна оптимальная пороговая величина непрерывной переменной (Площадь значимо отличается от 0,5, все нормально) я ее нахожу исходя из наивысших значений чувствительности и специфичности- это я так понимаю относительно универсальное правило... Еще, исходя из клинических задач, я рассматриваю, как вариант, точку, в которой чувствительность для нас оптимальна (80%) и дальше чтобы не терять в специфичности, оставляю на этом уровне... Не уверена, что для статистиков это приемлемо, что вы думаете об этом?
Или исходя из клинических задач я могу выбирать любую точку, заботясь о том, чтобы ни опускать Ч или С ниже 50%?...
При выборе порогового значения (по индексу Юдена, например) у нас довольно низкая специфичность. Меня руководитель просит: давай дополнительно покажем пороговое значение, с помощью которого мы с 90% вероятностью сможем заявить об отсутствии исхода.. Но притом пороговом значении, чувствительность около 35%.. Можно так подать результат?: то есть предоставить с пояснениями две пороговые величины? И можно ли вообще выбрать пороговое значение с Ч или С ниже 50%?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)