Набор данных для ROC-анализа - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Набор данных для ROC-анализа

salm Просмотр профиля	6.12.2021 - 15:24 Сообщение #1
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Всем доброго времени суток!!! Как вы считаете: при проведении ROC-анализа набор непрерывных данных должен включать все встречающиеся в жизни параметры, или же возможен анализ только с включением двух близких групп? Практически: в исследование входит 1группа с многососудистым поражением коронарных сосудов и 2группа с однососудистым поражением коронарных сосудов. Так настаивает руководство. во всех зарубежных работах в подобные исследования с подобными целями включались больные с любым поражением КА, включалась здоровая группа, в некоторых и здоровые добровольцы, у которых рассматриваемый параметр выше чем в изучаемой популяции больных с ИБС. Есть отечественная работа, где в РОК-анализ вошли пациенты с многососудистым поражением и промежуточным, то есть между ними как бы пробел. Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться Спасибо!!!

nokh Просмотр профиля	6.12.2021 - 21:40 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(salm @ 6.12.2021 - 17:24) Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать. На заметку. 1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest). 2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана.

Игорь Просмотр профиля	7.12.2021 - 12:56 Сообщение #3
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 6.12.2021 - 22:40) 2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-k...ikatorov/viewer Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

salm Просмотр профиля	8.12.2021 - 12:54 Сообщение #4
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Цитата(nokh @ 6.12.2021 - 22:40) ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать. На заметку. 1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest). 2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана. Спасибо за уделенное время. Да, цель исследования - оценить эффективность диагностической методики при выявлении многососудистого поражения. У меня создается впечатление, что в данном случае, включение в анализ двух близких групп имеет цель сравнить группы по фактору, не столько практический, я видимо не права. Вот что смущает: во всех иностранных работах по данной тематики в рок анализа также в многофакторный анализ оценки вероятности выявления такой тяжелой группы включались все пациенты, в том числе и здоровые, Там и параметры чувствительность, специфичность и прочее существенно выше чем те, что выходят у нас при включении только двух групп. И это характерно и для других методик, где оцениваются диагностические возможности выявления многососудистого поражения с помощью оценки кровотока: ОФЭКТ, ПЭТ/КТ, стресс-МРТ, КТ перфузии, везде... Всех больных в итоге для анализа сливают вместе. А в статьях по рок-анализу я не встречала рекомендации по тому, какие группы целесообразно включить в анализ, там лишь указано что он должен проводиться исходя из практического соображения, вот я и спрашиваю. Иностранные статьи я не брала по статистике, меня просто на нх не хватает( Спасибо. Сообщение отредактировал salm - 8.12.2021 - 13:56

salm Просмотр профиля	8.12.2021 - 13:07 Сообщение #5
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Цитата(Игорь @ 7.12.2021 - 13:56) Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-k...ikatorov/viewer Поняла Вас, извините за лишнюю тему... Я спрашиваю именно про РОК анализ одной непрерывной переменной (мн е нужна пороговая величина кровотока), а не про многофакторную модель с ее показателями оценки вероятности...но я и не сомневаюсь что не оконца понимаю все. Просто есть мнение именно статиста, что включать с этой целью нужно всех. В любом случае, спасибо за ответ и ссылку. мне очень нужно стороннее мнение. И еще: в литературе встречаются доверительные интервалы для чувствительности и специфичность... в программном пакете этого нет, и я не совсем понимаю их смысл.. Для площади под кривой смысл мне понятен - она должна значимо отличаться от нулевой (0.5) кривой и доверительный интервал не пересекает ее... а с этими параметрами как быть? Это анализ чувствительности специфичности? 4-хпольная таблица чтоли? Где это искать, не подскажете? В разделе статметоды самой работы я не вижу этого.. наверное, не понимаю... Сообщение отредактировал salm - 8.12.2021 - 13:59

salm Просмотр профиля	8.12.2021 - 13:12 Сообщение #6
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05?

nokh Просмотр профиля	8.12.2021 - 22:55 Сообщение #7
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(salm @ 8.12.2021 - 15:12) Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05? Itercept - это константа, значение которое остаётся, если все другие члены модели равны нулю. Не оценивается и ни на что не влияет при описании модели, но должна включаться в модель при расчёте по ней. По поводу того что есть в зарубежных статьях и кто там что насоветовал ничего не понял, да и не хочу.... Я свою точку зрения уже высказал, причём прямо по пунктам.

Игорь Просмотр профиля	11.12.2021 - 15:29 Сообщение #8
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	В соседней теме http://forum.disser.ru/index.php?showtopic=5151 упоминается программа PSPP. В ней ROC анализ есть. Сообщение отредактировал Игорь - 11.12.2021 - 15:30 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

salm Просмотр профиля	16.05.2022 - 22:23 Сообщение #9
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615	Всем !!! А не подскажете ли...: Вот при проведении РОК анализа мне нужна оптимальная пороговая величина непрерывной переменной (Площадь значимо отличается от 0,5, все нормально) я ее нахожу исходя из наивысших значений чувствительности и специфичности- это я так понимаю относительно универсальное правило... Еще, исходя из клинических задач, я рассматриваю, как вариант, точку, в которой чувствительность для нас оптимальна (80%) и дальше чтобы не терять в специфичности, оставляю на этом уровне... Не уверена, что для статистиков это приемлемо, что вы думаете об этом? Или исходя из клинических задач я могу выбирать любую точку, заботясь о том, чтобы ни опускать Ч или С ниже 50%?... При выборе порогового значения (по индексу Юдена, например) у нас довольно низкая специфичность. Меня руководитель просит: давай дополнительно покажем пороговое значение, с помощью которого мы с 90% вероятностью сможем заявить об отсутствии исхода.. Но притом пороговом значении, чувствительность около 35%.. Можно так подать результат?: то есть предоставить с пояснениями две пороговые величины? И можно ли вообще выбрать пороговое значение с Ч или С ниже 50%?

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.