Набор данных для ROC-анализа |
Здравствуйте, гость ( Вход | Регистрация )
Набор данных для ROC-анализа |
6.12.2021 - 15:24
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Всем доброго времени суток!!!
Как вы считаете: при проведении ROC-анализа набор непрерывных данных должен включать все встречающиеся в жизни параметры, или же возможен анализ только с включением двух близких групп? Практически: в исследование входит 1группа с многососудистым поражением коронарных сосудов и 2группа с однососудистым поражением коронарных сосудов. Так настаивает руководство. во всех зарубежных работах в подобные исследования с подобными целями включались больные с любым поражением КА, включалась здоровая группа, в некоторых и здоровые добровольцы, у которых рассматриваемый параметр выше чем в изучаемой популяции больных с ИБС. Есть отечественная работа, где в РОК-анализ вошли пациенты с многососудистым поражением и промежуточным, то есть между ними как бы пробел. Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться Спасибо!!! |
|
6.12.2021 - 21:40
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вопрос: нормально ли то пороговая величина с чувствительностью и специфичностью и прочее будут применяться для отсечения многососудистых пациентов от всех остальных, включая здоровых, хотя он проведен между двумя "компактными" грумами? Или об этом не стоит беспокоиться ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать. На заметку. 1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest). 2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана. |
|
7.12.2021 - 12:56
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-k...ikatorov/viewer Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
8.12.2021 - 12:54
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
ROC-анализ - частность, вам нужно определиться с дизайном исследования, а как раз это - задача научного руководителя. Понятно, что включать и больных и здоровых в одну группу неправильно, т.к. это принципиально разные группы. Я в таких ситуациях предлагаю другой вариант разбивки материала: 1) все больные vs здоровые, 2) лёгкие (или лёгкие + средние) больные vs тяжёлые больные. Т.е. в вашем случае сначала оценивается способность и качество методики выявлять любых сосудистых пациентов, а уже потом на следующем шаге - выявлять из них многососудистых. Соответственно и все выборочные сравнения в исследовании, и модели, просчитываются в этих двух вариантах. Из поста не ясна цель работы. Если нужна оценка диагностической эффективности какой-то новой или вашей методики, то на ROC-анализе можно и остановиться. Если же ROC-анализ используется просто в качестве фильтра для отбора наиболее перспективных показателей для дальнейшего построения многофакторной модели прогноза риска, то всё заканчивается двумя моделями: 1) прогноза риска заболевания, 2) прогноза риска тяжёлой его формы. В этих моделях могут сработать совсем разные предикторы, т.к. больные отличаются от здоровых сильнее и по-другому, чем разные группы больных. Научный руководитель должен это понимать. На заметку. 1) если перспективных показателей слишком много для модели (бывает программы просто отказываются считать, если число пациентов не превосходит в разы число предикторов), то нужно выбирать пошаговые методы включения показателей, а ещё лучше - отобрать из них самые сильные в любых сочетаниях техникой случайного леса (Random forest). 2) в последнее время не зря отдают предпочтение ROC-анализу, а не бинарной логистической регрессии: когда минимизируется не ошибка логита, а данные для расчёта чувствительности и специфичности режутся непосредственно, безо всякой модели, то показатели диагностической эффективности (ДЭ) оказываются выше. Соответственно и в многопеременном случае лучше использовать не множественную логистическую регрессию, а искать методы, которые режут массив данных для моделирования напрямую. Нахожусь под впечатлением от техники MDR (Multifactor dimensionflity reduction), которая строит модель из набора правил "if-then" и судя по тому, что она делает - может применяться для любых данных, а не только генетических, для которых была разработана. Спасибо за уделенное время. Да, цель исследования - оценить эффективность диагностической методики при выявлении многососудистого поражения. У меня создается впечатление, что в данном случае, включение в анализ двух близких групп имеет цель сравнить группы по фактору, не столько практический, я видимо не права. Вот что смущает: во всех иностранных работах по данной тематики в рок анализа также в многофакторный анализ оценки вероятности выявления такой тяжелой группы включались все пациенты, в том числе и здоровые, Там и параметры чувствительность, специфичность и прочее существенно выше чем те, что выходят у нас при включении только двух групп. И это характерно и для других методик, где оцениваются диагностические возможности выявления многососудистого поражения с помощью оценки кровотока: ОФЭКТ, ПЭТ/КТ, стресс-МРТ, КТ перфузии, везде... Всех больных в итоге для анализа сливают вместе. А в статьях по рок-анализу я не встречала рекомендации по тому, какие группы целесообразно включить в анализ, там лишь указано что он должен проводиться исходя из практического соображения, вот я и спрашиваю. Иностранные статьи я не брала по статистике, меня просто на нх не хватает( Спасибо. Сообщение отредактировал salm - 8.12.2021 - 13:56 |
|
8.12.2021 - 13:07
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Мы уже обсуждали несколько лет назад на данной площадке ROC-анализ. Но неполное понимание его назначения и соотношения с другими методами остается. Не думаю, что удастся переменить мнение коллег, но хотя бы вот здесь посмотрите https://cyberleninka.ru/article/n/otsenka-k...ikatorov/viewer Поняла Вас, извините за лишнюю тему... Я спрашиваю именно про РОК анализ одной непрерывной переменной (мн е нужна пороговая величина кровотока), а не про многофакторную модель с ее показателями оценки вероятности...но я и не сомневаюсь что не оконца понимаю все. Просто есть мнение именно статиста, что включать с этой целью нужно всех. В любом случае, спасибо за ответ и ссылку. мне очень нужно стороннее мнение. И еще: в литературе встречаются доверительные интервалы для чувствительности и специфичность... в программном пакете этого нет, и я не совсем понимаю их смысл.. Для площади под кривой смысл мне понятен - она должна значимо отличаться от нулевой (0.5) кривой и доверительный интервал не пересекает ее... а с этими параметрами как быть? Это анализ чувствительности специфичности? 4-хпольная таблица чтоли? Где это искать, не подскажете? В разделе статметоды самой работы я не вижу этого.. наверное, не понимаю... Сообщение отредактировал salm - 8.12.2021 - 13:59 |
|
8.12.2021 - 13:12
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05?
|
|
8.12.2021 - 22:55
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Еще, если можно ответить здесь, скажите: в многофакторный модели параметр intercept его значимость на что влияет? значимость всей модели страдает при уровне значимости больше 0.05? Itercept - это константа, значение которое остаётся, если все другие члены модели равны нулю. Не оценивается и ни на что не влияет при описании модели, но должна включаться в модель при расчёте по ней. По поводу того что есть в зарубежных статьях и кто там что насоветовал ничего не понял, да и не хочу.... Я свою точку зрения уже высказал, причём прямо по пунктам. |
|
11.12.2021 - 15:29
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
В соседней теме http://forum.disser.ru/index.php?showtopic=5151 упоминается программа PSPP. В ней ROC анализ есть.
Сообщение отредактировал Игорь - 11.12.2021 - 15:30 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
16.05.2022 - 22:23
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 62 Регистрация: 6.12.2021 Пользователь №: 39615 |
Всем !!!
А не подскажете ли...: Вот при проведении РОК анализа мне нужна оптимальная пороговая величина непрерывной переменной (Площадь значимо отличается от 0,5, все нормально) я ее нахожу исходя из наивысших значений чувствительности и специфичности- это я так понимаю относительно универсальное правило... Еще, исходя из клинических задач, я рассматриваю, как вариант, точку, в которой чувствительность для нас оптимальна (80%) и дальше чтобы не терять в специфичности, оставляю на этом уровне... Не уверена, что для статистиков это приемлемо, что вы думаете об этом? Или исходя из клинических задач я могу выбирать любую точку, заботясь о том, чтобы ни опускать Ч или С ниже 50%?... При выборе порогового значения (по индексу Юдена, например) у нас довольно низкая специфичность. Меня руководитель просит: давай дополнительно покажем пороговое значение, с помощью которого мы с 90% вероятностью сможем заявить об отсутствии исхода.. Но притом пороговом значении, чувствительность около 35%.. Можно так подать результат?: то есть предоставить с пояснениями две пороговые величины? И можно ли вообще выбрать пороговое значение с Ч или С ниже 50%? |
|