Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V  < 1 2 3 4 >  
Добавить ответ в эту темуОткрыть тему
> ROC-анализ, определение чувствительности и специфичности метода
nokh
сообщение 5.07.2008 - 09:38
Сообщение #16


Дух форума
*

Группа: Пользователи
Сообщений: 1140
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DrgLena @ 5.07.2008 - 04:57) *
...Плав дал ручной расчет, совпадающий с MedCalc (Trapezoidal (Wilcoxon) area). Присоединен файл с документацией по этому модулю и решением примера Плава в NCSS может пригодится для расширения познаний.

Сомневаюсь, что совпадающий. У Плава одинаковым значениям 250 присвоены разные ранги (11 и 12). Чтобы совпало с результатами программных расчетов (ROCKIT от C.E. Metz и приведенные Вами расчеты в NCSS, MedCalc'ом не пользуюсь) нужно дать им средний ранг 11,5. Тогда площадь будет 0,75893.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.07.2008 - 12:53
Сообщение #17


Дух форума
*

Группа: Пользователи
Сообщений: 1324
Регистрация: 27.11.2007
Пользователь №: 4573



Почти совпадающий, по MedCalc, действительно ROC=0,75893 (se=0,127).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.07.2008 - 16:20
Сообщение #18


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 5.07.2008 - 13:53) *
Почти совпадающий, по MedCalc, действительно ROC=0,75893 (se=0,127).

Согласен, надо присваивать разные ранги (тогда в таблице результат 0,7589, стандартная ошибка правда больше 0,130), однако в основной части примера расчет производился просто интегрированием и он получается равным 0,750. Так что вопрос о точности оценки AUC ROC при использовании средних рангов остается.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.07.2008 - 16:50
Сообщение #19


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(плав @ 4.07.2008 - 21:48) *
Прежде, чем кого-то исправлять неплохо бы внимательно прочитать пост (иначе возникают сомнения в мотивах критикующего).
...
А вот пытаться доказать, что вокруг все ничего не понимают - не стоит.

Мне искренне жаль, что плав воспринимает поправки на явные опечатки и вполне корректные предложения, как личное оскорбление, и на этом мнимом основании наносит уже реальное оскорбление собеседнику.

В таком случае снимаю и удаляю все свои поправки.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.07.2008 - 00:40
Сообщение #20


Дух форума
*

Группа: Пользователи
Сообщений: 1324
Регистрация: 27.11.2007
Пользователь №: 4573



Не стоит горячиться, не так много мест, где есть общение на столь интересную тему, как медицинская статистика. И участвующих в обсуждении возникающих на форуме вопросов не так уж много. Давайте бережно относиться к мнению каждого, а то некому будет его высказвать. Обсуждение ROC анализа можно продолжить. Есть и другие алгоритмы и значения площади по примеру Плава, а именно:
Area under fitted curve (Az) = 0.7751
Estimated std. error = 0.1196
Вопрос к знатокам - как получается 0,7751?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.07.2008 - 07:46
Сообщение #21


Дух форума
*

Группа: Пользователи
Сообщений: 1140
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Знатоком себя не считаю, но ответ знаю - как раз это значение мне выдала программа ROCKIT smile.gif. Существует два пути расчета площади: непараметрический и параметрический.
Непараметрический использует только имеющуюся информацию, поэтому полученную с его помощью оценку Az называют эмпирической. Это и есть описанный Плавом во вторую очередь анализ через расчет статистики Манна-Уитни (только для одинаковых значений нужно использовать одинаковые ранги - средние).
Второй путь - помимо имеющейся информации предполагает нормальное распределение показателя в обеих группах (больных и здоровых). Поэтому и называется бинормальной оценкой (binormal) и является параметрическим (или почему-то называется полупараметрическим???). Это - идеализированная модель, которая расчитывается методом максимального правдоподобия, но алгоритмов такого расчета предложено несколько. Наибольшее распространение получил алгоритм Labroc, предложенный Metz кажется в 1986 г. Именно по нему получаетя Az=0,7751, se=0,1196. Предложены и другие алгоритмы, которые дают немного отличающиеся оценки площади. Качество этих алгоритмов проверяется в симуляционных экспериментах по данным с известными параметрами распределения. Читал также, что для сравнения площадей, оцененных бинормальным методом, лучше предварительно нормализовать исходные данные - преобразовать их по Боксу-Коксу. В этом случае оценки Az также будут другими.
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 08:29
Сообщение #22


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 5.07.2008 - 17:50) *
Мне искренне жаль, что плав воспринимает поправки на явные опечатки и вполне корректные предложения, как личное оскорбление, и на этом мнимом основании наносит уже реальное оскорбление собеседнику.

В таком случае снимаю и удаляю все свои поправки.

Если хочется поправить "опечатки", то есть корректная форма вопроса (например, а почему написано так-то а в расчетах получается так-то, а не "не надо менять стандартные обозначения") или личка. При разборе примеров на общеизвестные вещи ни о какой научной дискуссии речь не идет, это скорее напоминает попытку одного преподавателя начать править другого во время лекции. По крайней мере в преподавательской среде это не одобряется. Я думаю, моя позиция обозначена теперь достаточно четко и я, да и другие люди на форуме, не для того теряют тут время на объяснения, чтобы их объяснения ставились под сомнения и, таким образом, потраченное ими время уходило впустую.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 09:32
Сообщение #23


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 6.07.2008 - 08:46) *
Знатоком себя не считаю, но ответ знаю - как раз это значение мне выдала программа ROCKIT smile.gif. Существует два пути расчета площади: непараметрический и параметрический.
Непараметрический использует только имеющуюся информацию, поэтому полученную с его помощью оценку Az называют эмпирической. Это и есть описанный Плавом во вторую очередь анализ через расчет статистики Манна-Уитни (только для одинаковых значений нужно использовать одинаковые ранги - средние).
Второй путь - помимо имеющейся информации предполагает нормальное распределение показателя в обеих группах (больных и здоровых). Поэтому и называется бинормальной оценкой (binormal) и является параметрическим (или почему-то называется полупараметрическим???). Это - идеализированная модель, которая расчитывается методом максимального правдоподобия, но алгоритмов такого расчета предложено несколько. Наибольшее распространение получил алгоритм Labroc, предложенный Metz кажется в 1986 г. Именно по нему получаетя Az=0,7751, se=0,1196. Предложены и другие алгоритмы, которые дают немного отличающиеся оценки площади. Качество этих алгоритмов проверяется в симуляционных экспериментах по данным с известными параметрами распределения. Читал также, что для сравнения площадей, оцененных бинормальным методом, лучше предварительно нормализовать исходные данные - преобразовать их по Боксу-Коксу. В этом случае оценки Az также будут другими.
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.

Действительно, обычно использование бинормального метода для построения ROC кривой приводит к несколько другому значению площади под кривой (и более сглаженной форме кривой - без зигзагов, поскольку зигзаги рассматриваются как случайные колебания).
При использовании предположения бинормальности имеющиеся данные аппроксимируются следующим образом: G(x)=Ф(a+b*(Ф(x)^(-1))), где Ф(х) - функция нормального распределения, а a и b - интересующие нас параметры. Они то как раз и оцениваются и используются для рассчета AUC по формуле AUC=Ф(a/sqrt(1+b^2)).
Легко найти, что a=(M1-M0)/sigma1, а b=sigma0/sigma1.
Для анализируемого примера а=0,89208, b=0,83161, а AUC (используя функцию НОРМСТРАСП экселя - 0,75361).
se(AUC) уже считать сложнее, требует использования, например, NLMIXED в SAS.
Кстати, если программа не считает AUC, но рассчитывает (обычно в разделе табличного анализа) D Сомерса, то его также можно использовать для оценки AUC ROC по формуле AUC=(D+1)/2 и se(AUC)=se(D)/2.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 09:35
Сообщение #24


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Справедливые слова. И дельные советы. Неполиткорректно свою фразу составил, за что приношу плав свои искренние извинения. Обещаю попытаться сменить тон на более приемлемый.

Итак, у плав написано
Цитата(плав @ 3.07.2008 - 20:17) *
Для примера выше получаем:

Se FP Площадь
1 1 0,143
0,857 1 0,000
...

Не должно ли быть так?

FP Se Площадь
1 1 0,143
0,857 1 0,000
0,857 0,875 0,125
...

А то ведь график будет FP от Se, а должен, предположительно, Se от FP? Если построить график Se от FP, как в таблице плав, то график DrgLena не получается таким, как она представила. У Власова, конечно, рассматриваются различные типы ROC, но здесь, насколько мне удалось понять при моих скромных познаниях, речь идет о конкретном типе кривой.

Если я ошибся (надеюсь, что так и есть), заранее прошу прощения у уважаемого плав.

Цитата(DrgLena @ 5.07.2008 - 01:57) *
Игорь, по видимому, не верно определил больных и здоровых в этом примере. Принято кодировать тех, у кого тест положительный, т.е. больных "1", а здоровых "0", как у Плава в примере. Чувствительность и специфичность относится к этим понятиям. Если поменять кодировку, площадь под кривой будет хоть и не отрицательной, но меньше 0,5 (0,24 в этом примере). Плав дал ручной расчет, совпадающий с MedCalc (Trapezoidal (Wilcoxon) area). Присоединен файл с документацией по этому модулю и решением примера Плава в NCSS может пригодится для расширения познаний.

Уважаемая DrgLena, спасибо за материалы! Поделюсь, что у нас получилось. В наших численных экспериментах (не более того - никакой теории не предлагаю) наблюдалось такое явление. Если мы считаем чувствительность по выборке большей численности, а неспецифичность (1 - Sp, позвольте мне назвать ее так - как у Власова, плав называет это как FP - его право) по выборке меньшей численности, мы всегда получаем выпуклую (правильную smile.gif) ROC. Если наоборот, то ROC всегда будет вогнутой. Рискну предположить, что порядок кодирования (0 или 1) безразличен. Важна только численность выборок опыта и контроля (ну, или больных и здоровых, в зависимости от условий задачи). Этот факт наблюдался в расчетах. Т.е., предположительно, в алгоритме можно предусмотреть выбор той или иной ветки расчета в зависимости от численности, и забыть о кодировке.
Цитата(плав @ 6.07.2008 - 09:32) *
Действительно, обычно использование бинормального метода для построения ROC кривой приводит к несколько другому значению площади под кривой (и более сглаженной форме кривой - без зигзагов, поскольку зигзаги рассматриваются как случайные колебания).

Предположим, так или иначе мы получим гладкую ROC. А справедливо ли это? ROC разве не должна быть по своей природе дискретной?
Выше AUC мы считали по правилу трапеций. А можно ли воспользоваться более точным численным методом? Например, правилом Симпсона? Хотя для дискретной ROC этот вопрос, естественно, не стоит.
Еще вопрос. А зачем нужна стандартная ошибка AUC? И как ее рассчитать?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 13:25
Сообщение #25


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



1) FP - сокращение от False Positives (ложноположительные результаты). Аналог 1-Sp, однако более простой для понимания (это просто количество здоровых, у которых тест окажется положительным при использовании данной границы - 1- Sp - дополнение до единицы количества здоровых, у которых тест окажется отрицательным при использовании данной границы). Во многих книгах используют именно FP, а не 1-Sp.
Опечатка в заголовках таблиц была быстро исправлена в прикрепленном файле, но осталась в посте.
2) Что касается сглаживания ROC кривой - тут есть разные точки зрения. Поскольку любые измерения, в том числе значений для построения ROC кривой делаются с некоторой ошибкой, можно предположить, что реальная форма ROC кривой гладкая (например, для холестерина мы просто не имели пациентов с другими значениями, а взяли бы 10000, то...). Соответственно, зигзаги - следствия ошибок и должны быть удалены точно так же, как мы описываем распределение значений в выборке при помощи средних. Как и в других местах в статистике нет правильного или неправильного подхода, просто разные допущения, которые могут быть или не быть разумнынми для конкретного случая.
3) Стандартная ошибка AUC нужна для определения надежности заключения. Поскольку мы работаем с выборкой, то при повторении эксперимента AUC может оказаться другой. Иными словами, AUC такая же случайная величина, как выборочное среднее. Соответственно, если мы можем определить дисперсию AUC, мы можем определить параметры распределения выборочных AUC и из этого сделать предположения о том, где может находиться истинное - популяционное значение AUC. Проще всего сделать это путем расчета 95%ДИ, который будет равен AUC+/-1.96*se(AUC). Получив этот интервал можно. например, проверить гипотезу о том, что диагностический метод лучше, чем "гадание на кофейной гуще" (т.е. метод с AUC=0.5). Если интервал включает 0,5, значит не лучше, если нет - то лучше. Аналогичным образом можно сравнивать разные диагностические методы.
4) Расчет se(AUC) приведен в моем посте выше (для непараметрического подхода). Для параметрического требуется оценка либо по методу максимального правдоподобия, либо по методу наименьших квадратов (см. M. Gonen Analyzing Receiver Operating Characteristic Curves with SAS). Считается, что по методу наименьших квадратов оценка хуже (делается регрессия между значениями пробитов для Se и 1-Sp). Код SAS для NLMMIXED моего примера приведен ниже:
proc nlmixed data=new;
parameters m1=0 m0=0 s1=39 s0=39;
* надо поиграть с начальными параметрами - лучше выставить их равными ожидаемым;
if group=1 then m=m1; else if group=0 then m=m0;
if group=1 then s=s1**2; else if group=0 then s=s0**2;
* group - группа: 1 - больные; 0 - здоровые.
a=(m1-m0)/s1;
b=s0/s1;
model mar~normal(m,s);
* mar - значение маркера (уровень ХС);
estimate 'a' a;
estimate 'b' b;
estimate 'AUC' probnorm(a/sqrt(1+b**2));
run;
Результат AUC=0.7692, se(AUC)=0.1180
Третий возможный метод оценки - метод с интенсивным использованием ЭВМ (bootstrap). Делаем много выборок с замещением из исходной, в каждой считаем AUC любимым методом и делаем распределение полученных значений, отбрасываем 2,5% крайних - получаем 95% ДИ.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 15:23
Сообщение #26


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(nokh @ 6.07.2008 - 07:46) *
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.

nokh затронул практически важный вопрос для исследователей - выбор оптимального порога (точки разделения).

С индексом Юдена все ясно. Тем более свободно (бесплатно) доступна оригинальная работа http://www3.interscience.wiley.com/journal...=1&SRETRY=0 и еще десятки статей. Суть метода заключается в максимизации суммы чувствительности и специфичности.
(Для доступа к статье Юдена сначала ввести в строке браузера http://www3.interscience.wiley.com. Установится кукиш. Затем нажать показанную ссылку. Ничего не поделать - перемудрил Wiley Interscience... Хотя за то, что даром, спасибо ему).

По поводу cost-benefit ratio, если можно, есть вопросы. Какой показатель оптимизируется в данном случае? И известно ли, кто и в какой работе данный метод предложил впервые?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.07.2008 - 16:09
Сообщение #27


Дух форума
*

Группа: Пользователи
Сообщений: 1324
Регистрация: 27.11.2007
Пользователь №: 4573




http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html
В приведенной ссылке реализованы оба метода, тип ввода для примера Плава формат 5, первая колонка - классификатор, вторая - количественный показатель.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 16:28
Сообщение #28


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(DrgLena @ 6.07.2008 - 16:09) *
http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html
В приведенной ссылке реализованы оба метода, тип ввода для примера Плава формат 5, первая колонка - классификатор, вторая - количественный показатель.

Спасибо. Посмотрел... А оптимизируется-то что, там не сказано. Теория не приведена. frown.gif

Может, это cost-benefit: |Se- Sp|? Видел где-то. Хотя, вроде, нет. Там cost-benefit ratio, т.е. отношение чего-то к чему-то должно быть.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.07.2008 - 21:34
Сообщение #29


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 6.07.2008 - 17:28) *
Спасибо. Посмотрел... А оптимизируется-то что, там не сказано. Теория не приведена. frown.gif

Может, это cost-benefit: |Se- Sp|? Видел где-то. Хотя, вроде, нет. Там cost-benefit ratio, т.е. отношение чего-то к чему-то должно быть.

Насколько я понимаю, посмотрев несколько статей, анализ cost-benefit (стоимость-выгода) используется для ROC кривых в том же смысле, что и для обычных экономических исследований (откуда термин и пришел). Для этого надо будет присвоить цену всем ошибкам и тестам (пропуску заболевания, ложноположительному и т.п.) и рассчитать для каждой точки разделения.
Взгляните http://www.isdsjournal.org/article/viewArticle/208 (это только упоминание об анализе))
Более детальный разбор подходов такого типа тут http://home.comcast.net/~tom.fawcett/publi...pers/ROC101.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 10.07.2008 - 08:32
Сообщение #30


Дух форума
*

Группа: Пользователи
Сообщений: 968
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(плав @ 9.07.2008 - 21:34) *
Насколько я понимаю, посмотрев несколько статей, анализ cost-benefit (стоимость-выгода) используется для ROC кривых в том же смысле, что и для обычных экономических исследований (откуда термин и пришел). Для этого надо будет присвоить цену всем ошибкам и тестам (пропуску заболевания, ложноположительному и т.п.) и рассчитать для каждой точки разделения.
Взгляните http://www.isdsjournal.org/article/viewArticle/208 (это только упоминание об анализе))
Более детальный разбор подходов такого типа тут http://home.comcast.net/~tom.fawcett/publi...pers/ROC101.pdf

Спасибо большое, плав.

Стал копать Интернет дальше от данной Вами ссылки в поисках реквизитов статьи. Нашел персональную страницу автора (Fawcett) с несколькими интересными работами. Если кого заинтересует, вот ссылка http://home.comcast.net/~tom.fawcett/publi...pers/index.html.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V  < 1 2 3 4 >
Добавить ответ в эту темуОткрыть тему