Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ ROC - кривая

Автор: Solo... 3.10.2008 - 22:30

Всем добрый день. Столкнулись с проблемой "определения показаний" к методу лечения. Суть в следующем. Например. Больные разделены на 2 группы - с положительным результатом лечения и отрицательным результатом лечения (иначе - отсутствием результата). Есть некие показатели - например, высота опухоли - которая у всех больных разная. Клинически очевидно, что чем больше высота опухоли, тем чаще лечение неудовлетворительно. Как выбрать величину (высоту опухоли) - при которой лечение можно считать показанным, а при какой - не показанным? Допустим, высота опухоли во всей выборке больных варьирует от 2 до 5 условных единиц. Что брать за критерий, относительно которого будет проводится сравнение? Т.е. надо показать, что если высота опухоли больше ... такой то цифры, то количество отрицательных результатов больше 80%, а если высота опухоли меньше ... такой то цифры, то количество отрицательных результатов меньше 20%. Так вот, как выбрать эту цифру, относительно которой сравнивать ? Это 3 ? Или это 3,2 ? Среднюю? Медиану? Дискриминантную точку? "Точку баланса", полученную при построении ROC-кривой? Чем они - эти все точки - отличаются друг от друга по смыслу? Безусловно, про среднюю, медиану - я знаю. А как быть с дискриминантной и точкой баланса? В чем их отличие? Для чего используется та, а для чего - другая?

А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе?

Я приношу свои извинения заранее, т.к. понимаю, что мои словоизлияния весьма дилетантски. Но не могу пробраться сквозь статистические дебри, а вокруг - никто вообще ничего не понимает.

Автор: Игорь 4.10.2008 - 13:46

Цитата(Solo... @ 3.10.2008 - 22:30) *
А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе?

Можно попробовать так.
Есть небольшая программка, работающая под Excel. Называется AtteStat. Доступна для бесплатной загрузки. В ней ROC кривую можно построить так. Запускается Excel. Вводятся исходные данные. Первый столбец - высота опухоли. Второй столбец - из нулей (есть эффект) и единиц (нет эффекта) - результат лечения. Открывается модуль "Непараметрическая статистика". Выбирается ROC. Интервал выборки - столбец высот. Интервал классификатора - столбец результатов. Также указываете интервал вывода результатов. В опциях указываете параметр "выборка-классификатор". Нажимаете "выполнить расчет".

Автор: DoctorStat 4.10.2008 - 14:17

Предполагаемая ПОСТАНОВКА ЗАДАЧИ:
Выбрать высоту опухоли h, при которой вероятность успешного лечения равна p=0,50=50%.
-------------------
РЕШЕНИЕ.
С увеличением высоты опухоли вероятность успешного лечения монотонно уменьшается, поэтому логично применить логистическую регрессию по высоте опухоли h:
ln[p/(1-p)]=a+b*h (1)
, где а и b - константы, которые необходимо вычислить с помощью статистических программ (таких как SPSS, Statistica и др.)
В результате работы программы Вы получите численные значения коэффициентов a>0 и b<0. Значимость p-value обоих коэффициентов a и b должна быть меньше определенной величины. Как правило, уровень значимости выбирают равным 0,05=5%. Таким образом: p-value_a<0,05, p-value_b<0,05 (если значимость хотя бы одного коэффициента >0,05, то предположение о связи успеха лечения с высотой опухоли неверно и нужно использовать другие методы). Полагая вероятность успешного лечения p=0,5, в левой части уравнения (1) для логарифма получаем ноль. Отсюда высота опухоли, при которой половина пациентов лечится успешно, а половина нет равна: h=a/(-b).

Автор: плав 4.10.2008 - 18:33

А если успешность лечения 20%, а 30%?
Нет, так не делается. Формально правильный подход построение ROC-кривой и нахождение точки, которая находится ближе всего к верхнему левому углу графика, а затем определения того значения высоты опухоли, которое соответствует этой точке.
Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения.
Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных
1 2 3 4 5 - высота
30% 20% 10% 20% 30% - частота плохих исходов
то никаких кривых строить не надо и ответ очевиден (высота=3).

Автор: DrgLena 4.10.2008 - 21:27

Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях.

Автор: Solo... 5.10.2008 - 15:45

Цитата(плав @ 4.10.2008 - 19:33) *
Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения.
Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных
1 2 3 4 5 - высота
30% 20% 10% 20% 30% - частота плохих исходов
то никаких кривых строить не надо и ответ очевиден (высота=3).


А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?

И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?

Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.

Автор: Игорь 5.10.2008 - 15:50

Цитата(Solo... @ 5.10.2008 - 15:45) *
А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?

И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?

Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.

Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы.

Автор: Solo... 5.10.2008 - 16:24

Цитата(Игорь @ 5.10.2008 - 16:50) *
Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы.


Программу эту я загрузила, к Экселю она "присоединилась", но посчитать у меня не выходит. После нажания кнопки "Выполнить расчет" появляется надпись в ячейке - непараметрическая статистика. И на этом все, никаких расчетов. Возможно, я не то ввожу в графу "Интервал вывода" ? - я ввожу туда диапазон ячеек рядом лежащего столбца - пустой.
Есть книги Кучеренко и Сергиенко, но там я пока не могу найти ответа.

Автор: Solo... 5.10.2008 - 16:31

Цитата(DrgLena @ 4.10.2008 - 22:27) *
Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях.


Дело в том, что я привела упрощенный вариант проблемы, скажем так. Безусловно, сейчас идет поиск "конечной точки", где конечным положительным результатом мы считаем случаи, в которых больной не только выжил, но и обошелся без использования других, ухудшающих качество жизни, методов лечения по поводу продолженного роста опухоли. Высота опухоли - это лишь один из множества признаков, который надо оценить в ходе нашего анализа.

Автор: плав 5.10.2008 - 16:55

Цитата(Solo... @ 5.10.2008 - 16:45) *
А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?

И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?

Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.

Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность).

Автор: Solo... 6.10.2008 - 19:53

Цитата(Игорь @ 5.10.2008 - 16:50) *
Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы.



Все таки я построила с использованием этой программы РОК - кривую. Спасибо большое. Но понимание вопроса все так же далеко от меня.

Автор: Solo... 6.10.2008 - 20:04

Цитата(плав @ 5.10.2008 - 17:55) *
Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность).


Вот вроде вы все понятно объясняете, но начинаю думать сама - сложности. Я понимаю, что такое специфичность и чувствительность в том контексте, в котором вы объясняете. Для того, что бы их рассчитать, надо знать количество ложно -отрицательных, ложно - положительных, истино - отрицательных и истино - положительных случаев. Но узнать это количество возможно, если есть вот эта самая точка .., равная в вашем примере 6 см. А мне надо ее найти!!!

Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ? У меня есть 2 ряда данных - в одном значения высоты опухоли, а в другом - результат, скажем лечения (вылечился или не вылечился). Как найти то значение высоты, относительно которого делить потом больных: если высота меньше такой то цифры, то пациента можно брать на лечение, т.к. ожидается положительный исход, если высота - больше, то надо использовать др.метод, тк. толку от лечения не будет.

Так что это за точка? Это "оптимальный порог", который находит РОК-кривая?

Кстати, я строила РОК - кривую и тем способом, который вы года 2 назад здесь описывали - в Экселе. Там можно получить пересечение кривых чув-ти и спец-ти, на этом пересечении - некое значение этой высоты. ТАк вот оно отличаестся от того значения, которое получается при постоении кривой, полученной с использованием программы AtteStat.

Автор: Solo... 6.10.2008 - 20:11

Возможно, я уже надоела со своими глупыми вопросами, но действительно разобраться очень сложно. Я просто не знаю, что мне делать. Казалось бы, можно все отдать статистику, пусть считает. Но я уже сталкивалась с этим, и пришла к выводу, что без понимания сути ничего нельзя поручать кому то. Вот стоил он нам графики по Каплан - Майеру (сейчас уже строю сама, но когда то и это было темным лесом). Так он взял и срок наблюдения у всех положительных (церзурированных) пациентов ввел ОДИНАКОВЫЙ - максимальный, который встречается в группе. А у нецерзурированных ввел их настоящий срок наблюдения. Я то вижу, что графики какие то левые получились, вообще не то отражают, что должно быть. Так пока разобрались, что он не то ввел, так я их сама строить научилась. И так по всем вопросам. Вот я и ищу помощи, что бы хоть что то понять.

Автор: DrgLena 6.10.2008 - 22:26

Действительно, вы порвторяете те вопросы, которые уже подробно обсуждались на этом форуме. В русскоязычных книгах перечисленных Игорем, действительно нет руководства к действиям. Но именно на этой форуме в июне этого года была очень продотворная дискуссия, были даны и руководство к действию и весьма полезные источники, так что кто хотел - разобрался. Советую перечитать. Если не поймете, приведите два ряда данных, получите решение, и не одно.

Автор: плав 10.10.2008 - 18:52

Цитата(Solo... @ 6.10.2008 - 21:04) *
Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ?

Так что это за точка? Это "оптимальный порог", который находит РОК-кривая?

Все правильно. ROC кривая это и есть, грубо говоря, чувствительности и специфичности при использовании каждой точки в качестве точки разделения. Строятся они для того, чтобы найти оптимальный порог.

Автор: Solo... 11.10.2008 - 22:34

Цитата(плав @ 10.10.2008 - 19:52) *
Все правильно. ROC кривая это и есть, грубо говоря, чувствительности и специфичности при использовании каждой точки в качестве точки разделения. Строятся они для того, чтобы найти оптимальный порог.



Понятно. Тогда правильно ли я понимаю, что, гляда на значения чув-ти и спец-ти для каждого значения (каждой точки), можно выбрать эту точку САМОМУ, по своему разумению, исходя из того, какой уровень чувствительности и спецефичности мне требуется (в зависимости от задач, которые передо мной стоят)?

Дело в том, что при построении этой рок-кривой в Экселе с использованием программки Аттестат, помимо этой кривой еще программа дала расчет этих всех значений чув-ти и спец-ти, но еще она и написала "оптимальный порог = столько то" . Так могу я его - это значение "оптимального порога" выбрать сама?

P.S. Плав, и все - все, кто откликнулся, спасибо большое!!!!

Автор: плав 12.10.2008 - 19:31

Цитата(Solo... @ 11.10.2008 - 23:34) *
Понятно. Тогда правильно ли я понимаю, что, гляда на значения чув-ти и спец-ти для каждого значения (каждой точки), можно выбрать эту точку САМОМУ, по своему разумению, исходя из того, какой уровень чувствительности и спецефичности мне требуется (в зависимости от задач, которые передо мной стоят)?

Дело в том, что при построении этой рок-кривой в Экселе с использованием программки Аттестат, помимо этой кривой еще программа дала расчет этих всех значений чув-ти и спец-ти, но еще она и написала "оптимальный порог = столько то" . Так могу я его - это значение "оптимального порога" выбрать сама?

P.S. Плав, и все - все, кто откликнулся, спасибо большое!!!!

Угу. Именно так и делается. Оптимальный порог - это порог с максимально возможными одновременно Se И Sp. Но для целей диагностики может быть важна максимизация Se или Sp по отдельности. Главное описать, почему берется такой порог на основании данных ROC кривой

Автор: Solo... 13.10.2008 - 21:09

Цитата(плав @ 12.10.2008 - 20:31) *
Угу. Именно так и делается. Оптимальный порог - это порог с максимально возможными одновременно Se И Sp. Но для целей диагностики может быть важна максимизация Se или Sp по отдельности. Главное описать, почему берется такой порог на основании данных ROC кривой


Спасибо большое!!!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)