Полная версия этой страницы:
ROC - кривая
Solo...
3.10.2008 - 22:30
Всем добрый день. Столкнулись с проблемой "определения показаний" к методу лечения. Суть в следующем. Например. Больные разделены на 2 группы - с положительным результатом лечения и отрицательным результатом лечения (иначе - отсутствием результата). Есть некие показатели - например, высота опухоли - которая у всех больных разная. Клинически очевидно, что чем больше высота опухоли, тем чаще лечение неудовлетворительно. Как выбрать величину (высоту опухоли) - при которой лечение можно считать показанным, а при какой - не показанным? Допустим, высота опухоли во всей выборке больных варьирует от 2 до 5 условных единиц. Что брать за критерий, относительно которого будет проводится сравнение? Т.е. надо показать, что если высота опухоли больше ... такой то цифры, то количество отрицательных результатов больше 80%, а если высота опухоли меньше ... такой то цифры, то количество отрицательных результатов меньше 20%. Так вот, как выбрать эту цифру, относительно которой сравнивать ? Это 3 ? Или это 3,2 ? Среднюю? Медиану? Дискриминантную точку? "Точку баланса", полученную при построении ROC-кривой? Чем они - эти все точки - отличаются друг от друга по смыслу? Безусловно, про среднюю, медиану - я знаю. А как быть с дискриминантной и точкой баланса? В чем их отличие? Для чего используется та, а для чего - другая?
А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе?
Я приношу свои извинения заранее, т.к. понимаю, что мои словоизлияния весьма дилетантски. Но не могу пробраться сквозь статистические дебри, а вокруг - никто вообще ничего не понимает.
Цитата(Solo... @ 3.10.2008 - 22:30)

А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе?
Можно попробовать так.
Есть небольшая программка, работающая под Excel. Называется AtteStat. Доступна для бесплатной загрузки. В ней ROC кривую можно построить так. Запускается Excel. Вводятся исходные данные. Первый столбец - высота опухоли. Второй столбец - из нулей (есть эффект) и единиц (нет эффекта) - результат лечения. Открывается модуль "Непараметрическая статистика". Выбирается ROC. Интервал выборки - столбец высот. Интервал классификатора - столбец результатов. Также указываете интервал вывода результатов. В опциях указываете параметр "выборка-классификатор". Нажимаете "выполнить расчет".
DoctorStat
4.10.2008 - 14:17
Предполагаемая ПОСТАНОВКА ЗАДАЧИ:
Выбрать высоту опухоли h, при которой вероятность успешного лечения равна p=0,50=50%.
-------------------
РЕШЕНИЕ.
С увеличением высоты опухоли вероятность успешного лечения монотонно уменьшается, поэтому логично применить логистическую регрессию по высоте опухоли h:
ln[p/(1-p)]=a+b*h (1)
, где а и b - константы, которые необходимо вычислить с помощью статистических программ (таких как SPSS, Statistica и др.)
В результате работы программы Вы получите численные значения коэффициентов a>0 и b<0. Значимость p-value обоих коэффициентов a и b должна быть меньше определенной величины. Как правило, уровень значимости выбирают равным 0,05=5%. Таким образом: p-value_a<0,05, p-value_b<0,05 (если значимость хотя бы одного коэффициента >0,05, то предположение о связи успеха лечения с высотой опухоли неверно и нужно использовать другие методы). Полагая вероятность успешного лечения p=0,5, в левой части уравнения (1) для логарифма получаем ноль. Отсюда высота опухоли, при которой половина пациентов лечится успешно, а половина нет равна: h=a/(-b).
А если успешность лечения 20%, а 30%?
Нет, так не делается. Формально правильный подход построение ROC-кривой и нахождение точки, которая находится ближе всего к верхнему левому углу графика, а затем определения того значения высоты опухоли, которое соответствует этой точке.
Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения.
Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных
1 2 3 4 5 - высота
30% 20% 10% 20% 30% - частота плохих исходов
то никаких кривых строить не надо и ответ очевиден (высота=3).
DrgLena
4.10.2008 - 21:27
Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях.
Solo...
5.10.2008 - 15:45
Цитата(плав @ 4.10.2008 - 19:33)

Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения.
Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных
1 2 3 4 5 - высота
30% 20% 10% 20% 30% - частота плохих исходов
то никаких кривых строить не надо и ответ очевиден (высота=3).
А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?
И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?
Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.
Цитата(Solo... @ 5.10.2008 - 15:45)

А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?
И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?
Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.
Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы.
Solo...
5.10.2008 - 16:24
Цитата(Игорь @ 5.10.2008 - 16:50)

Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы.
Программу эту я загрузила, к Экселю она "присоединилась", но посчитать у меня не выходит. После нажания кнопки "Выполнить расчет" появляется надпись в ячейке - непараметрическая статистика. И на этом все, никаких расчетов. Возможно, я не то ввожу в графу "Интервал вывода" ? - я ввожу туда диапазон ячеек рядом лежащего столбца - пустой.
Есть книги Кучеренко и Сергиенко, но там я пока не могу найти ответа.
Solo...
5.10.2008 - 16:31
Цитата(DrgLena @ 4.10.2008 - 22:27)

Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях.
Дело в том, что я привела упрощенный вариант проблемы, скажем так. Безусловно, сейчас идет поиск "конечной точки", где конечным положительным результатом мы считаем случаи, в которых больной не только выжил, но и обошелся без использования других, ухудшающих качество жизни, методов лечения по поводу продолженного роста опухоли. Высота опухоли - это лишь один из множества признаков, который надо оценить в ходе нашего анализа.
Цитата(Solo... @ 5.10.2008 - 16:45)

А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов?
И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает?
Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный.
Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность).
Solo...
6.10.2008 - 19:53
Цитата(Игорь @ 5.10.2008 - 16:50)

Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы.
Все таки я построила с использованием этой программы РОК - кривую. Спасибо большое. Но понимание вопроса все так же далеко от меня.
Solo...
6.10.2008 - 20:04
Цитата(плав @ 5.10.2008 - 17:55)

Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность).
Вот вроде вы все понятно объясняете, но начинаю думать сама - сложности. Я понимаю, что такое специфичность и чувствительность в том контексте, в котором вы объясняете. Для того, что бы их рассчитать, надо знать количество ложно -отрицательных, ложно - положительных, истино - отрицательных и истино - положительных случаев. Но узнать это количество возможно, если есть вот эта самая точка .., равная в вашем примере 6 см. А мне надо ее найти!!!
Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ? У меня есть 2 ряда данных - в одном значения высоты опухоли, а в другом - результат, скажем лечения (вылечился или не вылечился). Как найти то значение высоты, относительно которого делить потом больных: если высота меньше такой то цифры, то пациента можно брать на лечение, т.к. ожидается положительный исход, если высота - больше, то надо использовать др.метод, тк. толку от лечения не будет.
Так что это за точка? Это "оптимальный порог", который находит РОК-кривая?
Кстати, я строила РОК - кривую и тем способом, который вы года 2 назад здесь описывали - в Экселе. Там можно получить пересечение кривых чув-ти и спец-ти, на этом пересечении - некое значение этой высоты. ТАк вот оно отличаестся от того значения, которое получается при постоении кривой, полученной с использованием программы AtteStat.
Solo...
6.10.2008 - 20:11
Возможно, я уже надоела со своими глупыми вопросами, но действительно разобраться очень сложно. Я просто не знаю, что мне делать. Казалось бы, можно все отдать статистику, пусть считает. Но я уже сталкивалась с этим, и пришла к выводу, что без понимания сути ничего нельзя поручать кому то. Вот стоил он нам графики по Каплан - Майеру (сейчас уже строю сама, но когда то и это было темным лесом). Так он взял и срок наблюдения у всех положительных (церзурированных) пациентов ввел ОДИНАКОВЫЙ - максимальный, который встречается в группе. А у нецерзурированных ввел их настоящий срок наблюдения. Я то вижу, что графики какие то левые получились, вообще не то отражают, что должно быть. Так пока разобрались, что он не то ввел, так я их сама строить научилась. И так по всем вопросам. Вот я и ищу помощи, что бы хоть что то понять.
DrgLena
6.10.2008 - 22:26
Действительно, вы порвторяете те вопросы, которые уже подробно обсуждались на этом форуме. В русскоязычных книгах перечисленных Игорем, действительно нет руководства к действиям. Но именно на этой форуме в июне этого года была очень продотворная дискуссия, были даны и руководство к действию и весьма полезные источники, так что кто хотел - разобрался. Советую перечитать. Если не поймете, приведите два ряда данных, получите решение, и не одно.
Цитата(Solo... @ 6.10.2008 - 21:04)

Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ?
Так что это за точка? Это "оптимальный порог", который находит РОК-кривая?
Все правильно. ROC кривая это и есть, грубо говоря, чувствительности и специфичности при использовании каждой точки в качестве точки разделения. Строятся они для того, чтобы найти оптимальный порог.
Solo...
11.10.2008 - 22:34
Цитата(плав @ 10.10.2008 - 19:52)

Все правильно. ROC кривая это и есть, грубо говоря, чувствительности и специфичности при использовании каждой точки в качестве точки разделения. Строятся они для того, чтобы найти оптимальный порог.
Понятно. Тогда правильно ли я понимаю, что, гляда на значения чув-ти и спец-ти для каждого значения (каждой точки), можно выбрать эту точку САМОМУ, по своему разумению, исходя из того, какой уровень чувствительности и спецефичности мне требуется (в зависимости от задач, которые передо мной стоят)?
Дело в том, что при построении этой рок-кривой в Экселе с использованием программки Аттестат, помимо этой кривой еще программа дала расчет этих всех значений чув-ти и спец-ти, но еще она и написала "оптимальный порог = столько то" . Так могу я его - это значение "оптимального порога" выбрать сама?
P.S. Плав, и все - все, кто откликнулся, спасибо большое!!!!
Цитата(Solo... @ 11.10.2008 - 23:34)

Понятно. Тогда правильно ли я понимаю, что, гляда на значения чув-ти и спец-ти для каждого значения (каждой точки), можно выбрать эту точку САМОМУ, по своему разумению, исходя из того, какой уровень чувствительности и спецефичности мне требуется (в зависимости от задач, которые передо мной стоят)?
Дело в том, что при построении этой рок-кривой в Экселе с использованием программки Аттестат, помимо этой кривой еще программа дала расчет этих всех значений чув-ти и спец-ти, но еще она и написала "оптимальный порог = столько то" . Так могу я его - это значение "оптимального порога" выбрать сама?
P.S. Плав, и все - все, кто откликнулся, спасибо большое!!!!
Угу. Именно так и делается. Оптимальный порог - это порог с максимально возможными одновременно Se И Sp. Но для целей диагностики может быть важна максимизация Se или Sp по отдельности. Главное описать, почему берется такой порог на основании данных ROC кривой
Solo...
13.10.2008 - 21:09
Цитата(плав @ 12.10.2008 - 20:31)

Угу. Именно так и делается. Оптимальный порог - это порог с максимально возможными одновременно Se И Sp. Но для целей диагностики может быть важна максимизация Se или Sp по отдельности. Главное описать, почему берется такой порог на основании данных ROC кривой
Спасибо большое!!!
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.