ROC - кривая |
Здравствуйте, гость ( Вход | Регистрация )
ROC - кривая |
3.10.2008 - 22:30
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Всем добрый день. Столкнулись с проблемой "определения показаний" к методу лечения. Суть в следующем. Например. Больные разделены на 2 группы - с положительным результатом лечения и отрицательным результатом лечения (иначе - отсутствием результата). Есть некие показатели - например, высота опухоли - которая у всех больных разная. Клинически очевидно, что чем больше высота опухоли, тем чаще лечение неудовлетворительно. Как выбрать величину (высоту опухоли) - при которой лечение можно считать показанным, а при какой - не показанным? Допустим, высота опухоли во всей выборке больных варьирует от 2 до 5 условных единиц. Что брать за критерий, относительно которого будет проводится сравнение? Т.е. надо показать, что если высота опухоли больше ... такой то цифры, то количество отрицательных результатов больше 80%, а если высота опухоли меньше ... такой то цифры, то количество отрицательных результатов меньше 20%. Так вот, как выбрать эту цифру, относительно которой сравнивать ? Это 3 ? Или это 3,2 ? Среднюю? Медиану? Дискриминантную точку? "Точку баланса", полученную при построении ROC-кривой? Чем они - эти все точки - отличаются друг от друга по смыслу? Безусловно, про среднюю, медиану - я знаю. А как быть с дискриминантной и точкой баланса? В чем их отличие? Для чего используется та, а для чего - другая?
А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе? Я приношу свои извинения заранее, т.к. понимаю, что мои словоизлияния весьма дилетантски. Но не могу пробраться сквозь статистические дебри, а вокруг - никто вообще ничего не понимает. |
|
4.10.2008 - 13:46
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
А как построить ROC - кривую в Экселе? Как самому определить дискриминантную точку? Можно ли это сделать в Экселе? Можно попробовать так. Есть небольшая программка, работающая под Excel. Называется AtteStat. Доступна для бесплатной загрузки. В ней ROC кривую можно построить так. Запускается Excel. Вводятся исходные данные. Первый столбец - высота опухоли. Второй столбец - из нулей (есть эффект) и единиц (нет эффекта) - результат лечения. Открывается модуль "Непараметрическая статистика". Выбирается ROC. Интервал выборки - столбец высот. Интервал классификатора - столбец результатов. Также указываете интервал вывода результатов. В опциях указываете параметр "выборка-классификатор". Нажимаете "выполнить расчет". Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.10.2008 - 14:17
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Предполагаемая ПОСТАНОВКА ЗАДАЧИ:
Выбрать высоту опухоли h, при которой вероятность успешного лечения равна p=0,50=50%. ------------------- РЕШЕНИЕ. С увеличением высоты опухоли вероятность успешного лечения монотонно уменьшается, поэтому логично применить логистическую регрессию по высоте опухоли h: ln[p/(1-p)]=a+b*h (1) , где а и b - константы, которые необходимо вычислить с помощью статистических программ (таких как SPSS, Statistica и др.) В результате работы программы Вы получите численные значения коэффициентов a>0 и b<0. Значимость p-value обоих коэффициентов a и b должна быть меньше определенной величины. Как правило, уровень значимости выбирают равным 0,05=5%. Таким образом: p-value_a<0,05, p-value_b<0,05 (если значимость хотя бы одного коэффициента >0,05, то предположение о связи успеха лечения с высотой опухоли неверно и нужно использовать другие методы). Полагая вероятность успешного лечения p=0,5, в левой части уравнения (1) для логарифма получаем ноль. Отсюда высота опухоли, при которой половина пациентов лечится успешно, а половина нет равна: h=a/(-b). Сообщение отредактировал DoctorStat - 4.10.2008 - 14:19 Просто включи мозги => http://doctorstat.narod.ru
|
|
4.10.2008 - 18:33
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А если успешность лечения 20%, а 30%?
Нет, так не делается. Формально правильный подход построение ROC-кривой и нахождение точки, которая находится ближе всего к верхнему левому углу графика, а затем определения того значения высоты опухоли, которое соответствует этой точке. Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения. Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных 1 2 3 4 5 - высота 30% 20% 10% 20% 30% - частота плохих исходов то никаких кривых строить не надо и ответ очевиден (высота=3). |
|
4.10.2008 - 21:27
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях.
|
|
5.10.2008 - 15:45
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Есть еще один, более простой метод. Для всех высот опухоли рассчитываете показатели чувствительности и специфичности, затем берете индекс Йодена (Se+Sp-1). Та точка, для которой он максимален и есть точка разделения. Но вот в формулировке задачи нет ни слова о том, какова плата за операцию (похоже нет, данные только о плохих исходах упоминаются). Т.е., если например есть только набор данных 1 2 3 4 5 - высота 30% 20% 10% 20% 30% - частота плохих исходов то никаких кривых строить не надо и ответ очевиден (высота=3). А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов? И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает? Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный. |
|
5.10.2008 - 15:50
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов? И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает? Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный. Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы. Сообщение отредактировал Игорь - 5.10.2008 - 15:51 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
5.10.2008 - 16:24
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Следовательно, я зря потратил время на 2 поста, а Вам, видимо, требуется, что называется "отвести душу в разговоре", а не получить точные ответы на корректные вопросы. Программу эту я загрузила, к Экселю она "присоединилась", но посчитать у меня не выходит. После нажания кнопки "Выполнить расчет" появляется надпись в ячейке - непараметрическая статистика. И на этом все, никаких расчетов. Возможно, я не то ввожу в графу "Интервал вывода" ? - я ввожу туда диапазон ячеек рядом лежащего столбца - пустой. Есть книги Кучеренко и Сергиенко, но там я пока не могу найти ответа. |
|
5.10.2008 - 16:31
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Не совсем понятно, как измерен положительный и отрицательный исход. Если отклик - определенная мера регрессии опухоли, т .е. уменьшение после лечения, то это может быть ложная конечная точка, и нужно оценивать истинный исход - выживаемость больного, если речь идет о злокачественной опухоли. Размер опухоли, конечно важный предиктор, но должны рассматриваться и другие, например клеточный тип опухоли. Известно, что маленькие опухоли также бывают более злокачественные или резистентные против облучения или химиотерапии. Т.е. логистическая регрессия с наиболее важными предикторами или кокс-регрессионные модели, которые дадут возможность проводить индивидуальный прогноз. В отношении ограничения в применении определенных методов лечения из-за размера опухоли, то тут не все просто. С точки зрения физики опухоли с проминенцией (выстоянием) более 6мм не должны быть подвергнуты локальному контролю из-за ограничения прохождения бета излучения, например для стронциевого апликатора, однако известно, что регрессия наступает и при больших опухолях. Дело в том, что я привела упрощенный вариант проблемы, скажем так. Безусловно, сейчас идет поиск "конечной точки", где конечным положительным результатом мы считаем случаи, в которых больной не только выжил, но и обошелся без использования других, ухудшающих качество жизни, методов лечения по поводу продолженного роста опухоли. Высота опухоли - это лишь один из множества признаков, который надо оценить в ходе нашего анализа. |
|
5.10.2008 - 16:55
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А тогда такой вопрос - как же рассчитать здесь чувствительность (Se) и спецефичность (Sp)? Правильно ли , что чув-ть равна количество всех пациентов деленных на количество отрицатеьлных результатов? А спецефичность равна общее количество больных отнять количество отрицательных результатов и эту разницу делить на количество положительных результатов? И вообще, что же значат эти показатели Se и Sp? На сколько я знаю, Sе - это процент правильного прогноза успеха (лечения, диагностики и прочего), а Sp - это процент правильного прогноза неудачи. Тогда как можно определить ДЛЯ КАЖДОГО ПРИЗНАКА показатели чувствительности и специфичности? Если они означают, что уже результаты подведены и проводится уже оценка, как метод работает? Про тот набор данных , про который вы привели пример, все понятно. Безусловно, здесь ничего строить не надо. Нет, у меня рабор данных более разношерстный. Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность). |
|
6.10.2008 - 19:53
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Вы не загрузили программу AtteStat и не посмотрели, как не посмотрели книги Власова, Флетчер, Ребровой. Там есть ответы на все Ваши вопросы. Все таки я построила с использованием этой программы РОК - кривую. Спасибо большое. Но понимание вопроса все так же далеко от меня. |
|
6.10.2008 - 20:04
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Нет, чувствительность - это процент лиц с положительным результатом теста среди всех больных. Специфичность - процент отрицательных результатов теста среди тех, у кого заболевания нет. Например, в случае если заболевание приводит к смерти, то чувствительность может быть процент лиц с высотой опухоли более 6 см. среди умерших от этой опухоли, специфичность - процент лиц с высотой опухоли менее 6 см среди всех доживших до конца исследования. То, что Вы назвали Se и Sp называется предиктивными значениями и они не оцениваются в исследованиях, поскольку сильно зависят от состава популяции (т.е. очениваются. но не как основные показатели - их можно рассчитать зная профиль риска и чувствительность и специфичность). Вот вроде вы все понятно объясняете, но начинаю думать сама - сложности. Я понимаю, что такое специфичность и чувствительность в том контексте, в котором вы объясняете. Для того, что бы их рассчитать, надо знать количество ложно -отрицательных, ложно - положительных, истино - отрицательных и истино - положительных случаев. Но узнать это количество возможно, если есть вот эта самая точка .., равная в вашем примере 6 см. А мне надо ее найти!!! Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ? У меня есть 2 ряда данных - в одном значения высоты опухоли, а в другом - результат, скажем лечения (вылечился или не вылечился). Как найти то значение высоты, относительно которого делить потом больных: если высота меньше такой то цифры, то пациента можно брать на лечение, т.к. ожидается положительный исход, если высота - больше, то надо использовать др.метод, тк. толку от лечения не будет. Так что это за точка? Это "оптимальный порог", который находит РОК-кривая? Кстати, я строила РОК - кривую и тем способом, который вы года 2 назад здесь описывали - в Экселе. Там можно получить пересечение кривых чув-ти и спец-ти, на этом пересечении - некое значение этой высоты. ТАк вот оно отличаестся от того значения, которое получается при постоении кривой, полученной с использованием программы AtteStat. |
|
6.10.2008 - 20:11
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Возможно, я уже надоела со своими глупыми вопросами, но действительно разобраться очень сложно. Я просто не знаю, что мне делать. Казалось бы, можно все отдать статистику, пусть считает. Но я уже сталкивалась с этим, и пришла к выводу, что без понимания сути ничего нельзя поручать кому то. Вот стоил он нам графики по Каплан - Майеру (сейчас уже строю сама, но когда то и это было темным лесом). Так он взял и срок наблюдения у всех положительных (церзурированных) пациентов ввел ОДИНАКОВЫЙ - максимальный, который встречается в группе. А у нецерзурированных ввел их настоящий срок наблюдения. Я то вижу, что графики какие то левые получились, вообще не то отражают, что должно быть. Так пока разобрались, что он не то ввел, так я их сама строить научилась. И так по всем вопросам. Вот я и ищу помощи, что бы хоть что то понять.
Сообщение отредактировал Solo... - 6.10.2008 - 20:15 |
|
6.10.2008 - 22:26
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Действительно, вы порвторяете те вопросы, которые уже подробно обсуждались на этом форуме. В русскоязычных книгах перечисленных Игорем, действительно нет руководства к действиям. Но именно на этой форуме в июне этого года была очень продотворная дискуссия, были даны и руководство к действию и весьма полезные источники, так что кто хотел - разобрался. Советую перечитать. Если не поймете, приведите два ряда данных, получите решение, и не одно.
|
|
10.10.2008 - 18:52
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Т.е. относительно какой точки мне вести эти расчеты? Почему 6? А не 5? Не 5,5? И т.д. ? Я не могу понять , как можно посчитать специфичность и чувствительность ДЛЯ КАЖДОГО СЛУЧАЯ? Так что это за точка? Это "оптимальный порог", который находит РОК-кривая? Все правильно. ROC кривая это и есть, грубо говоря, чувствительности и специфичности при использовании каждой точки в качестве точки разделения. Строятся они для того, чтобы найти оптимальный порог. |
|