Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V   1 2 3 > »   
Добавить ответ в эту темуОткрыть тему
> ROC-анализ, определение чувствительности и специфичности метода
Татьяна24
сообщение 30.06.2008 - 19:50
Сообщение #1





Группа: Пользователи
Сообщений: 10
Регистрация: 18.10.2007
Пользователь №: 4453



Объясните, пожалуйста, как вычислить все показатели необходимые для рассчета.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 30.06.2008 - 20:53
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Зависит от того, в какой форме данные. Если совсем просто:
Сортируем данные в порядке возрастания интересующего диагностического параметра (например, холестерина). Для каждого значения параметра записываем число пациентов имеющих значение выше оного и число контролей, имеющих значение выше оного. Вычисляем процент к общей численности пациентов и контролей (это чувствительность и % ложноположительных результатов). Строим график зависимости чувствительности (Se) от % ложноположительных реузльтатов(FP). Это и есть характеристическая (ROC) кривая.
Площадь под кривой определяем при помощи правила трапеции (последующее значение FP минус предыдущее значение FP умноженное на полусумму последущего и предыдущего значения Se). Суммируем полученные значения и получаем площадь под кривой.
Если не хочется возиться таким методом и хочется рассчитать ошибку площади, то надо пользоваться формулами, например, приведенными в другом посте: http://forum.disser.ru/index.php?showtopic=1681
Я там сознательно обсуждение вопроса оценки площади AUC ROC вытащил в отдельную тему.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.07.2008 - 17:00
Сообщение #3





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 30.06.2008 - 20:53) *
Зависит от того, в какой форме данные. Если совсем просто:


Многие исследователи желают применять ROC-анализ в своей работе. Поэтому, если можно, укажите, пожалуйста, ссылки на источники.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 1.07.2008 - 19:17
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



На самом деле довольно много материала просто в Интернете сейчас висит, я же приведу ссылки на пару книг:
Hosmer & Lemeshow, Applied Logistic Regression, 2000 раздел 5.2.4
Bland, An introduction to medical statistics, 2000 (p277)
Armitage & Berry раздел 19.9
Но для россиян наилучшим введением является книга В.Власова "Эффективность диагностических исследований", М., Медицина, 1988 (глава 4).
Есть немного про общую теорию диагностики и ROC кривые и в переводе книги Флетчера Клиническая эпидемиология. Но я бы все-таки рекомендовал именно книгу Власова.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 1.07.2008 - 21:58
Сообщение #5





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Еще моожно посмотреть
1. Biostatistics. A Methodology for the Health Sciences
GERALD VAN BELLE
LLOYD D. FISHER
PATRICK J. HEAGERTY
THOMAS LUMLEY
Washington 2004, р. 888. (с. 559-572)
2. Петри А., Сэбин К. Наглядная статистика в медицине. М. 2003, с. 93-95.
3. Реброва О.Ю. Статистический анализ медицинских данных. 2002, с. 247-250. Но здесь очень уж скромно, Плав в ответе на этот пост дал более ясное представление, что такое ROC.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.07.2008 - 22:35
Сообщение #6





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Книга В.Власова "Эффективность диагностических исследований" с разрешения автора выложена на сайте общества специалистов доказательной медицины:
http://www.osdm.org/modules.php?name=Files...8&pagenum=2
Требуется регистрация. Книга - 9 архивов по 1,4 Мб сканов неважного качества в формате tif.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 2.07.2008 - 10:49
Сообщение #7





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 1.07.2008 - 22:35) *
Книга В.Власова "Эффективность диагностических исследований" с разрешения автора выложена на сайте общества специалистов доказательной медицины:
http://www.osdm.org/modules.php?name=Files...8&pagenum=2
Требуется регистрация. Книга - 9 архивов по 1,4 Мб сканов неважного качества в формате tif.

Спасибо большое. Хотя в библиотеках она имеется, электронным вариантом пользоваться предпочтительнее.

Качество, действительно, неважное. Первые 2 главы - один лист на скан, остальные - 2 листа на скан. Нет также предисловия и [нормального] оглавления. Пользоваться трудно.

Раз уж автор разрешил, отсканировал недостающее из печатной книги, да собрал в 2 файла PDF (если в один - много работы с разделением "сиамских близнецов" из 3-6 глав).

Книга, действительно, стоящая. Понятно, информативно.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 2.07.2008 - 11:30
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Если будете где-то новый скан размещать, лучше спросите у Василия Викторовича, я думаю, он разрешит, но лучше получить разрешение...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 3.07.2008 - 12:29
Сообщение #9





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 30.06.2008 - 20:53) *
Сортируем данные в порядке возрастания интересующего диагностического параметра (например, холестерина). Для каждого значения параметра записываем число пациентов имеющих значение выше оного и число контролей, имеющих значение выше оного. Вычисляем процент к общей численности пациентов и контролей (это чувствительность и % ложноположительных результатов). Строим график зависимости чувствительности (Se) от % ложноположительных реузльтатов(FP). Это и есть характеристическая (ROC) кривая.
Площадь под кривой определяем при помощи правила трапеции (последующее значение FP минус предыдущее значение FP умноженное на полусумму последущего и предыдущего значения Se). Суммируем полученные значения и получаем площадь под кривой.

Не могу разделить воодушевления DrgLena по поводу ясности показанного представления относительно ROC анализа, хотя понимание автором поста изложенного материала ни малейшего сомнения не вызывает. Тем более не могу утверждать этого относительно изложения ROC в книге Ребровой.

Поэтому неудивительно, что исследователи шарахаются от новых методов, просто не понимая их. А на самом-то деле алгоритм элементарен. Кто бы внятно описал.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 3.07.2008 - 13:12
Сообщение #10





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Конечно, по Ребровой не научишься, ее книга ориентирована на Statistica, но там нет этого анализа, но по англоязычным источникам вполне возможно, сейчас уже много в инете информации. Полав очень хорошо в форуме все изложил, коротко и ясно и ручками можно все посчитать. Оптимизм потому, что наш совет и наш журнал уже не задает вопросы, концентрация или возраст по оси "х" или "у" в ROC кривой. Преимущества вероятностных методов оценки перед сравнением средних арифметических, по моему, очевидны. Доказательная медицина ориентирована на создание именно вероятностных оценок как риска, так и эффекта воздействия.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 3.07.2008 - 20:17
Сообщение #11





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 3.07.2008 - 13:29) *
Не могу разделить воодушевления DrgLena по поводу ясности показанного представления относительно ROC анализа, хотя понимание автором поста изложенного материала ни малейшего сомнения не вызывает. Тем более не могу утверждать этого относительно изложения ROC в книге Ребровой.

Поэтому неудивительно, что исследователи шарахаются от новых методов, просто не понимая их. А на самом-то деле алгоритм элементарен. Кто бы внятно описал.

Честно говоря, не понял, что я тут непонятного написал, ну да ладно - самому всегда не видно, для этого есть даже умное название "профессиональный кретинизм" (это я про себя smile.gif ). Попробую с примером.
Итак, у нас есть набор значений, который мы измерили в группе больных и здоровых (например, ХС в мг/дл). Теперь мы сортируем значения без учета принадлежности к группе в порядке возрастания, например так:
160 0
170 1
172 0
180 0
190 1
200 0
210 0
220 1
230 0
240 1
250 1
250 0
260 1
270 1
280 1
Всего у нас 8 больных и 7 здоровых. Теперь начинаем считать, сколько больных имеет значение выше порогового и сколько здоровых тоже имеют его выше или равным пороговому (т.е. сколько у нас будет истинно положительных результатов теста - на больных и сколько ложно-положительных - на здоровых, если мы используем эту границу). Начнем со 160. Выше все больные (100%) и все здоровые (100%). Соответственно, первая точка на графике будет иметь координаты 1,1
Далее, берем значение 170 - вышего него 100% больных и 6/7 (85,7%) здоровых. Итак, координаты второй точки (0,857, 1)
Для значения 172 получаем 87,5% больных и 85,7% здоровых. Координаты третьей точки (0,857, 0,875)
Продолжаем этот ряд

Код
160 0                7    1,000        1    1
170 1    1    8    1                0,857    1
172 0                6    0,857        0,857    0,875
180 0                5    0,714        0,714    0,875
190 1    1    7    0,875                0,571    0,875
200 0                4    0,571        0,571    0,75
210 0                3    0,429        0,429    0,75
220 1    1    6    0,75                0,286    0,75
230 0                2    0,286        0,286    0,625
240 1    1    5    0,625                0,143    0,625
250 1    1    4    0,5                0,143    0,5
250 0                1    0,143        0,143    0,375
260 1    1    3    0,375                0    0,375
270 1    1    2    0,25                0    0,25
280 1    1    1    0,125                0    0,125


Последние две колонки содержат координаты, необходимые для построения ROC-кривой
Оценка ее площади - это уже другая задача, для сравнения, например, можно было бы использовать интегрирование взвешиванием - метод не ахти какой точный, зато никакой математики не требуется - на миллиметровке строим кривые, затем аккуратно вырезаем их ножницами и взвешиваем на точных весах. Отношение масс и есть отношение площадей.
Если же хочется использовать, например, Эксель, то можно просто ввести формулу, как я описывал выше:
=(E31+E32)/2*(D31-D32), т.е. полусумма значений по оси Y умноженная на разность значений по оси X
Для примера выше получаем:

Se FP Площадь
1 1 0,143
0,857 1 0,000
0,857 0,875 0,125
0,714 0,875 0,125
0,571 0,875 0,000
0,571 0,75 0,107
0,429 0,75 0,107
0,286 0,75 0,000
0,286 0,625 0,089
0,143 0,625 0,000
0,143 0,5 0,000
0,143 0,375 0,054
0 0,375 0,000
0 0,25 0,000
0 0,125 0,000

Суммируя значения в столбце Площадь получаем 0,75, что и является в данном случае AUC ROC.
Далее, при желании, используя приведенные в другом посту формулы можно оценить AUC ROC:

з б
160 0 1 1
170 1 2 2
172 0 3 3
180 0 4 4
190 1 5 5
200 0 6 6
210 0 7 7
220 1 8 8
230 0 9 9
240 1 10 10
250 1 11 11
250 0 12 12
260 1 13 13
270 1 14 14
280 1 15 15
Сумма рангов
42 78
U 42 14
AUC 0,75
Q1 0,6
Q2 0,642857143
se2 0,017410714
se 0,131949666

Вначале рассчитываем суммы рангов и оцениваем U-критерий Мэнна-Уитни. Берем большее значение U и делим на произведение численностей групп (в данном случае величина - сюрприз! - получается равной 0,75)
Сами формулы продублирую
Q1 = AUC / (2 - AUC);
Q2 = 2 * AUC^2 / (1 + AUC);
se2 = (AUC * (1 - AUC) + (N1 - 1) * (Q1 - AUC^2) + (N2 - 1) * (Q2 - AUC^2)) / (N1 * N2);
SE_auc = squareRoot (se2);
Их выражения в Экселе (в ячейке С49 - сумма рангов критерий):
C50 U =7*8+(7*(7+1))/2-C49
C51 AUC =C50/(7*8)
C52 Q1 =C51/(2-C51)
C53 Q2 =2*C51^2/(1+C51)
C54 se2 =(C51*(1-C51)+(7-1)*(C52-C51^2)+(8-1)*(C53-C51^2))/(7*8)
C55 se =КОРЕНЬ(C54)
Я думаю, что очевидно, что 7 и 8 - это численности здоровых и больных в вышеописанном примере.

Поскольку все таблицеподобные примеры вверху поехали, креплю экселевский файл со всеми расчетами и примером. пытался как-то исправить - но мои пробелы переделывает в табуляции, которые затем считает одним пробелом...
Прикрепленные файлы
Прикрепленный файл  ROC.rar ( 2,86 килобайт ) Кол-во скачиваний: 1348
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 4.07.2008 - 00:23
Сообщение #12





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Блестяще! Добавить можно только график самой кривой ROC и значение чувствительности и специфичности для оптимальной точки >230, se=62,5%; sp=85,7%
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 4.07.2008 - 11:19
Сообщение #13





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Удалено автором.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.07.2008 - 21:48
Сообщение #14





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 4.07.2008 - 12:19) *
Загрузил таблицу. Посмотрел. Несколько замечаний. Что это не мои измышления, привожу ссылки.

Итак:

1. Вместо Se должно быть (1 - Sp).
2. То, что плав называет FP, должно быть Se.

Это стандартные обозначения - не нужно их менять. Источники: Власов, Реброва.

И ранжировать (сортировать) пороги отсечения я бы рекомендовал от большего к меньшему, а не как у плав - от меньшего к большему. Иначе:

1. График (ROC) строится как бы "наоборот", что не совсем привычно.
2. Площадь (AUC) по стандартной формуле трапеций получается той же, но со знаком "минус", что тоже неудобно.

Источник: Паклин (baselab).


Прежде, чем кого-то исправлять неплохо бы внимательно прочитать пост (иначе возникают сомнения в мотивах критикующего).
Во всех источниках и в моем примере, по оси Y идет чувствительность, а по оси X - частота ложноположительных результатов (FP).
Более того, в моем примере четко прописаны координаты точек (они делаются в формате (x,y)).
График ROC не может строиться "наоборот" поскольку это набор точек, и наносите вы точки слева направо или справо налево абсолютно все равно.
А вот где Вы в примере нашли отрицательную AUC ROC? Если Вы скачали файл, то там нигде нет минуса или изменения знака. Ни в одной формуле. Зачем тогда придумывать?
Вообщем хотите описать методику расчета AUC ROC как Вам кажется лучше - пожалуйста, для этого форум и сделан. А вот пытаться доказать, что вокруг все ничего не понимают - не стоит.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.07.2008 - 01:57
Сообщение #15





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Игорь, по видимому, не верно определил больных и здоровых в этом примере. Принято кодировать тех, у кого тест положительный, т.е. больных "1", а здоровых "0", как у Плава в примере. Чувствительность и специфичность относится к этим понятиям. Если поменять кодировку, площадь под кривой будет хоть и не отрицательной, но меньше 0,5 (0,24 в этом примере). Плав дал ручной расчет, совпадающий с MedCalc (Trapezoidal (Wilcoxon) area). Присоединен файл с документацией по этому модулю и решением примера Плава в NCSS может пригодится для расширения познаний.
Прикрепленные файлы
Прикрепленный файл  Игорю2.RTF ( 91,9 килобайт ) Кол-во скачиваний: 1339
Прикрепленный файл  Roc.pdf ( 121,26 килобайт ) Кол-во скачиваний: 1643
Прикрепленный файл  ROC2.pdf ( 113,36 килобайт ) Кол-во скачиваний: 1798
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.07.2008 - 09:38
Сообщение #16





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DrgLena @ 5.07.2008 - 04:57) *
...Плав дал ручной расчет, совпадающий с MedCalc (Trapezoidal (Wilcoxon) area). Присоединен файл с документацией по этому модулю и решением примера Плава в NCSS может пригодится для расширения познаний.

Сомневаюсь, что совпадающий. У Плава одинаковым значениям 250 присвоены разные ранги (11 и 12). Чтобы совпало с результатами программных расчетов (ROCKIT от C.E. Metz и приведенные Вами расчеты в NCSS, MedCalc'ом не пользуюсь) нужно дать им средний ранг 11,5. Тогда площадь будет 0,75893.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 5.07.2008 - 12:53
Сообщение #17





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Почти совпадающий, по MedCalc, действительно ROC=0,75893 (se=0,127).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.07.2008 - 16:20
Сообщение #18





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 5.07.2008 - 13:53) *
Почти совпадающий, по MedCalc, действительно ROC=0,75893 (se=0,127).

Согласен, надо присваивать разные ранги (тогда в таблице результат 0,7589, стандартная ошибка правда больше 0,130), однако в основной части примера расчет производился просто интегрированием и он получается равным 0,750. Так что вопрос о точности оценки AUC ROC при использовании средних рангов остается.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.07.2008 - 16:50
Сообщение #19





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 4.07.2008 - 21:48) *
Прежде, чем кого-то исправлять неплохо бы внимательно прочитать пост (иначе возникают сомнения в мотивах критикующего).
...
А вот пытаться доказать, что вокруг все ничего не понимают - не стоит.

Мне искренне жаль, что плав воспринимает поправки на явные опечатки и вполне корректные предложения, как личное оскорбление, и на этом мнимом основании наносит уже реальное оскорбление собеседнику.

В таком случае снимаю и удаляю все свои поправки.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.07.2008 - 00:40
Сообщение #20





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Не стоит горячиться, не так много мест, где есть общение на столь интересную тему, как медицинская статистика. И участвующих в обсуждении возникающих на форуме вопросов не так уж много. Давайте бережно относиться к мнению каждого, а то некому будет его высказвать. Обсуждение ROC анализа можно продолжить. Есть и другие алгоритмы и значения площади по примеру Плава, а именно:
Area under fitted curve (Az) = 0.7751
Estimated std. error = 0.1196
Вопрос к знатокам - как получается 0,7751?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.07.2008 - 07:46
Сообщение #21





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Знатоком себя не считаю, но ответ знаю - как раз это значение мне выдала программа ROCKIT smile.gif. Существует два пути расчета площади: непараметрический и параметрический.
Непараметрический использует только имеющуюся информацию, поэтому полученную с его помощью оценку Az называют эмпирической. Это и есть описанный Плавом во вторую очередь анализ через расчет статистики Манна-Уитни (только для одинаковых значений нужно использовать одинаковые ранги - средние).
Второй путь - помимо имеющейся информации предполагает нормальное распределение показателя в обеих группах (больных и здоровых). Поэтому и называется бинормальной оценкой (binormal) и является параметрическим (или почему-то называется полупараметрическим???). Это - идеализированная модель, которая расчитывается методом максимального правдоподобия, но алгоритмов такого расчета предложено несколько. Наибольшее распространение получил алгоритм Labroc, предложенный Metz кажется в 1986 г. Именно по нему получаетя Az=0,7751, se=0,1196. Предложены и другие алгоритмы, которые дают немного отличающиеся оценки площади. Качество этих алгоритмов проверяется в симуляционных экспериментах по данным с известными параметрами распределения. Читал также, что для сравнения площадей, оцененных бинормальным методом, лучше предварительно нормализовать исходные данные - преобразовать их по Боксу-Коксу. В этом случае оценки Az также будут другими.
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 08:29
Сообщение #22





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 5.07.2008 - 17:50) *
Мне искренне жаль, что плав воспринимает поправки на явные опечатки и вполне корректные предложения, как личное оскорбление, и на этом мнимом основании наносит уже реальное оскорбление собеседнику.

В таком случае снимаю и удаляю все свои поправки.

Если хочется поправить "опечатки", то есть корректная форма вопроса (например, а почему написано так-то а в расчетах получается так-то, а не "не надо менять стандартные обозначения") или личка. При разборе примеров на общеизвестные вещи ни о какой научной дискуссии речь не идет, это скорее напоминает попытку одного преподавателя начать править другого во время лекции. По крайней мере в преподавательской среде это не одобряется. Я думаю, моя позиция обозначена теперь достаточно четко и я, да и другие люди на форуме, не для того теряют тут время на объяснения, чтобы их объяснения ставились под сомнения и, таким образом, потраченное ими время уходило впустую.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 09:32
Сообщение #23





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 6.07.2008 - 08:46) *
Знатоком себя не считаю, но ответ знаю - как раз это значение мне выдала программа ROCKIT smile.gif. Существует два пути расчета площади: непараметрический и параметрический.
Непараметрический использует только имеющуюся информацию, поэтому полученную с его помощью оценку Az называют эмпирической. Это и есть описанный Плавом во вторую очередь анализ через расчет статистики Манна-Уитни (только для одинаковых значений нужно использовать одинаковые ранги - средние).
Второй путь - помимо имеющейся информации предполагает нормальное распределение показателя в обеих группах (больных и здоровых). Поэтому и называется бинормальной оценкой (binormal) и является параметрическим (или почему-то называется полупараметрическим???). Это - идеализированная модель, которая расчитывается методом максимального правдоподобия, но алгоритмов такого расчета предложено несколько. Наибольшее распространение получил алгоритм Labroc, предложенный Metz кажется в 1986 г. Именно по нему получаетя Az=0,7751, se=0,1196. Предложены и другие алгоритмы, которые дают немного отличающиеся оценки площади. Качество этих алгоритмов проверяется в симуляционных экспериментах по данным с известными параметрами распределения. Читал также, что для сравнения площадей, оцененных бинормальным методом, лучше предварительно нормализовать исходные данные - преобразовать их по Боксу-Коксу. В этом случае оценки Az также будут другими.
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.

Действительно, обычно использование бинормального метода для построения ROC кривой приводит к несколько другому значению площади под кривой (и более сглаженной форме кривой - без зигзагов, поскольку зигзаги рассматриваются как случайные колебания).
При использовании предположения бинормальности имеющиеся данные аппроксимируются следующим образом: G(x)=Ф(a+b*(Ф(x)^(-1))), где Ф(х) - функция нормального распределения, а a и b - интересующие нас параметры. Они то как раз и оцениваются и используются для рассчета AUC по формуле AUC=Ф(a/sqrt(1+b^2)).
Легко найти, что a=(M1-M0)/sigma1, а b=sigma0/sigma1.
Для анализируемого примера а=0,89208, b=0,83161, а AUC (используя функцию НОРМСТРАСП экселя - 0,75361).
se(AUC) уже считать сложнее, требует использования, например, NLMIXED в SAS.
Кстати, если программа не считает AUC, но рассчитывает (обычно в разделе табличного анализа) D Сомерса, то его также можно использовать для оценки AUC ROC по формуле AUC=(D+1)/2 и se(AUC)=se(D)/2.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 09:35
Сообщение #24





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Справедливые слова. И дельные советы. Неполиткорректно свою фразу составил, за что приношу плав свои искренние извинения. Обещаю попытаться сменить тон на более приемлемый.

Итак, у плав написано
Цитата(плав @ 3.07.2008 - 20:17) *
Для примера выше получаем:

Se FP Площадь
1 1 0,143
0,857 1 0,000
...

Не должно ли быть так?

FP Se Площадь
1 1 0,143
0,857 1 0,000
0,857 0,875 0,125
...

А то ведь график будет FP от Se, а должен, предположительно, Se от FP? Если построить график Se от FP, как в таблице плав, то график DrgLena не получается таким, как она представила. У Власова, конечно, рассматриваются различные типы ROC, но здесь, насколько мне удалось понять при моих скромных познаниях, речь идет о конкретном типе кривой.

Если я ошибся (надеюсь, что так и есть), заранее прошу прощения у уважаемого плав.

Цитата(DrgLena @ 5.07.2008 - 01:57) *
Игорь, по видимому, не верно определил больных и здоровых в этом примере. Принято кодировать тех, у кого тест положительный, т.е. больных "1", а здоровых "0", как у Плава в примере. Чувствительность и специфичность относится к этим понятиям. Если поменять кодировку, площадь под кривой будет хоть и не отрицательной, но меньше 0,5 (0,24 в этом примере). Плав дал ручной расчет, совпадающий с MedCalc (Trapezoidal (Wilcoxon) area). Присоединен файл с документацией по этому модулю и решением примера Плава в NCSS может пригодится для расширения познаний.

Уважаемая DrgLena, спасибо за материалы! Поделюсь, что у нас получилось. В наших численных экспериментах (не более того - никакой теории не предлагаю) наблюдалось такое явление. Если мы считаем чувствительность по выборке большей численности, а неспецифичность (1 - Sp, позвольте мне назвать ее так - как у Власова, плав называет это как FP - его право) по выборке меньшей численности, мы всегда получаем выпуклую (правильную smile.gif) ROC. Если наоборот, то ROC всегда будет вогнутой. Рискну предположить, что порядок кодирования (0 или 1) безразличен. Важна только численность выборок опыта и контроля (ну, или больных и здоровых, в зависимости от условий задачи). Этот факт наблюдался в расчетах. Т.е., предположительно, в алгоритме можно предусмотреть выбор той или иной ветки расчета в зависимости от численности, и забыть о кодировке.
Цитата(плав @ 6.07.2008 - 09:32) *
Действительно, обычно использование бинормального метода для построения ROC кривой приводит к несколько другому значению площади под кривой (и более сглаженной форме кривой - без зигзагов, поскольку зигзаги рассматриваются как случайные колебания).

Предположим, так или иначе мы получим гладкую ROC. А справедливо ли это? ROC разве не должна быть по своей природе дискретной?
Выше AUC мы считали по правилу трапеций. А можно ли воспользоваться более точным численным методом? Например, правилом Симпсона? Хотя для дискретной ROC этот вопрос, естественно, не стоит.
Еще вопрос. А зачем нужна стандартная ошибка AUC? И как ее рассчитать?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.07.2008 - 13:25
Сообщение #25





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



1) FP - сокращение от False Positives (ложноположительные результаты). Аналог 1-Sp, однако более простой для понимания (это просто количество здоровых, у которых тест окажется положительным при использовании данной границы - 1- Sp - дополнение до единицы количества здоровых, у которых тест окажется отрицательным при использовании данной границы). Во многих книгах используют именно FP, а не 1-Sp.
Опечатка в заголовках таблиц была быстро исправлена в прикрепленном файле, но осталась в посте.
2) Что касается сглаживания ROC кривой - тут есть разные точки зрения. Поскольку любые измерения, в том числе значений для построения ROC кривой делаются с некоторой ошибкой, можно предположить, что реальная форма ROC кривой гладкая (например, для холестерина мы просто не имели пациентов с другими значениями, а взяли бы 10000, то...). Соответственно, зигзаги - следствия ошибок и должны быть удалены точно так же, как мы описываем распределение значений в выборке при помощи средних. Как и в других местах в статистике нет правильного или неправильного подхода, просто разные допущения, которые могут быть или не быть разумнынми для конкретного случая.
3) Стандартная ошибка AUC нужна для определения надежности заключения. Поскольку мы работаем с выборкой, то при повторении эксперимента AUC может оказаться другой. Иными словами, AUC такая же случайная величина, как выборочное среднее. Соответственно, если мы можем определить дисперсию AUC, мы можем определить параметры распределения выборочных AUC и из этого сделать предположения о том, где может находиться истинное - популяционное значение AUC. Проще всего сделать это путем расчета 95%ДИ, который будет равен AUC+/-1.96*se(AUC). Получив этот интервал можно. например, проверить гипотезу о том, что диагностический метод лучше, чем "гадание на кофейной гуще" (т.е. метод с AUC=0.5). Если интервал включает 0,5, значит не лучше, если нет - то лучше. Аналогичным образом можно сравнивать разные диагностические методы.
4) Расчет se(AUC) приведен в моем посте выше (для непараметрического подхода). Для параметрического требуется оценка либо по методу максимального правдоподобия, либо по методу наименьших квадратов (см. M. Gonen Analyzing Receiver Operating Characteristic Curves with SAS). Считается, что по методу наименьших квадратов оценка хуже (делается регрессия между значениями пробитов для Se и 1-Sp). Код SAS для NLMMIXED моего примера приведен ниже:
proc nlmixed data=new;
parameters m1=0 m0=0 s1=39 s0=39;
* надо поиграть с начальными параметрами - лучше выставить их равными ожидаемым;
if group=1 then m=m1; else if group=0 then m=m0;
if group=1 then s=s1**2; else if group=0 then s=s0**2;
* group - группа: 1 - больные; 0 - здоровые.
a=(m1-m0)/s1;
b=s0/s1;
model mar~normal(m,s);
* mar - значение маркера (уровень ХС);
estimate 'a' a;
estimate 'b' b;
estimate 'AUC' probnorm(a/sqrt(1+b**2));
run;
Результат AUC=0.7692, se(AUC)=0.1180
Третий возможный метод оценки - метод с интенсивным использованием ЭВМ (bootstrap). Делаем много выборок с замещением из исходной, в каждой считаем AUC любимым методом и делаем распределение полученных значений, отбрасываем 2,5% крайних - получаем 95% ДИ.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 15:23
Сообщение #26





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 6.07.2008 - 07:46) *
Также есть разные способы оценки оптимальной точки разделения. Наиболее простой предполагает равную важность чувствительности и специфичности. В этом случае выбирается значение с максимальным индексом Юдена (Youden index). Второй способ - через расчет отношения затрат и выгод (cost-benefit ratio) - формулы есть, но смысла его еще не понял.

nokh затронул практически важный вопрос для исследователей - выбор оптимального порога (точки разделения).

С индексом Юдена все ясно. Тем более свободно (бесплатно) доступна оригинальная работа http://www3.interscience.wiley.com/journal...=1&SRETRY=0 и еще десятки статей. Суть метода заключается в максимизации суммы чувствительности и специфичности.
(Для доступа к статье Юдена сначала ввести в строке браузера http://www3.interscience.wiley.com. Установится кукиш. Затем нажать показанную ссылку. Ничего не поделать - перемудрил Wiley Interscience... Хотя за то, что даром, спасибо ему).

По поводу cost-benefit ratio, если можно, есть вопросы. Какой показатель оптимизируется в данном случае? И известно ли, кто и в какой работе данный метод предложил впервые?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.07.2008 - 16:09
Сообщение #27





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573




http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html
В приведенной ссылке реализованы оба метода, тип ввода для примера Плава формат 5, первая колонка - классификатор, вторая - количественный показатель.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.07.2008 - 16:28
Сообщение #28





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 6.07.2008 - 16:09) *
http://www.rad.jhmi.edu/jeng/javarad/roc/JROCFITi.html
В приведенной ссылке реализованы оба метода, тип ввода для примера Плава формат 5, первая колонка - классификатор, вторая - количественный показатель.

Спасибо. Посмотрел... А оптимизируется-то что, там не сказано. Теория не приведена. frown.gif

Может, это cost-benefit: |Se- Sp|? Видел где-то. Хотя, вроде, нет. Там cost-benefit ratio, т.е. отношение чего-то к чему-то должно быть.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.07.2008 - 21:34
Сообщение #29





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 6.07.2008 - 17:28) *
Спасибо. Посмотрел... А оптимизируется-то что, там не сказано. Теория не приведена. frown.gif

Может, это cost-benefit: |Se- Sp|? Видел где-то. Хотя, вроде, нет. Там cost-benefit ratio, т.е. отношение чего-то к чему-то должно быть.

Насколько я понимаю, посмотрев несколько статей, анализ cost-benefit (стоимость-выгода) используется для ROC кривых в том же смысле, что и для обычных экономических исследований (откуда термин и пришел). Для этого надо будет присвоить цену всем ошибкам и тестам (пропуску заболевания, ложноположительному и т.п.) и рассчитать для каждой точки разделения.
Взгляните http://www.isdsjournal.org/article/viewArticle/208 (это только упоминание об анализе))
Более детальный разбор подходов такого типа тут http://home.comcast.net/~tom.fawcett/publi...pers/ROC101.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 10.07.2008 - 08:32
Сообщение #30





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 9.07.2008 - 21:34) *
Насколько я понимаю, посмотрев несколько статей, анализ cost-benefit (стоимость-выгода) используется для ROC кривых в том же смысле, что и для обычных экономических исследований (откуда термин и пришел). Для этого надо будет присвоить цену всем ошибкам и тестам (пропуску заболевания, ложноположительному и т.п.) и рассчитать для каждой точки разделения.
Взгляните http://www.isdsjournal.org/article/viewArticle/208 (это только упоминание об анализе))
Более детальный разбор подходов такого типа тут http://home.comcast.net/~tom.fawcett/publi...pers/ROC101.pdf

Спасибо большое, плав.

Стал копать Интернет дальше от данной Вами ссылки в поисках реквизитов статьи. Нашел персональную страницу автора (Fawcett) с несколькими интересными работами. Если кого заинтересует, вот ссылка http://home.comcast.net/~tom.fawcett/publi...pers/index.html.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 12.07.2008 - 09:21
Сообщение #31





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Обнаружен интересный эффект при построении ROC. В литературе объяснений не нашел. Вероятно, плохо искал, но тем не менее...

Иногда при построении ROC по всем правилам алгоритма кривая оказывается ниже диагонали Se + (1 - Sp) = 0,5. Следовательно, AUC получается менее 0,5. В источниках утверждается, что AUC = 0,5 - это "бесполезный классификатор". Как тогда объяснить AUC менее 0,5?

Нами предложено такое решение. Классически считается алгоритм ROC. Если AUC оказывается менее 0,5, то в исходных данных меняется кодировка с 0 на 1 (или, что то же самое, меняются местами опытная и стандартная выборки). Затем расчет производится заново. При этом ROC как бы "переворачивается" относительно диагонали.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.07.2008 - 10:27
Сообщение #32





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я вам об этом и писала
5.07.2008 - 01:57
ПОэтому, обнаруженный вами "эффект" абсолютно закономерен. Любая программа по умолчанию считает, что "1" это больной или спрашивает относительно какой кодировки будет рассчитана чувствительность.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 12.07.2008 - 10:59
Сообщение #33





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 12.07.2008 - 10:27) *
Я вам об этом и писала
5.07.2008 - 01:57
ПОэтому, обнаруженный вами "эффект" абсолютно закономерен. Любая программа по умолчанию считает, что "1" это больной или спрашивает относительно какой кодировки будет рассчитана чувствительность.

В примере плава данного эффекта нет, потому мы на него и не наткнулись.

А пусть, к примеру, вот такие данные:

Больные (кодировка - 1):
49,00
35,00
26,00
59,00
35,00
58,00
14,00
29,00
17,00
11,00
37,00
22,00
39,00
8,00
50,00
67,00
54,00
19,00
29,00
93,00
109,00
95,00

Здоровые (кодировка - 0):
16,00
31,00
10,00
60,00
13,00
7,00
20,00
36,00
18,00
12,00
55,00
7,00
41,00
5,00
28,00
16,00
9,00

Некоторые результаты:
AUC
0,74599
SE(AUC)
0,08
Нижний CI 95% 0,59
Верхний CI 95% 0,90
Оптимальный порог отсечения
22,00000, при этом
Чувствительность, %
77,27273
Специфичность, %
64,70588235

Теперь, предположим, что первая выборка - здоровые, вторая - больные. Применение алгоритма дает "перевернутую" ROC и AUC < 0,5?

Прошу заранее прощения, но хотелось бы услышать объяснение "эффекту". И правильно ли мы делаем в предложенном решении проблемы. Может, дело в том, что значение исследуемого параметра в одном случае означает "чем более, тем здоровее". А в другом случае "чем менее, тем здоровее"?

Мы предполагали, что дело в численности здоровых и больных (для Манна-Уитни это важно). Оказалось, что это ложное предположение.

В том, что программы считают правильно, сомнения нет. Но формальное применение алгоритма не дает такой "правильности". Следовательно, описанный в начале темы алгоритм не полный и в программы заложен не он. Следовательно, его нужно усовершенствовать. Только и всего. Ничего личного.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.07.2008 - 12:01
Сообщение #34





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я пользуюсь лицензионной программой MedCalc, сама программы не пишу, но документации читаю.
Однако, для меня важна именно смысловая интерпретация, нежели особенности алгоритма. По вашему примеру программы выдает:
Area under the ROC curve (AUC) 0,746
Standard error 0,0783
95% Confidence interval 0,581 to 0,871
Significance level P (Area=0.5) 0,0017
Указанная вами чувтвительность и специфичность, однако, относится к другой точке разделения >20, а в точке 22 чувствительность ниже se=72,73 sp=64,71.
Если поменять кодировки (больных на здоровых), то программа будет выдавать те же оценки площади, но в точке разделения <=20 чувствительность будет 64,7 специфичность 77,3.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 12.07.2008 - 12:44
Сообщение #35





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 12.07.2008 - 10:21) *
Обнаружен интересный эффект при построении ROC. В литературе объяснений не нашел. Вероятно, плохо искал, но тем не менее...

Иногда при построении ROC по всем правилам алгоритма кривая оказывается ниже диагонали Se + (1 - Sp) = 0,5. Следовательно, AUC получается менее 0,5. В источниках утверждается, что AUC = 0,5 - это "бесполезный классификатор". Как тогда объяснить AUC менее 0,5?

Нами предложено такое решение. Классически считается алгоритм ROC. Если AUC оказывается менее 0,5, то в исходных данных меняется кодировка с 0 на 1 (или, что то же самое, меняются местами опытная и стандартная выборки). Затем расчет производится заново. При этом ROC как бы "переворачивается" относительно диагонали.

На самом деле очень просто. Если AUC меньше 0.5, то это фактор, который чаще встречается у здоровых, чем у больных (т.е. обратная классификация - например, если в моем примере использовать как диагностическое правило "ХС меньше границы", то получится AUC меньше 0.5). Соответственно, надо тогда просто изменить классифицирующее правило.
Я не совсем понял насчет важности "здоровые" и "больные" для теста МУ. Фактически ведь там две группы - и как их обозначить - дело второе.
Расчет же AUC исходя из теста МУ автоматически предполагает, что 0.5<=AUC<=1.0 (по крайней мере в версии, которая обсуждалась выше, можно рассчитывать U-статистику не по правилам критерия и тогда будет и AUC меньше 0.5, но не уверен, что все нормальной пойдет с оценкой дисперсии AUC). Отсюда вывод - надо вначале нарисовать график ROC, посмотреть не перевернут ли он и затем только интерпретировать результаты.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.07.2008 - 14:25
Сообщение #36





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



ROC обычно применяют во второй части анализа, после анализа различия средних значений, или когда посчитыны вероятности логистической регрессией, и т.д., потому уже известно, какие средние у больных или здоровых и вероятность чего вы вычисляете. Научная гипотезе может быть проверена различными методами, но без нее похоже на гадание на кофейтой гуще. ROC анализ меня и вдохновляет потому, что имеет ясную интерпретацию в диагностике или прогнозе.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 12.07.2008 - 16:38
Сообщение #37





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Большое спасибо, плав, DrgLena!

Теперь о ROC анализе понятно всё. smile.gif

Полное совпадение.

Не так просто, даже имея понимаемую концепцию, составить алгоритм с учетом всех нюансов, а из него работающую программу, пусть даже это всего лишь макрос в Excel, а вычислительная сложность невысока. Аналогичная история у нас происходила при обработке практически всех расчетных методов. А это очень важно для тех пользователей, кто не имеет средств на приобретение дорогостоящих аналитических программ, но имеет немного свободного личного времени, чтобы попытаться разобраться с алгоритмами.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 12.07.2008 - 17:07
Сообщение #38





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Хорошо, чтобы и автор поста Татьяна24 смогла выполнить этот анализ для своих данных.
Добавить еще можно полезную характеристику диагностического теста, которая одновременно характеризует и чувствительность и специфичность:отношение правдоподобия для конкретного результата теста (отношение вероятности результата диагностического теста у больных к вероятности этого же результата у здоровых
+LR: Positive likelihood ratio
2,19 (первоначальные данные)
2,37 (если поменять кодировки)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 12.07.2008 - 18:55
Сообщение #39





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 12.07.2008 - 17:07) *
Хорошо, чтобы и автор поста Татьяна24 смогла выполнить этот анализ для своих данных.

Надеюсь, в понедельник 14.07.2008 часам к 8 мск будет собран и выложен на соответствующем сайте дистрибутив новой версии бесплатного ПО AtteStat, ПРАВИЛЬНО выполняющей ROC анализ. Поэтому Татьяна24 сможет легко выполнить свои расчеты.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 12.07.2008 - 18:55
Сообщение #40





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Я тут проанализировал результаты разных подходов (пример Игоря) и получил следующие данные (для иллюстрации некоторых различий методов):
NLMIXED (нормальная аппроксимация, метод максимального правдоподобия)
AUC 0.7433 (0.5903 - 0.8963 )
BOOT (нормальная аппроксимация, метод с интенсивным использованием ЭВМ (бутстрап))
AUC 0.74979 (0.59707 - 0.86256)
BOOT Mann-Whitney (аппроксимация по тесту Мэнна-Уитни, метод с интенсивным использованием ЭВМ (бутстрап))
AUC 0.74866 (0.57487 - 0.88503)
Mann-Whitney approx (аппроксимация по тесту Мэнна-Уитни, асимптотический метод (описанный выше))
AUC 0.74599 (0.59259 - 0.89939)
Somer's D (аппроксимация через статистику Сомера, асимптотический метод (SAS))
AUC 0.74599 (0.59169 - 0.90029)
Хотя общий вывод одинаков (в смысле значимости теста), различия есть

Это я писал еще до поста Игоря, который выше smile.gif а так можно только поздравить автора, т.к. ROC анализ используется не так часто, как хотелось бы и виной тому отсутствие внятных модулей в программах (чего стоит, например, необходимость писать в SAS описанный выше код даже для простейших случаев frown.gif )
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
log
сообщение 14.04.2015 - 22:48
Сообщение #41





Группа: Пользователи
Сообщений: 1
Регистрация: 14.04.2015
Пользователь №: 27163



Цитата(Игорь @ 12.07.2008 - 19:55) *
Надеюсь, в понедельник 14.07.2008 часам к 8 мск будет собран и выложен на соответствующем сайте дистрибутив новой версии бесплатного ПО AtteStat, ПРАВИЛЬНО выполняющей ROC анализ. Поэтому Татьяна24 сможет легко выполнить свои расчеты.

Игорь, скачала Attestat, версия 12.0.5. и опробовала на ней ваш пример в разделе "Распознавание образов" - Логистическая регрессия. Все данные совпадают, кроме порога: выдает пороги, равные 0.6 и 0.62 (2 метода). Как получить числовое значение порога? Может быть кто-то сталкивался с этой проблемой.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.04.2015 - 19:05
Сообщение #42





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(log @ 15.04.2015 - 00:48) *
Игорь, скачала Attestat, версия 12.0.5. и опробовала на ней ваш пример в разделе "Распознавание образов" - Логистическая регрессия. Все данные совпадают, кроме порога: выдает пороги, равные 0.6 и 0.62 (2 метода). Как получить числовое значение порога? Может быть кто-то сталкивался с этой проблемой.

Не хочется вас расстраивать shuffle.gif , но вы опоздали с вопросом лет на 7 (!). Проект Attestat закрыт. Автор покинул форум, но похоже за это время вырастил достойную смену: http://shgs.ru/news-8352.html
Что касается порогов - возможно вам нужен ROC-aнализ. Про него здесь на форуме много информации. Погуглите также на тему индекса Юдена (Youden Index) и Optimal Cut-point in ROC.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 20.04.2015 - 08:44
Сообщение #43





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



В одной из работ видел, что критерием определения оптимального порога отсечения (cut-off) являлось минимальное абсолютное значение разницы между Se и Sp. Подскажите пожалуйста принят ли сейчас подход и не лучше ли воспользоваться для этих целей критерием ACC (диагностической точности)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 20.04.2015 - 10:01
Сообщение #44





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 20.04.2015 - 08:44) *
В одной из работ видел, что критерием определения оптимального порога отсечения (cut-off) являлось минимальное абсолютное значение разницы между Se и Sp. Подскажите пожалуйста принят ли сейчас подход и не лучше ли воспользоваться для этих целей критерием ACC (диагностической точности)?


Главное что бы критерий выбора точки отсечения включал в себя частоты обоих исходов в популяции (и опционально "цены" ошибки первого и второго рода).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 20.04.2015 - 10:11
Сообщение #45





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Спасибо. Подскажите пожалуйста еще, принят ли какой-нибудь диапазон значений индекса Юдена для поиска порога, или чем он больше тем лучше?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 20.04.2015 - 12:42
Сообщение #46





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 20.04.2015 - 10:11) *
Спасибо. Подскажите пожалуйста еще, принят ли какой-нибудь диапазон значений индекса Юдена для поиска порога, или чем он больше тем лучше?


А как вы себе представляете "диапазон" вот в такой статистике?
Это просто набор значений рассчитанный для каждой точки ROC.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 20.04.2015 - 13:55
Сообщение #47





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Большое спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 20.04.2015 - 14:16
Сообщение #48





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Подскажите еще пожалуйста. Где-то нашёл формулу Юдена в следующем виде: Se+Sp-1. Она применима? И что значит "max" в предложенной Вами формуле?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 20.04.2015 - 15:08
Сообщение #49





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 20.04.2015 - 14:16) *
Подскажите еще пожалуйста. Где-то нашёл формулу Юдена в следующем виде: Se+Sp-1. Она применима? И что значит "max" в предложенной Вами формуле?


Это есть операция получения максимального значения, она может вернуть несколько одинаковых значений (или вообще все если все точки ROC "лягут" на диагональ). Важно понимать, что это просто сортирует точки ROC кривой по убыванию этого индекса, и решение это сама точка отсечения, а не этот несчастный индекс. Все точки ROC одинаково значимы если вы ничего не знаете о ситуации в которой собрались применять рассчитанную модель. Крайне рекомендую пользоваться вариантом расчета индекса с весами, а "просто эффективность" описывать интегральными характеристиками ROC.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
md416
сообщение 8.12.2019 - 22:32
Сообщение #50





Группа: Пользователи
Сообщений: 7
Регистрация: 7.12.2019
Пользователь №: 37140



Подскажите пожалуйста, где можно почитать про выбор оптимальной точки отсечения?
Когда мне на пальцах объясняли эту тему, у меня отложилось, что точка отсечения - это где Sp=Se,то есть их пересечение. Но оказалось, что есть ещё десяток методов... в.т.ч критерий Юдена.
Есть ли какой-то критерий для сравнения данных данных подходов?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 9.12.2019 - 00:30
Сообщение #51





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(md416 @ 9.12.2019 - 00:32) *
Подскажите пожалуйста, где можно почитать про выбор оптимальной точки отсечения?
Когда мне на пальцах объясняли эту тему, у меня отложилось, что точка отсечения - это где Sp=Se,то есть их пересечение. Но оказалось, что есть ещё десяток методов... в.т.ч критерий Юдена.
Есть ли какой-то критерий для сравнения данных данных подходов?

С Юденом как раз всё просто, прочитать немного можно здесь со стр. 201 и далее: https://yadi.sk/d/g50i73pt3J6pAa
Сложнее обоснованно отклоняться в сторону увеличения Ч или Сп. Там преимущественно нужно считать экономические показатели. Например,если заболевание редкое (низкий преваленс), а Сп не 100%-ная, то можно просто разориться на проведённых впустую обследованиях здоровых... Но может кто-нибудь на форуме и имеет опыт подобных расчётов.

Сообщение отредактировал nokh - 9.12.2019 - 00:46
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 9.12.2019 - 18:49
Сообщение #52





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(md416 @ 8.12.2019 - 22:32) *
Подскажите пожалуйста, где можно почитать про выбор оптимальной точки отсечения?
Когда мне на пальцах объясняли эту тему, у меня отложилось, что точка отсечения - это где Sp=Se,то есть их пересечение. Но оказалось, что есть ещё десяток методов... в.т.ч критерий Юдена.
Есть ли какой-то критерий для сравнения данных данных подходов?


Если известна ожидаемая частота детектируемых методом случаев и соотношение цены ошибок первого и второго рода, то решение просто получается по формуле Youden в модификации Perkins и Schisterman. В том числе и предельные случаи: "детектировать все подряд" и "ни на что не реагировать, дешевле будет".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
md416
сообщение 9.12.2019 - 19:20
Сообщение #53





Группа: Пользователи
Сообщений: 7
Регистрация: 7.12.2019
Пользователь №: 37140



На самом деле я пытаюсь применить данную методику не совсем по назначению, а для поиска точки отсечения количественного предиктора в модели бинарной логистической регрессии.
Ведь практическая значимость результата выше при выделении точки отсечения. Например, "исходный уровень тромбоцитов перед операцией увеличивает шанс развития тромбоза чего-нибудь (ОШ, 95% ДИ, p=)", лучше выразить для практики как "исходный уровень тромбоцитов более 333 увеличивает шанс развития тромбоза чего-нибудь (ОШ, 95% ДИ, p=)".
И вот для перевода количественного предиктора в качественный я и пытаюсь применить поиск точки отсечения в ROC-анализе.

Заранее извиняюсь, если где=то какие-то глупости... пока пытаюсь разобраться в основах.. unknw.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 11.12.2019 - 14:11
Сообщение #54





Группа: Пользователи
Сообщений: 1162
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(md416 @ 9.12.2019 - 20:20) *
На самом деле я пытаюсь применить данную методику не совсем по назначению, а для поиска точки отсечения количественного предиктора в модели бинарной логистической регрессии.
Ведь практическая значимость результата выше при выделении точки отсечения. Например, "исходный уровень тромбоцитов перед операцией увеличивает шанс развития тромбоза чего-нибудь (ОШ, 95% ДИ, p=)", лучше выразить для практики как "исходный уровень тромбоцитов более 333 увеличивает шанс развития тромбоза чего-нибудь (ОШ, 95% ДИ, p=)".
И вот для перевода количественного предиктора в качественный я и пытаюсь применить поиск точки отсечения в ROC-анализе.

Заранее извиняюсь, если где=то какие-то глупости... пока пытаюсь разобраться в основах.. unknw.gif

Строгое обоснование https://cyberleninka.ru/article/n/otsenka-k...ikatorov/viewer (в т.ч. раздел о значимости весовых коэффициентов) и ссылки на странице в разделе "похожие статьи"

Сообщение отредактировал Игорь - 11.12.2019 - 14:26


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Marinheiro
сообщение 28.02.2020 - 22:16
Сообщение #55





Группа: Пользователи
Сообщений: 5
Регистрация: 15.05.2016
Пользователь №: 28268



Цитата(Игорь @ 2.07.2008 - 10:49) *
Спасибо большое. Хотя в библиотеках она имеется, электронным вариантом пользоваться предпочтительнее.

Качество, действительно, неважное. Первые 2 главы - один лист на скан, остальные - 2 листа на скан. Нет также предисловия и [нормального] оглавления. Пользоваться трудно.

Раз уж автор разрешил, отсканировал недостающее из печатной книги, да собрал в 2 файла PDF (если в один - много работы с разделением "сиамских близнецов" из 3-6 глав).

Книга, действительно, стоящая. Понятно, информативно.


Попробуйте ещё во эту книгу. Очень хорошо тут описано
https://core.ac.uk/download/pdf/80150469.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Med_Elena
сообщение 10.04.2020 - 21:04
Сообщение #56





Группа: Пользователи
Сообщений: 9
Регистрация: 13.02.2019
Пользователь №: 32925



Цитата(Игорь @ 1.07.2008 - 17:00) *
Многие исследователи желают применять ROC-анализ в своей работе. Поэтому, если можно, укажите, пожалуйста, ссылки на источники.


angel.gif Да, ROC-анализы действительно весьма продуктивны. Однако при этом они определяются не для одного лишь уравнения. А оптимально использовать это как раз для нескольких уравнений. И тогда можно выбирать самые лучшие уравнения. Вот почему я своим студентам как раз и предлагаю читать эти описания по адресам http://www.biometrica.tomsk.ru/ROC-analysis.pdf и http://www.biometrica.tomsk.ru/logit_4.htm . Рекомендую и Вам почитать эти статьи. Также ценно для использования таких ROC-кривых и тех уравнений, в которых более одного предиктора. И при этом можно сделать такие ROC-кривые как для всего уравнения со многими предикторами, так и раздельно ROC-кривые по каждому предиктору.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
EkaterinaN
сообщение 24.04.2020 - 23:37
Сообщение #57





Группа: Пользователи
Сообщений: 4
Регистрация: 22.04.2020
Пользователь №: 38661



Добрый вечер, применим ли ROC-анализ для определения прогностической ценности порядковых или качественных переменных в диагностике какого-либо исхода? Или только для количественных данных?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.04.2020 - 06:53
Сообщение #58





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(EkaterinaN @ 25.04.2020 - 01:37) *
Добрый вечер, применим ли ROC-анализ для определения прогностической ценности порядковых или качественных переменных в диагностике какого-либо исхода? Или только для количественных данных?

Для порядковых - да, для качественных - только дихотомических (альтернативных, бинарных). Но в последнем случае при построении площади будет использоваться только одна точка над диагональю (или на диагонали), т.к. имеется только одна пара значений чувствительности и специфичности. Поэтому самостоятельной ценности такая штука не представляет, её имеет смысл использовать только для сопоставления диагностической эффективности разных показателей в разных шкалах (количественных, порядковых, качественных дихотомических), чтобы выразить их в одинаковых единицах - площадью под ROC-кривой.

Сообщение отредактировал nokh - 26.04.2020 - 06:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V   1 2 3 > » 
Добавить ответ в эту темуОткрыть тему