pdemeshko
19.09.2013 - 15:45
Уважаемые коллеги! Необходимо создать калибровочный график для предсказанных вероятностей при проведении внешней валидизации номограммы. Поиск показал, что похоже это можно сделать с помощью r, используя пакет rms. Есть набор данных из 2 вариант - бинарный признак и вероятность в %. может кто подскажет код? или другой пакет, где это можно сделать?
Цитата(pdemeshko @ 19.09.2013 - 18:45)

Уважаемые коллеги! Необходимо создать калибровочный график для предсказанных вероятностей при проведении внешней валидизации номограммы. Поиск показал, что похоже это можно сделать с помощью r, используя пакет rms. Есть набор данных из 2 вариант - бинарный признак и вероятность в %. может кто подскажет код? или другой пакет, где это можно сделать?
Полагаю, что справиться с вашей задачей можно в ЛЮБОМ пакете, который позволяет работать с нелинейной регрессией. В остальном пока неясно , что за % и что за вероятности. Выложите здесь часть данных и настолько подробное их описание, чтобы с ними можно было поработать осмысленно, но не украв при этом вашу наработку.
pdemeshko
23.09.2013 - 09:33
Спасибо за ответ! Цель исследования-внешняя валидизация номограммы. Есть база данных из 700 пациентов, которым выполнялась удаление тазовых лимфоузлов (т.е. гистологичесое подтвержение наличия или отсутствия метастазов). Для каждого из этих случаев по номограмме вычислена вероятность наличия метастазов в процентах (с помощью он-лайн ресурса nonogram.org) По полученным данным проведен roc-анализ, auc составила 0,795, что не плохо, номограмма работает на наших пациентах. но необходимо ее откалибровать, построить график предсказанная вероятность-наблюдаемая вероятность, что бы изучить отклонение предсказанных результатов от диагонали. На сколько я понял, это делается с помощью метода local regression smothing, но как это сделать, не знаю.
пример базы данных загрузить не могу, пишет что мне это не разрешено, но выглядит это так:
nomogram | pN
0,1 | 0
0,6 | 1
0,4 |0 и т.д
Цитата(pdemeshko @ 23.09.2013 - 12:33)

Спасибо за ответ! Цель исследования-внешняя валидизация номограммы. Есть база данных из 700 пациентов, которым выполнялась удаление тазовых лимфоузлов (т.е. гистологичесое подтвержение наличия или отсутствия метастазов). Для каждого из этих случаев по номограмме вычислена вероятность наличия метастазов в процентах (с помощью он-лайн ресурса nonogram.org) По полученным данным проведен roc-анализ, auc составила 0,795, что не плохо, номограмма работает на наших пациентах. но необходимо ее откалибровать, построить график предсказанная вероятность-наблюдаемая вероятность, что бы изучить отклонение предсказанных результатов от диагонали. На сколько я понял, это делается с помощью метода local regression smothing, но как это сделать, не знаю.
пример базы данных загрузить не могу, пишет что мне это не разрешено, но выглядит это так:
nomogram | pN
0,1 | 0
0,6 | 1
0,4 |0 и т.д
На этом форуме всё кроме рисунков нужно прикреплять в виде rar или zip архива. Но я посмотрел ваши данные и обсуждение на молбиоле. Полагаю, что помимо сделанного ещё можно:
(1) статистически доказать отклонение реальных данных от предсказанных. Критериями типа хи-квадрат с использованием в качестве наблюдаемых значений - ваши данные, а в качестве ожидаемых - тех, что советует номограмма. Не проверял, но похоже будет значимое отличие.
(2) найти оптимальную точку разделения именно для ваших данных. Для первой номограммы оптимальное значение (минимум ложноположительных и ложноотрицательных прогнозов) равно 0,13 (получил в MedCalc, но должно быть где-то и в R). Конечно, это намного меньше 0,5 и каким-нибудь бутстрепом это можно доказать статистически даже не прибегая к пункту (1). При cut-off=0,13 чувствительность составляет 80,9%, специфичность - 63,5, в логарифмической шкале почему-то немного иначе: соответственно 80% и 66% (см рис).
Характер распредления кружков на графике говорит о возможной гетерогенности групп, по крайней мере "0". Посмотрел плотность распредления вероятности отдельно для 0 и 1, благо объём выборки позволяет. Начну с номограммы 2, т.к. насколько понял, именно она рекомендована сейчас. На рис. по оси х отложил десятичные логарифмы вероятностей, опираясь на число мод на графиках плотностей провёл разделение смеси распределений. Что имеем?
(1) У вас не 2, а 3 группы объектов, об этом говорят сами данные. Теоретически это плохо, поскольку вы хотите делить пациентов только на 2. Причём эти 3 группы обнаруживаются с использованием и первой и второй номограммы, только качесто разделения различное. Наличие трёх групп говорит о том, что в номограмме с сайта упущен какой-то важный качественный показатель или он присущ только вашей выборке. В любом случае это нехорошо.
(2) На примере номограммы 2 (рис ниже) посмотрим как работаеи номограмма. Сразу видно что плохо: 3 класса присутствуют и в группе, относимой к 0, и в группе, относимой к 1. В группе "0" больше пациентов певрого кластера - с минимальной вероятностью. В группе "1" их гораздо меньше, но они тем не менее есть. Соответственно меняется пропорция и в кластерах 2 (промежуточный) и 3 (высокая вероятность), но только пропорция, причём в большей степени в промежуточном кластере 2. Судя по изменению соотношений мне представляется, что пациенты без метастазов сосредоточены в кластере 1, а с метастазами - в кластерах 2 и 3.
(3) Насколько я понял, онлайновая номограмма позволяет рассчитать вероятность после внесения некого набора данных о пациенте. При этом раз она "заточена" на деление на 2 группы, то пороговое значение будет 0,5. Я провёл эту линию пунктиром. Видно, что она разделяет кластеры (1+2) vs 3, но не 1 vs (2+3). Хотя логичнее провести её в районе (-0,9), что после перехода от логарифмической шкалы к исходным вероятностям даёт 0,126. Т.о. полагаю, что уж если задаться целью использовать именно номограмму, то деление на группы лучше проводить с использованием в качестве порогового значения вероятности около 0,13, а не 0,5 (проверять расчётами лень).
Если проделать такой же анализ с номограммой 1, то результаты будут иными, но по крайней мере группа "1" будет однородной унимодальной, а не тримодальной как в номограмме 2. А вот группа "0" будет тримодальной, с последним третим кластером, соответствующим группе "1". Но его трансгрессия с промежуточным кластером 2 очень велика.
Всё в целом производит впечатление того, что здесь уместнее говорить не о валидности, а об "инвалидности" подхода с использованием готовых номограмм, особенно второй. Здесь не помогут ни байесовские сети, ни бутстрэп, т.к. в расчёт самой номограммы не включено что-то очень важное. Уверен, что вдумчивый анализ исходных показателей позволит построить модель, учитывающую 3 состояния пациентов и площадью под характеристической кривой куда больше 0,795.
pdemeshko
26.09.2013 - 16:08
все верно, обе номограммы страдают от инвалидности:), что дает нам обосгование необходимости разработки новой. Но это вершина айсберга. На втором этапе мне нужно ответить на вопрос, на сколько хорошо производилось отнесение пациентов к группам 0 и 1, т.е. различался объем хирургического удаления лимфоузлов в нашей группе и в той популяции на которй тренировали номограмму2., которым выполняли так называемую расширенную лимфаденэктомию с удалением большего количества лимфоузлов. у нас может быть баис. А может и нет