![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам? (2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Качество данных, можно не обсуждать, а принять их как тестовый файл.
Игорь привел ссылку на лекцию, по которой видимо, учился и В.П. поскольку, и у него в лекции тоже сразу после коэффициентов регрессии выдается ROC кривая, без объяснения, на основании чего она может быть построена. Может, это такой специальный прием, после нашей лекции обращайтесь к нам, если не догоняете. А если догоняете, то сломаете себе голову, пытаясь понять, почему подпись ВЕТА над ROC кривой. По умолчанию MedCalc выдает имя переменной, которая тестируется ROC кривой и это LGREGR_Pred. Далее, Игорь отвечает на свой вопрос, зачем применяется ROC, но не после логистической регрессии. Можно дополнить этот ответ. Например, если у нас есть данные только по глюкозе, то по данным, которые мы обсуждаем, можно сделать вывод, что если глюкоза выше 123, то с вероятностью 70% (чувствительность) диагностируется диабет (ROC площадь=0,788 и это есть выражение качества предиктора разделяющего два состояния). Другой предиктор, наследственность, имеет классификационные возможности ниже ROC=0,61, причем выбор точки разделения не влияет на площадь. Порог обосновывается также вне связи с площадью, а на основании анализа соотношений чувствительности и специфичности и необязательно она должна быть на пересечении чувствительности и специфичности, как указано на рисунке. Бинарная логистическая регрессия, мультивариантная, на выходе дает значение вероятности прогнозируемого события по множеству признаков. Например, у первого пациента в обсуждаемых данных р=0,72, а у второго только 0,049. Как правило, по результатам логистической регрессии, если расчетная вероятность выше, 0,50, то у больного диагностируют заболевание, а если меньше ? отсутствие заболевания. Т.о. по данным логистической регрессии (и использованием всех 8 предикторов, как представлено на сайте, а не только значимых) расчетная вероятность диабета находится в диапазоне от 0,00196 (?76) до 0,9926 (?446). Если бы точка разделения была 0,50, то ошибочно классифицированных было бы (112+55), а число диагностированных с помощью модели диабетов было бы 58,2% (ч.), при значительно более высокой специфичности 89%. Анализ ч. и с., которые мы имеем в модуле ROC позволяет сдвинуть точку разделения в сторону более низкой расчетной вероятности. Точка 0,3532 для расчетной вероятности оптимальна, она повышает чувствительность (до 73,88%) и снижает специфичность (до 78,4%), при этом ошибками будут 70+108. Общая характеристика теста основанного на 8 предикторах ROC площадь=0,839. Может быть я тоже туманно объяснила, зачем ROC после логистической регрессии. Но можно обсудить и другую ситуацию, когда претестовая вероятность диабета не будет 34,9% как в этом примере, тогда и точка разделения 0,50 подойдет? Теперь относительно того, где считать этот пример. В Attestat логистическая регрессия по 8 предикторам выдается без свободного члена. В MedCalc полное совпадение с результатами на сайте. Variable Coefficient Беременность 0,1232 Глюкоза 0,03516 АД -0,0133 Толщина_КС 0,000619 Инсулин -0,001192 ИМТ 0,0897 Наследственность 0,9452 Возраст 0,01487 Constant -8,4047 Естественно, что ROC по результатам логистической регрессии также не совпадет, ни по площади (в AtteStat 0,68, в MedCalc 0,839), ни по оптимальной точке разделения (0,35 в MedCalc и 0,37 в AtteStat). В MedCalc Area under the ROC curve (AUC) 0,839 Standard error 0,0163 95% Confidence interval 0,812 to 0,865 Significance level P (Area=0.5) 0,0001 В AtteStat Площадь под ROC кривой 0,686298507 Оптимальный порог отсечения (метод 1) 0,37 Чувствительность, % 67,53731343 Специфичность, % 64,4 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 11.10.2010 Пользователь №: 22811 ![]() |
Бинарная логистическая регрессия, мультивариантная, на выходе дает значение вероятности прогнозируемого события по множеству признаков. Например, у первого пациента в обсуждаемых данных р=0,72, а у второго только 0,049. Как правило, по результатам логистической регрессии, если расчетная вероятность выше, 0,50, то у больного диагностируют заболевание, а если меньше ? отсутствие заболевания. Т.о. по данным логистической регрессии (и использованием всех 8 предикторов, как представлено на сайте, а не только значимых) расчетная вероятность диабета находится в диапазоне от 0,00196 (?76) до 0,9926 (?446). Если бы точка разделения была 0,50, то ошибочно Получается, ROC кривая (при использовании более 1 предиктора) позволяет оценить только апостериори принадлежность пациента к той или иной группе, в противном случае, какая информативность значения точка разделения 0,33 на основании 8-ми предикторов? Что это дает, например, у нового больного? (если 1 предиктор, гликемия выше 200 - диабет - это понятно) |
|
![]() |
![]() |
![]() ![]() |