Здравствуйте, гость ( Вход | Регистрация )
24.03.2010 - 21:32
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам? (2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения. |
|
|
![]() |
![]() |
![]() |
28.05.2010 - 22:36
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Качество данных, можно не обсуждать, а принять их как тестовый файл.
Игорь привел ссылку на лекцию, по которой видимо, учился и В.П. поскольку, и у него в лекции тоже сразу после коэффициентов регрессии выдается ROC кривая, без объяснения, на основании чего она может быть построена. Может, это такой специальный прием, после нашей лекции обращайтесь к нам, если не догоняете. А если догоняете, то сломаете себе голову, пытаясь понять, почему подпись ВЕТА над ROC кривой. По умолчанию MedCalc выдает имя переменной, которая тестируется ROC кривой и это LGREGR_Pred. Далее, Игорь отвечает на свой вопрос, зачем применяется ROC, но не после логистической регрессии. Можно дополнить этот ответ. Например, если у нас есть данные только по глюкозе, то по данным, которые мы обсуждаем, можно сделать вывод, что если глюкоза выше 123, то с вероятностью 70% (чувствительность) диагностируется диабет (ROC площадь=0,788 и это есть выражение качества предиктора разделяющего два состояния). Другой предиктор, наследственность, имеет классификационные возможности ниже ROC=0,61, причем выбор точки разделения не влияет на площадь. Порог обосновывается также вне связи с площадью, а на основании анализа соотношений чувствительности и специфичности и необязательно она должна быть на пересечении чувствительности и специфичности, как указано на рисунке. Бинарная логистическая регрессия, мультивариантная, на выходе дает значение вероятности прогнозируемого события по множеству признаков. Например, у первого пациента в обсуждаемых данных р=0,72, а у второго только 0,049. Как правило, по результатам логистической регрессии, если расчетная вероятность выше, 0,50, то у больного диагностируют заболевание, а если меньше ? отсутствие заболевания. Т.о. по данным логистической регрессии (и использованием всех 8 предикторов, как представлено на сайте, а не только значимых) расчетная вероятность диабета находится в диапазоне от 0,00196 (?76) до 0,9926 (?446). Если бы точка разделения была 0,50, то ошибочно классифицированных было бы (112+55), а число диагностированных с помощью модели диабетов было бы 58,2% (ч.), при значительно более высокой специфичности 89%. Анализ ч. и с., которые мы имеем в модуле ROC позволяет сдвинуть точку разделения в сторону более низкой расчетной вероятности. Точка 0,3532 для расчетной вероятности оптимальна, она повышает чувствительность (до 73,88%) и снижает специфичность (до 78,4%), при этом ошибками будут 70+108. Общая характеристика теста основанного на 8 предикторах ROC площадь=0,839. Может быть я тоже туманно объяснила, зачем ROC после логистической регрессии. Но можно обсудить и другую ситуацию, когда претестовая вероятность диабета не будет 34,9% как в этом примере, тогда и точка разделения 0,50 подойдет? Теперь относительно того, где считать этот пример. В Attestat логистическая регрессия по 8 предикторам выдается без свободного члена. В MedCalc полное совпадение с результатами на сайте. Variable Coefficient Беременность 0,1232 Глюкоза 0,03516 АД -0,0133 Толщина_КС 0,000619 Инсулин -0,001192 ИМТ 0,0897 Наследственность 0,9452 Возраст 0,01487 Constant -8,4047 Естественно, что ROC по результатам логистической регрессии также не совпадет, ни по площади (в AtteStat 0,68, в MedCalc 0,839), ни по оптимальной точке разделения (0,35 в MedCalc и 0,37 в AtteStat). В MedCalc Area under the ROC curve (AUC) 0,839 Standard error 0,0163 95% Confidence interval 0,812 to 0,865 Significance level P (Area=0.5) 0,0001 В AtteStat Площадь под ROC кривой 0,686298507 Оптимальный порог отсечения (метод 1) 0,37 Чувствительность, % 67,53731343 Специфичность, % 64,4 |
|
|
![]() |
![]() |
nokh ROC-кривая по результатам логистической регрессии 24.03.2010 - 21:32
DrgLena ROC кривая после логистической регрессии строится ... 25.03.2010 - 00:35
Pyrosmani Цитата(nokh @ 24.03.2010 - 21:32) По... 25.03.2010 - 00:42
nokh Сердечно благодарю ответивих за столь быстрые и ис... 25.03.2010 - 05:11
DrgLena Цитата(Pyrosmani @ 25.03.2010 - 00:4... 25.03.2010 - 09:56
Игорь Цитата(nokh @ 24.03.2010 - 22:32) По... 25.03.2010 - 11:10
Игорь ROC анализ неоднократно обсуждался в различных тем... 24.04.2010 - 05:16
Pyrosmani Цитата(Игорь @ 24.04.2010 - 06:16) Н... 21.05.2010 - 10:12
nokh Цитата(Pyrosmani @ 21.05.2010 - 13:1... 26.05.2010 - 21:21
Pyrosmani Цитата(nokh @ 26.05.2010 - 22:21) То... 27.05.2010 - 18:34
DrgLena Не могу понять, почему такая критика лекции В.П. М... 27.05.2010 - 20:50
Pyrosmani Цитата(DrgLena @ 27.05.2010 - 21:50)... 28.05.2010 - 20:54
Игорь Возвращаясь к теме, зачем применяется ROC по резул... 28.05.2010 - 12:30
Pyrosmani Цитата(DrgLena @ 28.05.2010 - 23:36)... 29.05.2010 - 01:14
KOROL Цитата(DrgLena @ 28.05.2010 - 22:36)... 11.10.2010 - 06:45
nokh Цитата(DrgLena @ 27.05.2010 - 23:50)... 28.05.2010 - 23:07
Pyrosmani Цитата(nokh @ 29.05.2010 - 00:07) Дл... 29.05.2010 - 01:21
DrgLena Цитата(nokh @ 28.05.2010 - 23:07) Дл... 28.05.2010 - 23:23
DrgLena Нет, дочитайте до конца пост, который цитируете. ... 11.10.2010 - 10:37![]() ![]() |