Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> ROC-кривая по результатам логистической регрессии
nokh
сообщение 24.03.2010 - 21:32
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 1073
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам?
(2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 25.03.2010 - 00:35
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 1319
Регистрация: 27.11.2007
Пользователь №: 4573



ROC кривая после логистической регрессии строится не по значению предиктора (ов), а по значению вероятности того события, которое вы рассчитываете с помощью полученного уравнения. Получив расчетное значение вероятности для каждого объекта, вы его сохраняете и используете эту переменную для построения ROC в том же MedCalc. Программа Stata позвляет построить ROC в модуле логистической регрессии. Чувствительность и специфичность будет относиться к оптимальной точке разделения вероятности. Например, при расчетной веротяности >0,67 чувствительность 81%, специфичность 69%.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 25.03.2010 - 00:42
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 24.03.2010 - 21:32) *
По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам?
(2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения.


Благодарю за программу MedCalc, которую вы посоветовали для выполнения логистического анализа, она во много раз проще для освоения, чем SPSS.

ROC-кривую MedCalc вроде строит ( прикрепил в файлах пример построения в MedCalc - лекция В.П. Леонова по ROC-анализу и скриншоты, которые сделал сам). Хотя наверное это не совсем подходит для мультиномиальной логистич.регрессии, т.к. в ней зависимая переменная имеет более 2 значений- 0;1;2. Точно не знаю правильно ли, классифицирующ.переменная- зависимая (по крайней мере судя по Хелп-файлу выходит так) ? и что вводить в поле Select. Думаю, что кто-то подправит если что не так. Если переменных- предикторов больше 6 придется считать в другом пакете.

Можно строить ROC-кривую и в СПСС- сам не пробовал, подробно можно прочесть на этом сайте
или посмотреть в прикрепленных файлах (собственно сам принцип стал мне понятен после ознакомления с соответствующими главами книги Ахима Бююля и Петера Цефеля по СПСС (можно найти в сети, если надо могу скинуть по почте- она 12 мб весит, с сайта я скачал файлы-упражения и сохранил их в формате Excel, чтобы можно было анализировать и в других программах). Результаты и в СПСС и в MedCalc- одинаковы, но последняя весит меньше и практически не требует установки.

Прикрепленные файлы
Прикрепленный файл  roc_curv.rar ( 141,29 килобайт ) Кол-во скачиваний: 1252
Прикрепленный файл  SPSS_primer.rar ( 23,78 килобайт ) Кол-во скачиваний: 1065
Прикрепленный файл  ROC_analysis.pdf ( 816,89 килобайт ) Кол-во скачиваний: 2359
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.03.2010 - 05:11
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1073
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Сердечно благодарю ответивих за столь быстрые и исчерпывающие ответы!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 25.03.2010 - 09:56
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 1319
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Pyrosmani @ 25.03.2010 - 00:42) *
Хотя наверное это не совсем подходит для мультиномиальной логистич.регрессии, т.к. в ней зависимая переменная имеет более 2 значений- 0;1;2.

NCSS
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 25.03.2010 - 11:10
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(nokh @ 24.03.2010 - 22:32) *
По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам?
(2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения.

AtteStat, модуль "Распознавание образов", логистическая регрессия, ROC выводится, а в Справке подробно поясняется, что, как и зачем. Все это было сделано на благо пользователей только благодаря консультациям (на данном форуме) уважаемого плав.
Цитата(Pyrosmani @ 25.03.2010 - 01:42) *
... ROC-анализу и скриншоты, которые сделал сам). Хотя наверное это не совсем подходит для мультиномиальной логистич.регрессии, т.к. в ней зависимая переменная имеет более 2 значений- 0;1;2. ...

AtteStat, модуль "Распознавание образов". Регрессия Пуассона.

Сообщение отредактировал Игорь - 25.03.2010 - 17:56


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 24.04.2010 - 05:16
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



ROC анализ неоднократно обсуждался в различных темах. Однако понимание, что такое ROC, с непривычки может быть сложным. Проблема на самом деле - не проблема, если заучить, что такое ROC.

ROC - это не график одной [зависимой] величины от другой [независимой] величины. ROC - это так называемая параметрическая кривая, когда не X и Y зависят друг от друга, а оба зависят от некоторой независимой переменной. В ROC-анализе эта независимая переменная - порог отсечения. Меняя порог отсечения (от 0 до 1, или то же в %%, с некоторым фиксированным шагом), получают набор точек (X - чувствительность,Y - неспецифичность), которые и изображаются на графике. Поэтому число параметров в модели не имеет значения - хоть 1000. Исследуется разрешающая способность модели. А модель - бинарный классификатор (логит, пробит, нейронная сеть).
Цитата(Pyrosmani @ 25.03.2010 - 01:42) *
ROC-кривую MedCalc вроде строит ( прикрепил в файлах пример построения в MedCalc - лекция В.П. Леонова по ROC-анализу и скриншоты, которые сделал сам)

Не стал бы ссылаться на указанную лекцию. Вот только некоторые ошибки, замеченные в течение 5 минут просмотра (без анализа таблиц):
1. Слайд 15 - ROC - не Receiver Operator Characteristic (это даже по-английски безграмотно), а Receiver Operating Characteristic. Дословный перевод ROC обычно берется из радиотехники и здесь для русского уха не имеет никакого смысла. А вот перевод "ROC curve" как "кривая соотношений правильного и ложного обнаружения сигналов" - это звучит совершенно адекватно для медицинской диагностики, тем более для радиотехники.
2. Слайд 17 - предложенный метод построения ROC представляется сомнительным
3. Слайды 18, 26, 28, 30, 32, 38, 44 - ROC кривая никогда ни в каких точках не проходит ниже диагонали и не пересекает диагональ (в пределе ROC, совпадающая с диагональю, означает бесполезный классификатор, хуже бесполезного классификатора не бывает)

Данные ошибки показывают, что автор лекции недостаточно разобрался в теме. Уж тем более не может претендовать на роль эксперта. Автор лекции, естественно, пользовался некоторой программой (видимо, указанной в цитированном посте). Если бы он знал хотя бы то, что представлено в нашем 3-м замечании, то понял бы, что программа считает неверно. Потому использоваться не может.

Сообщение отредактировал Игорь - 25.04.2010 - 17:40


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 21.05.2010 - 10:12
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(Игорь @ 24.04.2010 - 06:16) *
Не стал бы ссылаться на указанную лекцию. Вот только некоторые ошибки, замеченные в течение 5 минут просмотра (без анализа таблиц):
1. Слайд 15 - ROC - не Receiver Operator Characteristic (это даже по-английски безграмотно), а Receiver Operating Characteristic. Дословный перевод ROC обычно берется из радиотехники и здесь для русского уха не имеет никакого смысла. А вот перевод "ROC curve" как "кривая соотношений правильного и ложного обнаружения сигналов" - это звучит совершенно адекватно для медицинской диагностики, тем более для радиотехники.


Что касается аббревиатуры ROC - не знаю чего больше в этом неправильно приведенном слове operator - пренебрежения английской грамматикой или невнимательности (практически везде в интернете и в литературе- operating). Почему практически везде?
Потому что оказывается, что вместе с В.П.Леоновым ошибаются О.Реброва (стр. 249) и создатели сайта BaseGroup.ru http://www.basegroup.ru/library/analysis/r...ssion/logistic/

Конечно профессионалу достачно и беглого взгляда на приведенные результаты, чтобы делать выводы относительно результатов исследования. Думаю, надо написать письмо проф. Леонову с просьбой выслать исходные данные, на основе которых были получены указанные в презентации результаты. Думаю, что он не откажет, по крайней мере хочется надеяться, что он следует тем требованиям, которые предъявляет к резензируемым- хранит данные по всем проведенным исследованиям не менее 5 лет и предъявляет их всем заинтересованным лицам.
Признаюсь, меня смутила сама постановка вопроса-не понял в чем состоит задача исследования, приведенного в примере. Каким образом
указанные предикторы влияют на полиморфизм гена? Было бы понятно если бы исследовалась связь тяжести течения заболевания и тех предикторов которые указаны.
Впрочем, презентация по сути - конспективное изложение материала, поэтому вполне возможно что задачи исследования были освещены автором в ходе лекции.

Сл.21 и 22 желательно использовать вместе- т.к. если вы привыкли к традиционной экспликации таблиц 2х2, использование формул, приведенных в слайде 22 (без учета изменений в экспликации) приведет к неправильным результатам.

Вывод к слайду 34 предвосхищает все последующие- проанализировано 4 признака (возраст, диаметр легочной артерии, давление в легочной артерии, индекс легочной артерии) на предмет "влияния на полиморфизм гена 774 СТ" при этом оказалось, что из 4 признаков лишь 2 с большим натягом дают площадь под кривой больше 0,6- это называется "некоторые" из проанализированных признаков (по автору).Причем один из этих 2 случаев сомнителен- возраст : AUC = 0,601. В то время как интервал AUC 0,5-0,6 говорит о плохом качестве модели, но то что интервалы перекрываются и те же 0,6 под AUC с равной степенью могут быть отнесены и к среднему и к неудовлетворительному качеству модели, видимо, обнадеживает В.П.

Удалось В.П. улучшить модель или нет - как говорится "история об этом умалчивает".

Цитата
Автор лекции, естественно, пользовался некоторой программой (видимо, указанной в цитированном посте). Если бы он знал хотя бы то, что представлено в нашем 3-м замечании, то понял бы, что программа считает неверно. Потому использоваться не может.


То что интерфейс программы, в которой В.П. выполнил расчеты, - интерфейс MedCalc не вызывает сомнений. У кого есть портативная версия 10.2.0.0 могут в этом убедиться. Не знаю какой версией пользовался В.П., но удивляют иероглифы вместо экспликации предикторов и зависимых переменных. Вводил данные на русском языке- все отображается без огрехов

(данные мои-просто переделал заголовки- поэтому не обращайте внимание на различия в значения параметров модели в оригинале у В.П. и на моем скриншоте), возможно таблица с данными была создана в другой программе и потом открыта в MedCalc- в любом случае эта абракадабра портит впечатление, кроме цифр 774 ничего не узнать. Впрочем уже на 45 слайде способность программы правильно воспроизводить кириллицу восстанавливается- чудеса да и только.

Не думаю что MedCalc считает неправильно, тут скорее проблема в данных, которые были отобраны наобум для иллюстрации конкретной задачи ( а именно логистической регресси и ROC - анализа ). Чтобы проверить правильность этого утверждения взял данные по прогнозу исхода у пациентов с заболеваниями легких (уже приводил на форуме) и посчитал в MedCalc результаты один к одному с теми, что указаны в руководстве по SPSS. NCSS для этой затеи не подойдет, потому что 7-дневный триал больше 100 наблюдений не обрабатывает.

Единственное что не до конца понятно - является ли ROC-анализ самостоятельным видом анализа или ему всегда должна предшествовать логистическая регрессия?


P.S. Нужна помощь: провел анализ зависимости частоты рестенозов от предикторов (бинарн.логистическая регрессия пошаговым методом) просьба отрецензировать (указав ошибки и недочеты, наверняка они есть). Если кто-нибудь из сведущих откликнется, буду рад.
Матрицу и расчеты(в MedCalc в файле Medcalc, Word, Excel 2003-2007 вышлю в личку). Экспертом не являюсь, поэтому прошу посильной помощи.




Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.05.2010 - 21:21
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 1073
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pyrosmani @ 21.05.2010 - 13:12) *
Не думаю что MedCalc считает неправильно, тут скорее проблема в данных, которые были отобраны наобум для иллюстрации конкретной задачи.

MedCalc, конечно, считает правильно. А вот поломанная китайцами MedCalc видимо выдаёт ерунду, т.к. просто невозможно подобрать данные, чтобы кривая уходила под диагональ. Вспоминаются страшилки 90-x, когда ходили слухи, что взломанные зарубежные (отечественных не было) статпакеты могут не отказаться работать совсем, а включать на каких-то этапах анализа генератор случайных чисел- типа такая изощрённая защита. Как бы то ни было, бесспорно одно: Акелла биометрики промахнулся по полной.
Цитата(Pyrosmani @ 21.05.2010 - 13:12) *
Единственное что не до конца понятно - является ли ROC-анализ самостоятельным видом анализа или ему всегда должна предшествовать логистическая регрессия?

ROC-анализ - самостоятельный анализ диагностической эффективности. Для случая количественного показателя, т.е. когда пороговое значение для отнесения наблюдения в первую или во вторую группу можно варьировать (для качественных признаков можно посчитать значения чувствительности и специфичности только в нескольких точках, например для бинарного признака - только в одной, а не во всём диапазоне значений как для количественного). В логистической регрессии ROC-кривая может быть построена в качестве дополнения к анализу - по количественному значению вероятности отнесения наблюдения в ту или иную группу, рассчитанному в ходе регрессионного анализа. При этом имеет значение только площадь под ROC-кривой - как интегральная мера диагностической эффективности. В случае же использования ROC-анализа как самостоятельной процедуры не меньшее значение имеет также выбор на её основе оптимального порогового значения для обеспечения наилучших показателей чувствительности и специфичности.
Цитата(Pyrosmani @ 21.05.2010 - 13:12) *
P.S. Нужна помощь: провел анализ зависимости частоты рестенозов от предикторов (бинарн.логистическая регрессия пошаговым методом) просьба отрецензировать (указав ошибки и недочеты, наверняка они есть). Если кто-нибудь из сведущих откликнется, буду рад.
Матрицу и расчеты(в MedCalc в файле Medcalc, Word, Excel 2003-2007 вышлю в личку). Экспертом не являюсь, поэтому прошу посильной помощи.

Тоже не эксперт по этому виду анализа, но "в теме", т.к. использовал. Могу посмотреть.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 27.05.2010 - 18:34
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(nokh @ 26.05.2010 - 22:21) *
Тоже не эксперт по этому виду анализа, но "в теме", т.к. использовал. Могу посмотреть.


Большое спасибо за то, что откликнулись и за помощь. Отправил Вам архив с файлами.

Сообщение отредактировал Pyrosmani - 28.05.2010 - 16:07


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 27.05.2010 - 20:50
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 1319
Регистрация: 27.11.2007
Пользователь №: 4573



Не могу понять, почему такая критика лекции В.П. Могу согласиться только с первым пунктом у Игоря, не точна англоязычная версия названия ROC. И китайские хакеры, я думаю, тоже не причем, программа считает верно, совпадает с AtteStat. В.П. иллюстрирует лекцию своими реальными данными, почему, собственно кривая не может уходить под диагональ? Теоретически, и практически может. Да, из таких данных не получаются диагностические тесты, специфичность будет ниже 50% в некоторых точках, но может быть важна 100% чувствительность.
Мне в этой лекции не понятно продолжение, использование логистической регрессии.

"... предикторы взаимосвязаны между собой. И в таком случае наблюдается мультипликативный эффект взаимодействия, когда влияние одного предиктора усиливается другим предиктором".

После чего, почему то, построена ROC кривая по значениям BETA. Впрочем, лекция не про это, а про основные понятия ROC. В прилагаемых данных пару цифр поменяла и ушла ниже диагонали.

a b
2,24 1
2,37 0
1,78 0
3,00 1
1,71 0
2,09 0
1,80 1
1,52 0
0,97 1
1,42 1
1,62 0
2,00 0
1,49 1
1,40 1
1,93 0
2,02 0
4,00 1
1,32 0
2,00 1
1,92 0
1,94 0

Сообщение отредактировал DrgLena - 27.05.2010 - 20:55
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 28.05.2010 - 12:30
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Возвращаясь к теме, зачем применяется ROC по результатам логистической регрессии, тут подробно: http://www.basegroup.ru/library/analysis/r...ssion/logistic/ с продолжением http://www.basegroup.ru/library/practice/l..._medic_scoring/. Так зачем? Во-первых, с помощью ROC можно обосновать выбор порога отсечения. Во-вторых, оценить качество бинарного классификатора.

Во второй из указанных статей используется массив медицинских данных из общедоступного источника. Я его (массив) нашел и скачал, потому прилагаю в виде тестового файла. Можно легко импортировать в Excel и посчитать в AtteStat.
Прикрепленные файлы
Прикрепленный файл  Data.txt ( 23,54 килобайт ) Кол-во скачиваний: 462
 


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pyrosmani
сообщение 28.05.2010 - 20:54
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 94
Регистрация: 6.02.2010
Из: Клайпеда
Пользователь №: 10967



Цитата(DrgLena @ 27.05.2010 - 21:50) *
И китайские хакеры, я думаю, тоже не причем, программа считает верно, совпадает с AtteStat. В.П. иллюстрирует лекцию своими реальными данными, почему, собственно кривая не может уходить под диагональ? Теоретически, и практически может.


Скорее всего проблема не в хакерах, в кодировке документа. Скопировал данные из файла про диабет и ввел в MedCalc, на выходе появились "квадратики"

Что касается приведенного файла по диабету смущают следующие факторы:

диастолическое артериальное давление- цифра 30 очень низкая,особенно для 26 летней женщины (126-ое наблюд.) про 0- вообще не говорю (или может не измеряли давление).Я вообще сначала думал,что указано пульсовое давление,
которое расчитывается как разница между САД и ДАД (норма 40-50 мм.рт.ст.).Посмотрел на Basegroup - нет диастолическое.


Что касается результатов- в MedCalc методом Stepwise для 4 из 5 включенных в уравнение логистической регрессии предикторов ОШ=1, при этом границы 95% доверительных интервалов для AD,Beremenn,Glucosae,index_massy_tela расположены вне интервала клинических значимостей (значения 95% ДИ для указ. предикторов по данным MedCalc 0,9до 1,2), выходит что указанные факторы не имеют клинического значения для прогноза сахарного диабета. Рекомендуемые значения 95% ДИ для ОШ <0,8 или > 1,2 (границы клинич.эффективности).
Методом Enter те же результаты.

В Аттестате значения p другие, просьба прокомментировать.

Расчеты прикрепил в файлах.


Прикрепленные файлы
Прикрепленный файл  диабет.rar ( 232,8 килобайт ) Кол-во скачиваний: 410
 


Signature
Cogito ergo sum
Nemo omnia potest scire
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 28.05.2010 - 22:36
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 1319
Регистрация: 27.11.2007
Пользователь №: 4573



Качество данных, можно не обсуждать, а принять их как тестовый файл.
Игорь привел ссылку на лекцию, по которой видимо, учился и В.П. поскольку, и у него в лекции тоже сразу после коэффициентов регрессии выдается ROC кривая, без объяснения, на основании чего она может быть построена. Может, это такой специальный прием, после нашей лекции обращайтесь к нам, если не догоняете. А если догоняете, то сломаете себе голову, пытаясь понять, почему подпись ВЕТА над ROC кривой. По умолчанию MedCalc выдает имя переменной, которая тестируется ROC кривой и это LGREGR_Pred.

Далее, Игорь отвечает на свой вопрос, зачем применяется ROC, но не после логистической регрессии. Можно дополнить этот ответ. Например, если у нас есть данные только по глюкозе, то по данным, которые мы обсуждаем, можно сделать вывод, что если глюкоза выше 123, то с вероятностью 70% (чувствительность) диагностируется диабет (ROC площадь=0,788 и это есть выражение качества предиктора разделяющего два состояния). Другой предиктор, наследственность, имеет классификационные возможности ниже ROC=0,61, причем выбор точки разделения не влияет на площадь. Порог обосновывается также вне связи с площадью, а на основании анализа соотношений чувствительности и специфичности и необязательно она должна быть на пересечении чувствительности и специфичности, как указано на рисунке.

Бинарная логистическая регрессия, мультивариантная, на выходе дает значение вероятности прогнозируемого события по множеству признаков. Например, у первого пациента в обсуждаемых данных р=0,72, а у второго только 0,049. Как правило, по результатам логистической регрессии, если расчетная вероятность выше, 0,50, то у больного диагностируют заболевание, а если меньше ? отсутствие заболевания.
Т.о. по данным логистической регрессии (и использованием всех 8 предикторов, как представлено на сайте, а не только значимых) расчетная вероятность диабета находится в диапазоне от 0,00196 (?76) до 0,9926 (?446). Если бы точка разделения была 0,50, то ошибочно классифицированных было бы (112+55), а число диагностированных с помощью модели диабетов было бы 58,2% (ч.), при значительно более высокой специфичности 89%. Анализ ч. и с., которые мы имеем в модуле ROC позволяет сдвинуть точку разделения в сторону более низкой расчетной вероятности. Точка 0,3532 для расчетной вероятности оптимальна, она повышает чувствительность (до 73,88%) и снижает специфичность (до 78,4%), при этом ошибками будут 70+108. Общая характеристика теста основанного на 8 предикторах ROC площадь=0,839.
Может быть я тоже туманно объяснила, зачем ROC после логистической регрессии. Но можно обсудить и другую ситуацию, когда претестовая вероятность диабета не будет 34,9% как в этом примере, тогда и точка разделения 0,50 подойдет?
Теперь относительно того, где считать этот пример. В Attestat логистическая регрессия по 8 предикторам выдается без свободного члена.
В MedCalc полное совпадение с результатами на сайте.

Variable Coefficient
Беременность 0,1232
Глюкоза 0,03516
АД -0,0133
Толщина_КС 0,000619
Инсулин -0,001192
ИМТ 0,0897
Наследственность 0,9452
Возраст 0,01487
Constant -8,4047

Естественно, что ROC по результатам логистической регрессии также не совпадет, ни по площади (в AtteStat 0,68, в MedCalc 0,839), ни по оптимальной точке разделения (0,35 в MedCalc и 0,37 в AtteStat).

В MedCalc
Area under the ROC curve (AUC) 0,839
Standard error 0,0163
95% Confidence interval 0,812 to 0,865
Significance level P (Area=0.5) 0,0001

В AtteStat
Площадь под ROC кривой
0,686298507
Оптимальный порог отсечения (метод 1)
0,37
Чувствительность, %
67,53731343
Специфичность, %
64,4

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 28.05.2010 - 23:07
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1073
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DrgLena @ 27.05.2010 - 23:50) *
В.П. иллюстрирует лекцию своими реальными данными, почему, собственно кривая не может уходить под диагональ? Теоретически, и практически может.

Хм. Пока не посчитал Ваш пример думал не может. Выходит ошибался, беру свои слова про Акелу обратно. Но пример неудачный, я за последние года полтора строил и помогал строить ROC-кривые больше десятка раз и ни разу они не уходили под диагональ.
Цитата(DrgLena @ 29.05.2010 - 01:36) *
Теперь относительно того, где считать этот пример. В Attestat логистическая регрессия по 8 предикторам выдается без свободного члена.
В MedCalc полное совпадение с результатами на сайте.

Для того чтобы выдавался свободный член, нужно набить ещё один столбец, заполненный одинаковым числом, и включить его в область анализа. Интуитивно это совсем непонятно, но описано в помощи к AtteStat. Когда тестировал этот модуль таким способом было полное совпадение с MedCalc, а десятичных знаков даже больше.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему