![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
По результатам множественной логистической регрессии программа MedCalc наряду её параметрами и отношениями шансов выдаёт также площадь под характеристической кривой. Когда признак один - всё ясно. Но
(1) Не вполне понятен механизм расчёта чувствительности и специфичности когда в уравнении, например, 5-10 параметров. Неужто алгоритм перебирает все возможные варианты, а кривую строит по наиболее отдалённым от диагонали точкам? (2) программа MedCalc саму кривую не строит, может кто знает в каком пакете по результатам множественной логистической регрессии строится график ROC-кривой или хотя бы рассчитываются точки для её построения. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
ROC анализ неоднократно обсуждался в различных темах. Однако понимание, что такое ROC, с непривычки может быть сложным. Проблема на самом деле - не проблема, если заучить, что такое ROC.
ROC - это не график одной [зависимой] величины от другой [независимой] величины. ROC - это так называемая параметрическая кривая, когда не X и Y зависят друг от друга, а оба зависят от некоторой независимой переменной. В ROC-анализе эта независимая переменная - порог отсечения. Меняя порог отсечения (от 0 до 1, или то же в %%, с некоторым фиксированным шагом), получают набор точек (X - чувствительность,Y - неспецифичность), которые и изображаются на графике. Поэтому число параметров в модели не имеет значения - хоть 1000. Исследуется разрешающая способность модели. А модель - бинарный классификатор (логит, пробит, нейронная сеть). ROC-кривую MedCalc вроде строит ( прикрепил в файлах пример построения в MedCalc - лекция В.П. Леонова по ROC-анализу и скриншоты, которые сделал сам) Не стал бы ссылаться на указанную лекцию. Вот только некоторые ошибки, замеченные в течение 5 минут просмотра (без анализа таблиц): 1. Слайд 15 - ROC - не Receiver Operator Characteristic (это даже по-английски безграмотно), а Receiver Operating Characteristic. Дословный перевод ROC обычно берется из радиотехники и здесь для русского уха не имеет никакого смысла. А вот перевод "ROC curve" как "кривая соотношений правильного и ложного обнаружения сигналов" - это звучит совершенно адекватно для медицинской диагностики, тем более для радиотехники. 2. Слайд 17 - предложенный метод построения ROC представляется сомнительным 3. Слайды 18, 26, 28, 30, 32, 38, 44 - ROC кривая никогда ни в каких точках не проходит ниже диагонали и не пересекает диагональ (в пределе ROC, совпадающая с диагональю, означает бесполезный классификатор, хуже бесполезного классификатора не бывает) Данные ошибки показывают, что автор лекции недостаточно разобрался в теме. Уж тем более не может претендовать на роль эксперта. Автор лекции, естественно, пользовался некоторой программой (видимо, указанной в цитированном посте). Если бы он знал хотя бы то, что представлено в нашем 3-м замечании, то понял бы, что программа считает неверно. Потому использоваться не может. Сообщение отредактировал Игорь - 25.04.2010 - 17:40 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 94 Регистрация: 6.02.2010 Из: Клайпеда Пользователь №: 10967 ![]() |
Не стал бы ссылаться на указанную лекцию. Вот только некоторые ошибки, замеченные в течение 5 минут просмотра (без анализа таблиц): 1. Слайд 15 - ROC - не Receiver Operator Characteristic (это даже по-английски безграмотно), а Receiver Operating Characteristic. Дословный перевод ROC обычно берется из радиотехники и здесь для русского уха не имеет никакого смысла. А вот перевод "ROC curve" как "кривая соотношений правильного и ложного обнаружения сигналов" - это звучит совершенно адекватно для медицинской диагностики, тем более для радиотехники. Что касается аббревиатуры ROC - не знаю чего больше в этом неправильно приведенном слове operator - пренебрежения английской грамматикой или невнимательности (практически везде в интернете и в литературе- operating). Почему практически везде? Потому что оказывается, что вместе с В.П.Леоновым ошибаются О.Реброва (стр. 249) и создатели сайта BaseGroup.ru http://www.basegroup.ru/library/analysis/r...ssion/logistic/ Конечно профессионалу достачно и беглого взгляда на приведенные результаты, чтобы делать выводы относительно результатов исследования. Думаю, надо написать письмо проф. Леонову с просьбой выслать исходные данные, на основе которых были получены указанные в презентации результаты. Думаю, что он не откажет, по крайней мере хочется надеяться, что он следует тем требованиям, которые предъявляет к резензируемым- хранит данные по всем проведенным исследованиям не менее 5 лет и предъявляет их всем заинтересованным лицам. Признаюсь, меня смутила сама постановка вопроса-не понял в чем состоит задача исследования, приведенного в примере. Каким образом указанные предикторы влияют на полиморфизм гена? Было бы понятно если бы исследовалась связь тяжести течения заболевания и тех предикторов которые указаны. Впрочем, презентация по сути - конспективное изложение материала, поэтому вполне возможно что задачи исследования были освещены автором в ходе лекции. Сл.21 и 22 желательно использовать вместе- т.к. если вы привыкли к традиционной экспликации таблиц 2х2, использование формул, приведенных в слайде 22 (без учета изменений в экспликации) приведет к неправильным результатам. Вывод к слайду 34 предвосхищает все последующие- проанализировано 4 признака (возраст, диаметр легочной артерии, давление в легочной артерии, индекс легочной артерии) на предмет "влияния на полиморфизм гена 774 СТ" при этом оказалось, что из 4 признаков лишь 2 с большим натягом дают площадь под кривой больше 0,6- это называется "некоторые" из проанализированных признаков (по автору).Причем один из этих 2 случаев сомнителен- возраст : AUC = 0,601. В то время как интервал AUC 0,5-0,6 говорит о плохом качестве модели, но то что интервалы перекрываются и те же 0,6 под AUC с равной степенью могут быть отнесены и к среднему и к неудовлетворительному качеству модели, видимо, обнадеживает В.П. Удалось В.П. улучшить модель или нет - как говорится "история об этом умалчивает". Цитата Автор лекции, естественно, пользовался некоторой программой (видимо, указанной в цитированном посте). Если бы он знал хотя бы то, что представлено в нашем 3-м замечании, то понял бы, что программа считает неверно. Потому использоваться не может. То что интерфейс программы, в которой В.П. выполнил расчеты, - интерфейс MedCalc не вызывает сомнений. У кого есть портативная версия 10.2.0.0 могут в этом убедиться. Не знаю какой версией пользовался В.П., но удивляют иероглифы вместо экспликации предикторов и зависимых переменных. Вводил данные на русском языке- все отображается без огрехов ![]() (данные мои-просто переделал заголовки- поэтому не обращайте внимание на различия в значения параметров модели в оригинале у В.П. и на моем скриншоте), возможно таблица с данными была создана в другой программе и потом открыта в MedCalc- в любом случае эта абракадабра портит впечатление, кроме цифр 774 ничего не узнать. Впрочем уже на 45 слайде способность программы правильно воспроизводить кириллицу восстанавливается- чудеса да и только. Не думаю что MedCalc считает неправильно, тут скорее проблема в данных, которые были отобраны наобум для иллюстрации конкретной задачи ( а именно логистической регресси и ROC - анализа ). Чтобы проверить правильность этого утверждения взял данные по прогнозу исхода у пациентов с заболеваниями легких (уже приводил на форуме) и посчитал в MedCalc результаты один к одному с теми, что указаны в руководстве по SPSS. NCSS для этой затеи не подойдет, потому что 7-дневный триал больше 100 наблюдений не обрабатывает. Единственное что не до конца понятно - является ли ROC-анализ самостоятельным видом анализа или ему всегда должна предшествовать логистическая регрессия? P.S. Нужна помощь: провел анализ зависимости частоты рестенозов от предикторов (бинарн.логистическая регрессия пошаговым методом) просьба отрецензировать (указав ошибки и недочеты, наверняка они есть). Если кто-нибудь из сведущих откликнется, буду рад. Матрицу и расчеты(в MedCalc в файле Medcalc, Word, Excel 2003-2007 вышлю в личку). Экспертом не являюсь, поэтому прошу посильной помощи. ![]() Cogito ergo sum
Nemo omnia potest scire |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Не думаю что MedCalc считает неправильно, тут скорее проблема в данных, которые были отобраны наобум для иллюстрации конкретной задачи. MedCalc, конечно, считает правильно. А вот поломанная китайцами MedCalc видимо выдаёт ерунду, т.к. просто невозможно подобрать данные, чтобы кривая уходила под диагональ. Вспоминаются страшилки 90-x, когда ходили слухи, что взломанные зарубежные (отечественных не было) статпакеты могут не отказаться работать совсем, а включать на каких-то этапах анализа генератор случайных чисел- типа такая изощрённая защита. Как бы то ни было, бесспорно одно: Акелла биометрики промахнулся по полной. Единственное что не до конца понятно - является ли ROC-анализ самостоятельным видом анализа или ему всегда должна предшествовать логистическая регрессия? ROC-анализ - самостоятельный анализ диагностической эффективности. Для случая количественного показателя, т.е. когда пороговое значение для отнесения наблюдения в первую или во вторую группу можно варьировать (для качественных признаков можно посчитать значения чувствительности и специфичности только в нескольких точках, например для бинарного признака - только в одной, а не во всём диапазоне значений как для количественного). В логистической регрессии ROC-кривая может быть построена в качестве дополнения к анализу - по количественному значению вероятности отнесения наблюдения в ту или иную группу, рассчитанному в ходе регрессионного анализа. При этом имеет значение только площадь под ROC-кривой - как интегральная мера диагностической эффективности. В случае же использования ROC-анализа как самостоятельной процедуры не меньшее значение имеет также выбор на её основе оптимального порогового значения для обеспечения наилучших показателей чувствительности и специфичности. P.S. Нужна помощь: провел анализ зависимости частоты рестенозов от предикторов (бинарн.логистическая регрессия пошаговым методом) просьба отрецензировать (указав ошибки и недочеты, наверняка они есть). Если кто-нибудь из сведущих откликнется, буду рад. Матрицу и расчеты(в MedCalc в файле Medcalc, Word, Excel 2003-2007 вышлю в личку). Экспертом не являюсь, поэтому прошу посильной помощи. Тоже не эксперт по этому виду анализа, но "в теме", т.к. использовал. Могу посмотреть. |
|
![]() |
![]() |
![]() ![]() |