Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Определение чувствительности и специфичности комбинации маркеров
Zaycho
сообщение 2.08.2012 - 14:20
Сообщение #1





Группа: Пользователи
Сообщений: 10
Регистрация: 2.08.2012
Пользователь №: 24035



Здравствуйте!

Есть задача определить диагностическую ценность ряда маркеров (допустим, А, В и С) и их комбинаций в диагностике некоторого заболевания.
Я расчитал все параметры (чувствительность, специфичность, PPV, NPV, LR) и построил в SPSS ROC-кривые отдельно для А, В и С.
Как теперь сделать то же самое для комбинаций этих маркеров, допустим, А+В и В+С? Где копать?

Заранее огромное спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
TheThing
сообщение 5.08.2012 - 15:37
Сообщение #2





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Решил сделать рэндом форест, а также построить простое CART, чтобы понять почему результаты расходятся с логистической регрессией и с результатами p2004r. Как выяснилось, все со всем сходится smile.gif

Сначала рендом форест с 3 исходными предикторами:

randomForest(formula = Group ~ .,
data = crs$dataset[, c(crs$input, crs$target)],
ntree = 500, mtry = 1, importance = TRUE, replace = FALSE, na.action = na.roughfix)

Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 1

OOB estimate of error rate: 27.78%
Confusion matrix:
alive dead class.error
alive 30 9 0.2307692
dead 11 22 0.3333333

Analysis of the Area Under the Curve (AUC)
==========================================

Call:
roc.default(response = crs$rf$y, predictor = crs$rf$votes)

Data: crs$rf$votes in 39 controls (crs$rf$y alive) > 33 cases (crs$rf$y dead).
Area under the curve: 0.7584

95% CI: 0.6462-0.8706 (DeLong)

Variable Importance
===================

alive dead MeanDecreaseAccuracy
C 2.87 3.59 2.67
B 1.90 3.03 2.14
A 1.89 1.65 1.59

Ошибка OOB составляет 27,78%, что в принципе говорит, что модель неплохая (AUC = 75%)/ На первом месте по важности предикторов выступает фактор С, затем В и лишь в конце болтается А.

Решил убрать фактор А из модели и посмотреть насколько изменится классификационная способность. Вот что получилось:

OOB estimate of error rate: 31.94%
Confusion matrix:
alive dead class.error
alive 28 11 0.2820513
dead 12 21 0.3636364

Analysis of the Area Under the Curve (AUC)
==========================================

Call:
roc.default(response = crs$rf$y, predictor = crs$rf$votes)

Data: crs$rf$votes in 39 controls (crs$rf$y alive) > 33 cases (crs$rf$y dead).
Area under the curve: 0.7599

95% CI: 0.6499-0.8699 (DeLong)

Variable Importance
===================

alive dead MeanDecreaseAccuracy
C 3.51 4.77 3.26
B 1.69 3.40 2.24

Видим, что OOB увеличилась на пару процентов, а AUC остался прежним, фактор С опять на 1 месте по важности. Поэтому я бы предиктор А вообще-бы не включал в модель, а рассматривал его как ненужный "шум".

Затем построил простое CART и получил результат, который полностью совпал с методом опорных векторов (svm) в подсчетах p2004r, логистической регрессией и random forest.

Хорошо то, что хорошо заканчивается laugh.gif

Прикрепленное изображение


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 5.08.2012 - 15:56
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



и все таки, после применения правила С>25, остается смесь из 62 случаев, которую svm пилит с вероятностью ошибки (5+6)/(19+5+6+32) ~ 0.1774194

у выживших разброс в двумерном распределении C - log(B) больше чем у летальных исходов.

Сообщение отредактировал p2004r - 5.08.2012 - 15:57


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Zaycho   Определение чувствительности и специфичности комбинации маркеров   2.08.2012 - 14:20
- - p2004r   Цитата(Zaycho @ 2.08.2012 - 14:20) З...   2.08.2012 - 14:24
|- - Zaycho   Цитата(p2004r @ 2.08.2012 - 15:24) м...   2.08.2012 - 14:37
|- - p2004r   Цитата(Zaycho @ 2.08.2012 - 14:37) B...   2.08.2012 - 19:38
|- - Zaycho   А можно я все-таки покажу исходные данные? А, В и ...   2.08.2012 - 21:55
|- - p2004r   Цитата(Zaycho @ 2.08.2012 - 21:55) А...   3.08.2012 - 12:04
|- - Zaycho   Огромное спасибо за разъяснения! А можете тепе...   3.08.2012 - 14:27
|- - p2004r   Цитата(Zaycho @ 3.08.2012 - 14:27) О...   3.08.2012 - 14:59
|- - Zaycho   Глубокоуважаемый p2004r, правильно ли я понял, что...   3.08.2012 - 16:05
|- - p2004r   Цитата(Zaycho @ 3.08.2012 - 16:05) Г...   3.08.2012 - 16:30
|- - Zaycho   Я вконец запутался. А,В и С - это параметры, не вл...   3.08.2012 - 16:38
|- - p2004r   Цитата(Zaycho @ 3.08.2012 - 16:38) Я...   3.08.2012 - 19:29
- - TheThing   Цитата(Zaycho @ 2.08.2012 - 14:20) З...   3.08.2012 - 08:55
- - TheThing   Согласно моим расчетам лишь фактор С (тяжесть сост...   3.08.2012 - 20:07
|- - p2004r   Цитата(TheThing @ 3.08.2012 - 20:07)...   3.08.2012 - 21:12
- - TheThing   значит логистическая регрессия и рэндом форест даю...   3.08.2012 - 21:22
|- - p2004r   Цитата(TheThing @ 3.08.2012 - 21:22)...   3.08.2012 - 21:48
- - DrgLena   А если не лес строить, а одно дерево, то при одном...   3.08.2012 - 23:56
|- - p2004r   Цитата(DrgLena @ 3.08.2012 - 23:56) ...   4.08.2012 - 10:42
|- - p2004r   собственно да, svm получше выделяет Код> mode...   4.08.2012 - 11:18
|- - p2004r   линеаризирующее преобразование (!после отрезан...   4.08.2012 - 11:41
|- - Zaycho   Коллеги, а если вернуться к посту #14, то как опре...   5.08.2012 - 11:23
|- - p2004r   Цитата(Zaycho @ 5.08.2012 - 11:23) К...   5.08.2012 - 12:55
- - Zaycho   Да, я и не предполагал, что задача окажется не так...   4.08.2012 - 09:39
- - TheThing   Решил сделать рэндом форест, а также построить про...   5.08.2012 - 15:37
|- - p2004r   и все таки, после применения правила С>25, оста...   5.08.2012 - 15:56
|- - TheThing   Кстати, вот хорошая статья, где проводился сравнит...   5.08.2012 - 16:40
|- - p2004r   Цитата(TheThing @ 5.08.2012 - 16:40)...   5.08.2012 - 19:05
- - Диана   Раз зашла речь про ROC-анализ в программе SPSS под...   16.08.2012 - 09:25
|- - TheThing   Цитата(Диана @ 16.08.2012 - 09:25) Р...   16.08.2012 - 15:38
|- - Диана   Цитата(TheThing @ 16.08.2012 - 16:38...   16.08.2012 - 20:10
|- - p2004r   Цитата(Диана @ 16.08.2012 - 20:10) С...   16.08.2012 - 21:53
|- - TheThing   Цитата(Диана @ 16.08.2012 - 20:10) С...   16.08.2012 - 22:34
- - Диана   КФР-контролируемый фактор риска, НФР-неконтролируе...   17.08.2012 - 09:02
|- - p2004r   Цитата(Диана @ 17.08.2012 - 09:02) К...   17.08.2012 - 15:28
- - Диана   я немножко сократила таблицу, убрала малоинтересую...   17.08.2012 - 18:05
|- - p2004r   Цитата(Диана @ 17.08.2012 - 18:05) я...   17.08.2012 - 22:26
- - Диана   Факторы риска: 2 3 5 ...   18.08.2012 - 08:58
|- - p2004r   Цитата(Диана @ 18.08.2012 - 08:58) Ф...   18.08.2012 - 13:18
- - Диана   спасибо за помощь. колонки 44-46 не имеют влияние...   18.08.2012 - 20:57
|- - p2004r   Цитата(Диана @ 18.08.2012 - 20:57) с...   18.08.2012 - 22:37
- - Диана   колонки 44А 45А 46А были перекодированные колонки ...   19.08.2012 - 09:21
- - Диана   Подскажите кто знает: возможно ли удалить выложенн...   26.08.2012 - 08:57
- - Диана   ничего не получается, от проводимого лечения нет д...   26.08.2012 - 08:59
|- - p2004r   Цитата(Диана @ 26.08.2012 - 08:59) н...   27.08.2012 - 15:12
|- - Диана   Цитата(p2004r @ 27.08.2012 - 16:12) ...   27.08.2012 - 16:58
|- - p2004r   Цитата(Диана @ 27.08.2012 - 16:58) з...   27.08.2012 - 17:14
|- - Диана   2) "влияет ли тип операции на снижение частот...   27.08.2012 - 17:42
- - Диана   Хорошо, 13 колонка делит пациентов на 3 группы. Ле...   27.08.2012 - 17:25
- - Диана   1) влияет ли снижение ЧСС до операции на снижение ...   27.08.2012 - 17:29
|- - p2004r   Цитата(Диана @ 27.08.2012 - 17:29) 1...   27.08.2012 - 22:24
- - Диана   супер, в мозаичных графиках данные очень наглядно ...   28.08.2012 - 09:02
|- - p2004r   Цитата(Диана @ 28.08.2012 - 09:02) с...   28.08.2012 - 12:07
- - Диана   у меня есть данные факторного анализа, но, как сей...   28.08.2012 - 13:46
|- - p2004r   Цитата(Диана @ 28.08.2012 - 13:46) у...   28.08.2012 - 19:54
- - Диана   RE: Определение чувствительности и специфичности комбинации маркеров   28.08.2012 - 21:10
|- - p2004r   Цитата(Диана @ 28.08.2012 - 21:10) ...   31.08.2012 - 16:49
|- - Диана   фактически группы две - 1 и 3, вторая размазана ме...   1.09.2012 - 22:22
- - Диана   не могу разобраться с 3 графиком, какой то он слож...   1.09.2012 - 22:26
|- - p2004r   Цитата(Диана @ 1.09.2012 - 22:26) н...   3.09.2012 - 18:18
- - p2004r   Для новых данных надо заново номера переменных соб...   7.09.2012 - 20:00
|- - p2004r   Цитата(p2004r @ 7.09.2012 - 20:00) Д...   10.09.2012 - 11:33
- - Диана   ГБ : int 3 3 3 3 3 3 3 3 3 3 ....   10.09.2012 - 21:47


Добавить ответ в эту темуОткрыть тему