Здравствуйте, гость ( Вход | Регистрация )
2.08.2012 - 14:20
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 2.08.2012 Пользователь №: 24035 |
Здравствуйте!
Есть задача определить диагностическую ценность ряда маркеров (допустим, А, В и С) и их комбинаций в диагностике некоторого заболевания. Я расчитал все параметры (чувствительность, специфичность, PPV, NPV, LR) и построил в SPSS ROC-кривые отдельно для А, В и С. Как теперь сделать то же самое для комбинаций этих маркеров, допустим, А+В и В+С? Где копать? Заранее огромное спасибо! |
|
|
![]() |
![]() |
![]() |
5.08.2012 - 15:37
Сообщение
#2
|
||
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Решил сделать рэндом форест, а также построить простое CART, чтобы понять почему результаты расходятся с логистической регрессией и с результатами p2004r. Как выяснилось, все со всем сходится
Сначала рендом форест с 3 исходными предикторами: randomForest(formula = Group ~ ., data = crs$dataset[, c(crs$input, crs$target)], ntree = 500, mtry = 1, importance = TRUE, replace = FALSE, na.action = na.roughfix) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 1 OOB estimate of error rate: 27.78% Confusion matrix: alive dead class.error alive 30 9 0.2307692 dead 11 22 0.3333333 Analysis of the Area Under the Curve (AUC) ========================================== Call: roc.default(response = crs$rf$y, predictor = crs$rf$votes) Data: crs$rf$votes in 39 controls (crs$rf$y alive) > 33 cases (crs$rf$y dead). Area under the curve: 0.7584 95% CI: 0.6462-0.8706 (DeLong) Variable Importance =================== alive dead MeanDecreaseAccuracy C 2.87 3.59 2.67 B 1.90 3.03 2.14 A 1.89 1.65 1.59 Ошибка OOB составляет 27,78%, что в принципе говорит, что модель неплохая (AUC = 75%)/ На первом месте по важности предикторов выступает фактор С, затем В и лишь в конце болтается А. Решил убрать фактор А из модели и посмотреть насколько изменится классификационная способность. Вот что получилось: OOB estimate of error rate: 31.94% Confusion matrix: alive dead class.error alive 28 11 0.2820513 dead 12 21 0.3636364 Analysis of the Area Under the Curve (AUC) ========================================== Call: roc.default(response = crs$rf$y, predictor = crs$rf$votes) Data: crs$rf$votes in 39 controls (crs$rf$y alive) > 33 cases (crs$rf$y dead). Area under the curve: 0.7599 95% CI: 0.6499-0.8699 (DeLong) Variable Importance =================== alive dead MeanDecreaseAccuracy C 3.51 4.77 3.26 B 1.69 3.40 2.24 Видим, что OOB увеличилась на пару процентов, а AUC остался прежним, фактор С опять на 1 месте по важности. Поэтому я бы предиктор А вообще-бы не включал в модель, а рассматривал его как ненужный "шум". Затем построил простое CART и получил результат, который полностью совпал с методом опорных векторов (svm) в подсчетах p2004r, логистической регрессией и random forest. Хорошо то, что хорошо заканчивается |
|
|
|
![]() |
![]() |
5.08.2012 - 15:56
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
и все таки, после применения правила С>25, остается смесь из 62 случаев, которую svm пилит с вероятностью ошибки (5+6)/(19+5+6+32) ~ 0.1774194
у выживших разброс в двумерном распределении C - log(B) больше чем у летальных исходов. Сообщение отредактировал p2004r - 5.08.2012 - 15:57 ![]() |
|
|
![]() |
![]() |
5.08.2012 - 16:40
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Кстати, вот хорошая статья, где проводился сравнительный анализ support vector machines, logistic regression, random forest, CART, neural netss, boosted trees, bagged trees, naive Bayes и др. Согласно результатам, на первом месте - бустид-деревья, второе - рэндом форест, третье - опорные вектора.
empirical.icml06.pdf ( 124,37 килобайт )
Кол-во скачиваний: 404Сообщение отредактировал TheThing - 5.08.2012 - 16:41 |
|
|
![]() |
![]() |
5.08.2012 - 19:05
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Согласно результатам, на первом месте - бустид-деревья, второе - рэндом форест, третье - опорные вектора. Спасибо! для интерполяции (ну и вырезания "хитрых областей", например "вложенная спираль" или вообще структурные данные типа языковых конструкций) svm хорош, правда надо вид ядра подбирать и за регуляризацией следить что бы экстраполяция не страдала. ![]() |
|
|
![]() |
![]() |
Zaycho Определение чувствительности и специфичности комбинации маркеров 2.08.2012 - 14:20
p2004r Цитата(Zaycho @ 2.08.2012 - 14:20) З... 2.08.2012 - 14:24
Zaycho Цитата(p2004r @ 2.08.2012 - 15:24) м... 2.08.2012 - 14:37
p2004r Цитата(Zaycho @ 2.08.2012 - 14:37) B... 2.08.2012 - 19:38
Zaycho А можно я все-таки покажу исходные данные?
А, В и ... 2.08.2012 - 21:55
p2004r Цитата(Zaycho @ 2.08.2012 - 21:55) А... 3.08.2012 - 12:04
Zaycho Огромное спасибо за разъяснения! А можете тепе... 3.08.2012 - 14:27
p2004r Цитата(Zaycho @ 3.08.2012 - 14:27) О... 3.08.2012 - 14:59
Zaycho Глубокоуважаемый p2004r, правильно ли я понял, что... 3.08.2012 - 16:05
p2004r Цитата(Zaycho @ 3.08.2012 - 16:05) Г... 3.08.2012 - 16:30
Zaycho Я вконец запутался. А,В и С - это параметры, не вл... 3.08.2012 - 16:38
p2004r Цитата(Zaycho @ 3.08.2012 - 16:38) Я... 3.08.2012 - 19:29
TheThing Цитата(Zaycho @ 2.08.2012 - 14:20) З... 3.08.2012 - 08:55
TheThing Согласно моим расчетам лишь фактор С (тяжесть сост... 3.08.2012 - 20:07
p2004r Цитата(TheThing @ 3.08.2012 - 20:07)... 3.08.2012 - 21:12
TheThing значит логистическая регрессия и рэндом форест даю... 3.08.2012 - 21:22
p2004r Цитата(TheThing @ 3.08.2012 - 21:22)... 3.08.2012 - 21:48
DrgLena А если не лес строить, а одно дерево, то при одном... 3.08.2012 - 23:56
p2004r Цитата(DrgLena @ 3.08.2012 - 23:56) ... 4.08.2012 - 10:42
p2004r собственно да, svm получше выделяет
Код> mode... 4.08.2012 - 11:18
p2004r линеаризирующее преобразование (!после отрезан... 4.08.2012 - 11:41
Zaycho Коллеги, а если вернуться к посту #14, то как опре... 5.08.2012 - 11:23
p2004r Цитата(Zaycho @ 5.08.2012 - 11:23) К... 5.08.2012 - 12:55
Zaycho Да, я и не предполагал, что задача окажется не так... 4.08.2012 - 09:39
Диана Раз зашла речь про ROC-анализ в программе SPSS под... 16.08.2012 - 09:25
TheThing Цитата(Диана @ 16.08.2012 - 09:25) Р... 16.08.2012 - 15:38
Диана Цитата(TheThing @ 16.08.2012 - 16:38... 16.08.2012 - 20:10
p2004r Цитата(Диана @ 16.08.2012 - 20:10) С... 16.08.2012 - 21:53
TheThing Цитата(Диана @ 16.08.2012 - 20:10) С... 16.08.2012 - 22:34
Диана КФР-контролируемый фактор риска, НФР-неконтролируе... 17.08.2012 - 09:02
p2004r Цитата(Диана @ 17.08.2012 - 09:02) К... 17.08.2012 - 15:28
Диана я немножко сократила таблицу, убрала малоинтересую... 17.08.2012 - 18:05
p2004r Цитата(Диана @ 17.08.2012 - 18:05) я... 17.08.2012 - 22:26
Диана Факторы риска:
2
3
5 ... 18.08.2012 - 08:58
p2004r Цитата(Диана @ 18.08.2012 - 08:58) Ф... 18.08.2012 - 13:18
Диана спасибо за помощь. колонки 44-46 не имеют влияние... 18.08.2012 - 20:57
p2004r Цитата(Диана @ 18.08.2012 - 20:57) с... 18.08.2012 - 22:37
Диана колонки 44А 45А 46А были перекодированные колонки ... 19.08.2012 - 09:21
Диана Подскажите кто знает: возможно ли удалить выложенн... 26.08.2012 - 08:57
Диана ничего не получается, от проводимого лечения нет д... 26.08.2012 - 08:59
p2004r Цитата(Диана @ 26.08.2012 - 08:59) н... 27.08.2012 - 15:12
Диана Цитата(p2004r @ 27.08.2012 - 16:12) ... 27.08.2012 - 16:58
p2004r Цитата(Диана @ 27.08.2012 - 16:58) з... 27.08.2012 - 17:14
Диана 2) "влияет ли тип операции на снижение частот... 27.08.2012 - 17:42
Диана Хорошо, 13 колонка делит пациентов на 3 группы. Ле... 27.08.2012 - 17:25
Диана 1) влияет ли снижение ЧСС до операции на снижение ... 27.08.2012 - 17:29
p2004r Цитата(Диана @ 27.08.2012 - 17:29) 1... 27.08.2012 - 22:24
Диана супер, в мозаичных графиках данные очень наглядно ... 28.08.2012 - 09:02
p2004r Цитата(Диана @ 28.08.2012 - 09:02) с... 28.08.2012 - 12:07
Диана у меня есть данные факторного анализа, но, как сей... 28.08.2012 - 13:46
p2004r Цитата(Диана @ 28.08.2012 - 13:46) у... 28.08.2012 - 19:54
Диана RE: Определение чувствительности и специфичности комбинации маркеров 28.08.2012 - 21:10
p2004r Цитата(Диана @ 28.08.2012 - 21:10)
... 31.08.2012 - 16:49
Диана фактически группы две - 1 и 3, вторая размазана ме... 1.09.2012 - 22:22
Диана не могу разобраться с 3 графиком, какой то он слож... 1.09.2012 - 22:26
p2004r Цитата(Диана @ 1.09.2012 - 22:26) н... 3.09.2012 - 18:18
p2004r Для новых данных надо заново номера переменных соб... 7.09.2012 - 20:00
p2004r Цитата(p2004r @ 7.09.2012 - 20:00) Д... 10.09.2012 - 11:33
Диана ГБ : int 3 3 3 3 3 3 3 3 3 3 .... 10.09.2012 - 21:47![]() ![]() |