Форум врачей-аспирантов > Оценка качества построения модели

Помощь - Поиск - Пользователи - Календарь

Полная версия этой страницы: Оценка качества построения модели

Форум врачей-аспирантов > Разделы форума > Медицинская статистика

ubsu

30.10.2012 - 20:50

Добрый день!
Прошу помощи!
Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель.

А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение?

TheThing

31.10.2012 - 10:29

Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки. Например, в генетических исследованиях Jason Moore (http://compgen.blogspot.com/) - прекрасный биоинформатик говорит, что его начинает "привлекать" модель, коэфф. конкордации которой составляет 62-65%. Я использую эту величину как нижнюю пороговую границу в своей работе.

Например, для AUC (Area under the curve) в литературе приведены диапазоны, хотя как по мне - это все условно. В любом случае, исследователь должен самостоятельно решить этот вопрос - стоит ли анализ скажем 20 факторов риска построенной прогностической модели?

p2004r

31.10.2012 - 14:09

Цитата(ubsu @ 30.10.2012 - 20:50)

1) Имеет смысл говорить о точности классификации только в терминах ROC. Для конкретной ситуации если сразу модель строиться, то её по partialAUC тоже сразу и оптимизировать.

2) Оптимальный пороговый уровень считать с учетом соотношения цены ошибок первого и второго рода и реальной частоты случаев в популяции в которой будет применяться построенный классификатор. И посчитав смотреть достаточно ли качество.

p2004r

31.10.2012 - 14:18

Цитата(TheThing @ 31.10.2012 - 10:29)

Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки.

надо четко оговариваться что речь идет о случае когда частоты классов в популяции равны

легко посчитать два случая

Код

### частоты классов "1" и "2" равны
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.5
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.38
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.58
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56

### частоты классов соотносятся как 1 к 10
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.14
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.16
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.08
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.06

ubsu

31.10.2012 - 19:42

Спасибо большое за ответы! Очень помогли!

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.