Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Оценка качества построения модели
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
ubsu
Добрый день!
Прошу помощи!
Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель.

А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение?
TheThing
Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки. Например, в генетических исследованиях Jason Moore (http://compgen.blogspot.com/) - прекрасный биоинформатик говорит, что его начинает "привлекать" модель, коэфф. конкордации которой составляет 62-65%. Я использую эту величину как нижнюю пороговую границу в своей работе.

Например, для AUC (Area under the curve) в литературе приведены диапазоны, хотя как по мне - это все условно. В любом случае, исследователь должен самостоятельно решить этот вопрос - стоит ли анализ скажем 20 факторов риска построенной прогностической модели?
p2004r
Цитата(ubsu @ 30.10.2012 - 20:50) *
Добрый день!
Прошу помощи!
Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель.

А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение?


1) Имеет смысл говорить о точности классификации только в терминах ROC. Для конкретной ситуации если сразу модель строиться, то её по partialAUC тоже сразу и оптимизировать.

2) Оптимальный пороговый уровень считать с учетом соотношения цены ошибок первого и второго рода и реальной частоты случаев в популяции в которой будет применяться построенный классификатор. И посчитав смотреть достаточно ли качество.
p2004r
Цитата(TheThing @ 31.10.2012 - 10:29) *
Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки.


надо четко оговариваться что речь идет о случае когда частоты классов в популяции равны

легко посчитать два случая

Код
### частоты классов "1" и "2" равны
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.5
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.38
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.58
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56

### частоты классов соотносятся как 1 к 10
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.14
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.16
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.08
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.06
ubsu
Спасибо большое за ответы! Очень помогли!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.