![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 2 Регистрация: 30.10.2012 Пользователь №: 24329 ![]() |
Добрый день!
Прошу помощи! Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель. А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение? |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки. Например, в генетических исследованиях Jason Moore (http://compgen.blogspot.com/) - прекрасный биоинформатик говорит, что его начинает "привлекать" модель, коэфф. конкордации которой составляет 62-65%. Я использую эту величину как нижнюю пороговую границу в своей работе.
Например, для AUC (Area under the curve) в литературе приведены диапазоны, хотя как по мне - это все условно. В любом случае, исследователь должен самостоятельно решить этот вопрос - стоит ли анализ скажем 20 факторов риска построенной прогностической модели? |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Добрый день! Прошу помощи! Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель. А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение? 1) Имеет смысл говорить о точности классификации только в терминах ROC. Для конкретной ситуации если сразу модель строиться, то её по partialAUC тоже сразу и оптимизировать. 2) Оптимальный пороговый уровень считать с учетом соотношения цены ошибок первого и второго рода и реальной частоты случаев в популяции в которой будет применяться построенный классификатор. И посчитав смотреть достаточно ли качество. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки. надо четко оговариваться что речь идет о случае когда частоты классов в популяции равны легко посчитать два случая Код ### частоты классов "1" и "2" равны
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50 [1] 0.5 > sum(sample(c(rep(1, 100),rep(0,100)), 50))/50 [1] 0.38 > sum(sample(c(rep(1, 100),rep(0,100)), 50))/50 [1] 0.58 > sum(sample(c(rep(1, 100),rep(0,100)), 50))/50 [1] 0.56 > sum(sample(c(rep(1, 100),rep(0,100)), 50))/50 [1] 0.56 ### частоты классов соотносятся как 1 к 10 > sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50 [1] 0.14 > sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50 [1] 0.16 > sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50 [1] 0.08 > sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50 [1] 0.06 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 2 Регистрация: 30.10.2012 Пользователь №: 24329 ![]() |
Спасибо большое за ответы! Очень помогли!
|
|
![]() |
![]() |
![]() ![]() |