Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Оценка качества построения модели
ubsu
сообщение 30.10.2012 - 20:50
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 30.10.2012
Пользователь №: 24329



Добрый день!
Прошу помощи!
Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель.

А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 31.10.2012 - 10:29
Сообщение #2





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки. Например, в генетических исследованиях Jason Moore (http://compgen.blogspot.com/) - прекрасный биоинформатик говорит, что его начинает "привлекать" модель, коэфф. конкордации которой составляет 62-65%. Я использую эту величину как нижнюю пороговую границу в своей работе.

Например, для AUC (Area under the curve) в литературе приведены диапазоны, хотя как по мне - это все условно. В любом случае, исследователь должен самостоятельно решить этот вопрос - стоит ли анализ скажем 20 факторов риска построенной прогностической модели?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 31.10.2012 - 14:09
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(ubsu @ 30.10.2012 - 20:50) *
Добрый день!
Прошу помощи!
Одним из критериев оценки качества построенной модели является такой показатель как "Процент правильной классификации". Чем выше процент - тем лучше модель.

А какой процент является пограничным? После которого мы можем говорить о применимости данной модели для данной классификации? Как вычислить это пороговое значение?


1) Имеет смысл говорить о точности классификации только в терминах ROC. Для конкретной ситуации если сразу модель строиться, то её по partialAUC тоже сразу и оптимизировать.

2) Оптимальный пороговый уровень считать с учетом соотношения цены ошибок первого и второго рода и реальной частоты случаев в популяции в которой будет применяться построенный классификатор. И посчитав смотреть достаточно ли качество.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 31.10.2012 - 14:18
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(TheThing @ 31.10.2012 - 10:29) *
Понятно, что если процент правильной классификации составляет 50%, получается, что прогностическая ценность модели равняется подбрасыванию монетки.


надо четко оговариваться что речь идет о случае когда частоты классов в популяции равны

легко посчитать два случая

Код
### частоты классов "1" и "2" равны
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.5
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.38
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.58
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56
> sum(sample(c(rep(1, 100),rep(0,100)), 50))/50
[1] 0.56

### частоты классов соотносятся как 1 к 10
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.14
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.16
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.08
> sum(sample(c(rep(1, 100),rep(0,1000)), 50))/50
[1] 0.06


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ubsu
сообщение 31.10.2012 - 19:42
Сообщение #5





Группа: Пользователи
Сообщений: 2
Регистрация: 30.10.2012
Пользователь №: 24329



Спасибо большое за ответы! Очень помогли!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему