Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Верно классифицированные при несбалансированной выборке
Andy69
сообщение 14.12.2012 - 02:10
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 13.12.2012
Пользователь №: 24459



Использовал логистическую регрессию для прогноза возможного статуса клиента в будущем. В реальности миноритарная категория составляет не более 2-3%, поэтому выборка перед обучением была сбалансирована 50%-50%. После обучения общий % верно классифицированных случаев составил 79%. Допустим модель по всем характеристикам пригодна для прогнозирования, проверена на контрольной, проверена на аналогичных данных других периодов. Вопрос такой, на реальных данных, когда уровень пенетрации прогнозной категории составляет 2-3% можно ли достичь уровня верно классифицированных случаев, который был при обучении ( 75%)? И если нет, то каким этот уровень должен быть и как его определять? Объясните, пожалуйста, кто сталкивался с таким вопросом.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.12.2012 - 10:05
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Andy69 @ 14.12.2012 - 02:10) *
Использовал логистическую регрессию для прогноза возможного статуса клиента в будущем. В реальности миноритарная категория составляет не более 2-3%, поэтому выборка перед обучением была сбалансирована 50%-50%. После обучения общий % верно классифицированных случаев составил 79%. Допустим модель по всем характеристикам пригодна для прогнозирования, проверена на контрольной, проверена на аналогичных данных других периодов. Вопрос такой, на реальных данных, когда уровень пенетрации прогнозной категории составляет 2-3% можно ли достичь уровня верно классифицированных случаев, который был при обучении ( 75%)? И если нет, то каким этот уровень должен быть и как его определять? Объясните, пожалуйста, кто сталкивался с таким вопросом.


Оценить свою конкретную модель легко, взяв не общую ошибку, а ошибки первого и второго рода (тут висит ссылка на видео рассказ об этом).

Но устраивая "закат солнца вручную" Вы все равно не посчитаете оптимальный уровень принятия решения. Вам нужно провести анализ ROC и рассчитать оптимальное решение для частоты случаев в популяции (еще можно и оптимизировать по "стоимости" ошибок первого и второго рода).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Andy69
сообщение 14.12.2012 - 10:41
Сообщение #3





Группа: Пользователи
Сообщений: 2
Регистрация: 13.12.2012
Пользователь №: 24459



Спасибо за ответ, буду разбираться. Не могу только ссылку вашу найти.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.12.2012 - 10:47
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Andy69 @ 14.12.2012 - 10:41) *
Спасибо за ответ, буду разбираться. Не могу только ссылку вашу найти.


http://www.youtube.com/watch?v=D8VZqxcu0I0


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему