![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 4.05.2007 Пользователь №: 4082 ![]() |
Здравствуйте! Подскажите, пожалуйста, как, имея построенную модель логистической регрессии, построить шкалу разбивки пациентов на группы относительно риска наличия заболевания? Например, у меня есть признаки: индекс массы тела, возраст, наличие камней и т.д. Данные бинарные и непрерывные. По этим данным получила модель, которая позволяет классифицировать пациентов, но хотелось бы для каждого нового пациента не подставлять конкретные значения в уравнение логистической регрессии, а просто смотреть, ага возраст от 18 до 30, приписываем пациенту 3 балла, > 60 - 6 баллов, и так по каждому признаку. А потом по полученной сумме баллов определять риск наличия заболевания.
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Если задумываться о нейронных сетях или вообще каких-либо методах разработки данных (data mining) не следует забывать, что они очень дата-интенсивные. Для нейросетевого моделирования требуется не менее, чем по 10 наблюдений на каждую связь в сети для обучения сети. При этом все данные должны быть поделены на две группы - одна для обучения сети, вторая для проверки данных. Соответственно, для нейронной сети с одним скрытым слоем, четырьмя входными параметрами и тремя нейронами в скрытом слое потребуется, минимум, 300 наблюдений. Действительно, описать полученные результаты аналитическим образом не удастся, будет экспертная система a la "черный ящик". Проблема во многих опубликованных книгах в том, что они обходят стороной основную проблему data mining'а - подгонку модели под данные - при небольшом количестве наблюдений модель великолепно описывает имеющийся набор данных, однако дайте ей другой аналогичный набор данных - и она будет безбожно врать. Посему в медицинских научных статьях - где важно понимание того, что описывается - эти методики не находят большого распространения. Дискриминантный анализ в последнее время перестал быть популярным (как было, например лет 20 тому назад) именно по причине жестких ограничений накладываемых на рапределение данных и его место заняла логистическая регрессия. Единственный вопрос по поводу классификации, 80% это что - сумма (TP+TN)/(P+N) в наилучшей точки разделения? А какова вероятность случайной правильной классификации? (т.е. сотношение групп). В принципе, лучше определять точность классификации по площади под характеристической кривой (AUC ROC) или, на худой случай, по индексу Йодена в точке наилучшего разделения
|
|
![]() |
![]() |
![]() ![]() |