Прогнозная модель - Форум врачей-аспирантов

Прогнозная модель

Nerbi Просмотр профиля	10.05.2017 - 11:47 Сообщение #1
Группа: Пользователи Сообщений: 10 Регистрация: 10.05.2017 Пользователь №: 29790	Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается.

Ответов

nokh Просмотр профиля	10.05.2017 - 23:26 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Nerbi @ 10.05.2017 - 13:47) Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается. Немного дополню. ogurtsov предлагает вам использовать подход, в основе которого - надёжность модели. Можно положить в основу выбора другие соображения и критерии: почитайте про информационный критерий Акаике и байесовский информационный критерий. По поводу ухудшения качества - вопрос спорный. Во-первых, является ли падение числа верно классифицированных объектов статистически значимым? А во вторых, качество чего мы оцениваем: качество подгонки модели для конкретной выборки или качество модели для действия в ситуации неопределённости (если предполагается прогноз). Если второе, то разумно положить в основу выбора именно надёжность, т.е. перекрёстную проверку моделей или включение только надёжных показателей. Про отбор наиболее надёжных предикторов речь на форуме уже поднималась - поищите про случайный лес деревьев классификации, Random Forest, пакет boruta.

Nerbi Просмотр профиля	11.05.2017 - 21:09 Сообщение #3
Группа: Пользователи Сообщений: 10 Регистрация: 10.05.2017 Пользователь №: 29790	Цитата(nokh @ 10.05.2017 - 23:26) Немного дополню. ogurtsov предлагает вам использовать подход, в основе которого - надёжность модели. Можно положить в основу выбора другие соображения и критерии: почитайте про информационный критерий Акаике и байесовский информационный критерий. По поводу ухудшения качества - вопрос спорный. Во-первых, является ли падение числа верно классифицированных объектов статистически значимым? А во вторых, качество чего мы оцениваем: качество подгонки модели для конкретной выборки или качество модели для действия в ситуации неопределённости (если предполагается прогноз). Если второе, то разумно положить в основу выбора именно надёжность, т.е. перекрёстную проверку моделей или включение только надёжных показателей. Про отбор наиболее надёжных предикторов речь на форуме уже поднималась - поищите про случайный лес деревьев классификации, Random Forest, пакет boruta. Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%.

p2004r Просмотр профиля	12.05.2017 - 09:51 Сообщение #4
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Nerbi @ 11.05.2017 - 21:09) Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%. Нет, неправильно. 1) Если числа степеней свободы выборки не хватает для сложной модели (или очень мало остается, 2-5 "на параметр" ), то сказать что модель плохая можно и нужно сразу. Но культурный метод уже предложили -- считайте (A\|B)IC (информационный критерий). Та модель (из всех возможных) у которой будет оптимум информационного критерия и будет "адекватной". Все остальные модели необоснованны с точки зрения имеющегося числа степеней свободы. Если есть основания предполагать некие "корреляции" в выборке между предикторами, то это уже само по себе "ад и израиль" для линейных оценок, и надо выбирать оптимальную модель по результатам кроссвалидации (как предлагалось выше). 2) Надо приводить не "чувствительность-специфичность", а AUC модели с оценкой доверительного интервала. http://r-statistics.livejournal.com/

Сообщений в этой теме

Nerbi Прогнозная модель 10.05.2017 - 11:47

ogurtsov Оптимальная модель обычно подбирается при помощи п... 10.05.2017 - 18:28

nokh Цитата(Nerbi @ 10.05.2017 - 13:47) З... 10.05.2017 - 23:26

Nerbi Цитата(nokh @ 10.05.2017 - 23:26) Не... 11.05.2017 - 21:09

p2004r Цитата(Nerbi @ 11.05.2017 - 21:09) С... 12.05.2017 - 09:51

nokh Цитата(Nerbi @ 11.05.2017 - 23:09) С... 16.05.2017 - 23:45

100$ Цитата(nokh @ 16.05.2017 - 23:45) Пр... 17.05.2017 - 14:18

« Предыдущая тема · Медицинская статистика · Следующая тема »