![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 10.05.2017 Пользователь №: 29790 ![]() |
Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается.
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается. Немного дополню. ogurtsov предлагает вам использовать подход, в основе которого - надёжность модели. Можно положить в основу выбора другие соображения и критерии: почитайте про информационный критерий Акаике и байесовский информационный критерий. По поводу ухудшения качества - вопрос спорный. Во-первых, является ли падение числа верно классифицированных объектов статистически значимым? А во вторых, качество чего мы оцениваем: качество подгонки модели для конкретной выборки или качество модели для действия в ситуации неопределённости (если предполагается прогноз). Если второе, то разумно положить в основу выбора именно надёжность, т.е. перекрёстную проверку моделей или включение только надёжных показателей. Про отбор наиболее надёжных предикторов речь на форуме уже поднималась - поищите про случайный лес деревьев классификации, Random Forest, пакет boruta. |
|
![]() |
![]() |
![]() ![]() |