Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Прогнозная модель
Nerbi
сообщение 10.05.2017 - 11:47
Сообщение #1





Группа: Пользователи
Сообщений: 10
Регистрация: 10.05.2017
Пользователь №: 29790



Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 10.05.2017 - 18:28
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Оптимальная модель обычно подбирается при помощи перекрестной проверки (cross-validation).
Какая модель дает наилучшее качество, такую и используйте; количеством переменных себя заранее ограничивать не нужно.
Отбор информативных признаков - другая задача, и еще одна задача - понижение размерности.

Затем качество итоговой модели проверяется на еще одной отложенной выборке.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.05.2017 - 23:26
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Nerbi @ 10.05.2017 - 13:47) *
Здравствуйте! Подскажите при создании прогнозной модели при помощи логистической регрессии сколько наблюдений достаточно для одной переменной? По разным источникам встречала от 20 до 100, то есть соответственно объем выборки должен быть больше. У меня в исследовании 410 человек, при создании прогнозной модели в нее были изначально включены переменные оказывающие влияние на прогноз - 20 переменных. В результате логистической регрессии в уравнение вошли 9 переменных (достаточная специфичности и чувствительность). Не слишком ли много для такой выборки? При исключении какой-либо переменной качество модели ухудшается.

Немного дополню. ogurtsov предлагает вам использовать подход, в основе которого - надёжность модели. Можно положить в основу выбора другие соображения и критерии: почитайте про информационный критерий Акаике и байесовский информационный критерий. По поводу ухудшения качества - вопрос спорный. Во-первых, является ли падение числа верно классифицированных объектов статистически значимым? А во вторых, качество чего мы оцениваем: качество подгонки модели для конкретной выборки или качество модели для действия в ситуации неопределённости (если предполагается прогноз). Если второе, то разумно положить в основу выбора именно надёжность, т.е. перекрёстную проверку моделей или включение только надёжных показателей. Про отбор наиболее надёжных предикторов речь на форуме уже поднималась - поищите про случайный лес деревьев классификации, Random Forest, пакет boruta.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nerbi
сообщение 11.05.2017 - 21:09
Сообщение #4





Группа: Пользователи
Сообщений: 10
Регистрация: 10.05.2017
Пользователь №: 29790



Цитата(nokh @ 10.05.2017 - 23:26) *
Немного дополню. ogurtsov предлагает вам использовать подход, в основе которого - надёжность модели. Можно положить в основу выбора другие соображения и критерии: почитайте про информационный критерий Акаике и байесовский информационный критерий. По поводу ухудшения качества - вопрос спорный. Во-первых, является ли падение числа верно классифицированных объектов статистически значимым? А во вторых, качество чего мы оцениваем: качество подгонки модели для конкретной выборки или качество модели для действия в ситуации неопределённости (если предполагается прогноз). Если второе, то разумно положить в основу выбора именно надёжность, т.е. перекрёстную проверку моделей или включение только надёжных показателей. Про отбор наиболее надёжных предикторов речь на форуме уже поднималась - поищите про случайный лес деревьев классификации, Random Forest, пакет boruta.

Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.05.2017 - 09:51
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Nerbi @ 11.05.2017 - 21:09) *
Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%.


Нет, неправильно.

1) Если числа степеней свободы выборки не хватает для сложной модели (или очень мало остается, 2-5 "на параметр" ), то сказать что модель плохая можно и нужно сразу. Но культурный метод уже предложили -- считайте (A|B)IC (информационный критерий). Та модель (из всех возможных) у которой будет оптимум информационного критерия и будет "адекватной". Все остальные модели необоснованны с точки зрения имеющегося числа степеней свободы.

Если есть основания предполагать некие "корреляции" в выборке между предикторами, то это уже само по себе "ад и израиль" для линейных оценок, и надо выбирать оптимальную модель по результатам кроссвалидации (как предлагалось выше).

2) Надо приводить не "чувствительность-специфичность", а AUC модели с оценкой доверительного интервала.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 16.05.2017 - 23:45
Сообщение #6





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Nerbi @ 11.05.2017 - 23:09) *
Спасибо за совет! Обязательно прочитаю и проверю. Но правильно ли я поняла, что не стоит цепляться за столь категоричные замечания, вроде "данная модель не может адекватно работать, так как для такого большого количества переменных слишком маленькая выборка (на каждую переменную должно быть минимум 100 наблюдений)". Главное, что формула проверялась на выборке (не на одной). Коэффициент конкордации составил 71,5. Чувствительность модели 64,4%, специфичность 76,7%.

1) Тоже считаю что неправильно.

2) Давайте представим ситуацию, что у вас в модели всего 2 предиктора: количественный и качественный дихотомический (альтернативный). Если мы не учитываем возможное взаимодействие между этими предикторами, то картина представляется такой: 2 линии регрессии для логитов, расположенные параллельно одна над другой. Величина их относительного смещения задаётся дихотомическим показателем, например: одна для мужчин, другая - для женщин. Т.е. вместо 410 наблюдений имеем по 205 на каждую регрессию. Честно говоря, исходя из большой практики дисперсионного анализа, я уже изначально не верю в отсутствие взаимодействий биологических факторов. Такие ситуации бывают, но это - исключение из правил. В многофакторной схеме куда чаще есть неаддитивные эффекты, вызванные либо реальной нелинейностью отклика, либо эффектом шкалы (когда средние "таскаются" за хвосты асимметричных распределений). В случае взаимодействия линии регрессии для логитов будут непараллельными, а в модели обычной множественной логистической регрессии это никак не учитывается. В результате имеем несколько сомнительную модель, которая, тем не менее, может быть полезна на практике: может с приемлемой точностью предсказывать бинарный отклик.
Теперь добавляем в модель ещё один показатель. Если он качественный дихотомический - получаем уже 4 бинарные регрессии и ещё больший уход от реальности в сторону абстрактной математики. Кстати, здесь уже начинает отрицательно сказываться несбалансированность групп. Т.е. скорее всего вы получите не 4 равные подгруппы по 102-103 человека, а ассорти. Если же 3-ий предиктор количественный, то много ли линейных зависимостей вы знаете в биологии? Короче, в реальность модели множественной логистической регрессии с 3 предикторами я просто не верю. Но возможно и она что-то прогнозирует. За неимением (или незнанием) лучшего - сгодится...
Теперь добавляем в модель 4-ый показатель... 5-й... Группы тают, остаётся пустота в которой аберрации реальности начинают жить своей жизнью. Про какие 20 предикторов можно говорить? Это даже не просто несерьёзно, это - полный уход в параллельную реальность, или даже другую Вселенную - Вселенную Детерминированности и Аддитивности, где через огромные пространства Пустоты что-то неуловимое движется вдаль по строгим прямым, а жизни просто нет места shok.gif

3) Чувствительность - ужасная, специфичность - страшная, конкордация - ближе к средней (0,5), чем к сильной (1,0). Даже без соображений пункта (2) модель - плохая. А я не верю в столь плохую детерминированность биологических систем. Предположу, что в вашей модели на самом деле несколько моделей - для разных подгрупп пациентов, которые вы, скорее всего, не идентифицируете. Если это так, то стоит попробовать построить не одну универсальную модель (утопия), а для каждой из подгрупп (если таковые действительно есть) - свою. Может оказаться, что для каждой подгруппы будет свой набор предикторов и своя диагностическая эффективность. Выделение таких подгрупп - творческая задача, которую можно решать по-разному.
3.1. Я бы для начала провёл нелинейный анализ главных компонент, который корректно обработает и количественные и порядковые и качественные переменные. Если это сложно - можно и не совсем корректный факторный анализ провести, главное - получить для всех пациентов значения латентных переменных - факторных меток (factor scores) - вместо исходных показателей. Такой анализ, во-первых, обобщит данные, во-вторых - снимет проблему мультиколинеарности, а в-третьих - устранит проблему весов факторов для последующего анализа.
3.2. После этого провести кластерный анализ факторных меток и выделить однородные группы пациентов. Эквилибристика с метками нужна для устранения проблемы весов: если из 20 показателей 15 отражают один процесс, а 5 - второй, то в обычном кластерном анализе ветвление будет проведено только по первому процессу, а второй потеряется для осмысленной интерпретации. Работая с факторными метками мы ничего не упустим.
3.3. Кластеры интерпретировать по-существу медико-биологической природы. Обычно врачи, занимающиеся проблемой, достаточно легко с этим справляются, т.к. знают теорию.
3.4. Для каждого кластера провести поиск наиболее надёжных предикторов
3.5. Для каждого кластера использовать полученные предикторы в несложной логистической регрессии для получения уравнения для прогноза.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 17.05.2017 - 14:18
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 16.05.2017 - 23:45) *
Предположу, что в вашей модели на самом деле несколько моделей - для разных подгрупп пациентов, которые вы, скорее всего, не идентифицируете. Если это так, то стоит попробовать построить не одну универсальную модель (утопия), а для каждой из подгрупп (если таковые действительно есть) - свою.


Такая модель называется мультиномиальным логитом (моделью множественного выбора).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему