Логистическая регрессия - правильный выбор? (медицина) - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Логистическая регрессия - правильный выбор? (медицина), Верно ли я выбрала методику?

Olga30 Просмотр профиля	6.03.2012 - 13:58 Сообщение #1
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546	Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?

2 страниц

1 2 >

Открыть тему

Ответов (1 - 14)

p2004r Просмотр профиля	6.03.2012 - 14:09 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga30 @ 6.03.2012 - 13:58) Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Надо смотреть на сами переменные и получающиеся модели. Например от полной модели двигаться к наиболее сильной по критерию AIC постепенно исключая наименее информативные (в R например это функция step(полная.модель)). Это если вслепую и чисто механистически решение искать. Можно по предикторам построить PCA (или подобное пространство и искать решение в нем). Тут на форуме был пример поиска решения. http://r-statistics.livejournal.com/

Larina Tatjana Просмотр профиля	6.03.2012 - 18:09 Сообщение #3
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536	Цитата(Olga30 @ 6.03.2012 - 20:28) Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Привет, Olga30! Это типичная задача для логистической регрессии. У меня сейчас подруга пишет докторскую, и ситуация примерно такая же. Относительно числа используемых переменных. Надо использовать ВСЕ ПЕРЕМЕННЫЕ, которые есть. Т.е. и антропометрику, и УЗИ, и биохимию, и кровь, и т.д. Почему так? Ответов несколько Во-первых, до проведения лог. регрессии надо проанализировать все парные связи. И вот здесь-то "зарыта собака". Нужно не просто найти ответы "Есть" или "Нет" связь, а найти детали этих связей. Во-вторых, разные многомерные методы тоже помогают сделать выводы о наиболее информативных переменных. В-третьих, есть такие методы лог. регрессии, в которых делается перебор разных наборов признаков, и выбираются самые ценные наборы. Сообщение отредактировал Larina Tatjana - 6.03.2012 - 18:16

Olga30 Просмотр профиля	6.03.2012 - 19:34 Сообщение #4
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546	Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой. Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)?

p2004r Просмотр профиля	6.03.2012 - 21:31 Сообщение #5
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga30 @ 6.03.2012 - 19:34) Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой. Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. И все таки ориентируйтесь на AIC моделей. Для одного и того же набора данных выбирайте модель с наименьшим AIC. Это есть _во_всех_ пакетах статистического анализа (теми где нет, наверное лучше прекратить пользоваться http://r-statistics.livejournal.com/

Olga30 Просмотр профиля	6.03.2012 - 22:33 Сообщение #6
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546	Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный?

p2004r Просмотр профиля	7.03.2012 - 22:06 Сообщение #7
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Olga30 @ 6.03.2012 - 22:33) Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Простой пакет означает только большое кол-во действий по получению результатов. Вас волнует число точек обуславливающих каждую степень свободы модели. Это в целом правильно. Практически достаточность числа точек может подтвердить бутстреп (да и AIC не даст разогнаться в числе параметров включенных в модель). http://r-statistics.livejournal.com/

TheThing Просмотр профиля	15.03.2012 - 11:58 Сообщение #8
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Если придерживаться правила минимум 10 наблюдений на 1 переменную, то наименьшая группа людей должна содержать 120 человек (не выборка в целом 120, а группа с ТИА, а затем группа контроля без ТИА). Сотрудники из моего отдела пытались опубликовать похожую работу в 2 хороших западных журналах и каждый раз ревьюверы спрашивали: "какова стат. мощность вашего исследования" и "слишком мало наблюдений для такого количества предикторов". Если же работа планируется на "наших" просторах - не забивайте голову, на это никто не обратит внимания

TheThing Просмотр профиля	15.03.2012 - 15:30 Сообщение #9
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Неплохой тьюториал по AIC, может пригодится тем, кто начинает его использовать. Также существует замечательная книга "Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson, издательство Springer. На просторах иНета ее практически не найти, если кого-то заинтересует - пишите, я в своё время купил. И даже если Вы не планируете заниматься всякими там AIC'ами и BIC'ами, мне кажется, что первые несколько глав полезно прочитать всем, кто занимается построением и дальнейшим отбором мат. моделей. Прикрепленные файлы aic_reg.pdf ( 44,75 килобайт ) Кол-во скачиваний: 1408

Larina Tatjana Просмотр профиля	15.03.2012 - 15:49 Сообщение #10
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536	Цитата(Olga30 @ 7.03.2012 - 05:03) Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов!

TheThing Просмотр профиля	15.03.2012 - 18:38 Сообщение #11
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(Larina Tatjana @ 15.03.2012 - 16:49) Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов! Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо!

Larina Tatjana Просмотр профиля	16.03.2012 - 16:19 Сообщение #12
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536	Цитата(TheThing @ 16.03.2012 - 01:08) Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! Здравствуйте, уважаемый TheThing! Я списалась с исполнителем моего заказа. Он действительно выполнял расчёты в пакете SAS. Относительно SPSS он сказал, что для оценки уравнения логистической регрессии этот пакет содержит немало возможностей. Просто в нём расчёты требуют гораздо больше времени. Мне же больше всего понравилось то, что в результатах по логистической регрессии, как и по многим другим методам, а всего их было более 10, я получила очень много детальной информации. А вот в SPSS такой детализации нет. Или я не умею эти детали получать. Ведь в любом случае чтобы овладеть всеми тонкостями в любом пакете, надо его изучать. А у меня другая работа. Вот почему я и решила заказать эти расчёты профессионалу. Даже ту книжку, адрес которой в сети я указала в предыдущем посте, тоже ведь надо прочитать, и понять что в ней написано. А я ведь не математик, не статистик. Относительно статьи о сравнении пакетов. Лет 5 назад, когда я обсуждала с исполнителем мой заказ, я тоже спрашивала примерно об этом же. Помнится он тогда сказал что есть даже книга о сравнении разных пакетов. Автора, правда, я уже не помню Недорогие предикторы. В медицине всякий анализ стоит деньги. И стоимость их разная. Например, МРТ стоит гораздо дороже чем УЗИ и т.п. Вот почему и требовалось получить очень большое количество вариантов уравнений, чтобы потом можно было сравнить себестоимость их реализации для пациентов, и выбрать оптимальные варианты. Успехов!

Вале а Просмотр профиля	16.03.2012 - 17:20 Сообщение #13
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408	Цитата(TheThing @ 15.03.2012 - 19:38) Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! По алгоритмам построения моделей неплохая статья http://www.basegroup.ru/library/analysis/r...ture_selection/. я сравнивал. метод логистической регрессии в SPSS и SAS. В журнале "Риск-менеджмент в кредитной организации", начиная с 1го номера, начался цикл статей на эту тему (большой материал, пришлось разбить на части). Разные программы - разные философии. Обусловлено тем, что люди, работающие с SAS, изначально ценят в ней возможность программирования, что значительно расширяет арсенал методов. SPSS часто воспринимается как "программа с кнопочным интерфейсом", нажал-и-вывел на экран, SPSS Syntax, написанием скриптов мало кто пользуется. На курсах это обычно всплывает. Но, конечно, ворочать базы по 300000 наблюдений и в 200 переменных в SPSS не будешь. Что касается Боинга, очень достойный выбор.

TheThing Просмотр профиля	16.03.2012 - 17:38 Сообщение #14
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Спасибо за ответы, статья и вправду хорошая.

YVR Просмотр профиля	20.03.2012 - 14:51 Сообщение #15
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582	Цитата(Olga30 @ 6.03.2012 - 15:58) Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Переменных можно вводить сколько угодно. А вот сколько их будет значимыми - это еще вопрос? Телепатически ответить на Ваш вопрос невозможно, т.е. нужна обучающая выборка для уточнения. Если выборка не является секретной, то выкладывате ее в формате CSV или XLS. Yury V. Reshetov

« Предыдущая тема · Медицинская статистика · Следующая тема »

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Переключить на: Стандартный · Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2026 IPS, Inc.