Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Логистическая регрессия - правильный выбор? (медицина)
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Olga30
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?
p2004r
Цитата(Olga30 @ 6.03.2012 - 13:58) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Надо смотреть на сами переменные и получающиеся модели. Например от полной модели двигаться к наиболее сильной по критерию AIC постепенно исключая наименее информативные (в R например это функция step(полная.модель)).

Это если вслепую и чисто механистически решение искать.

Можно по предикторам построить PCA (или подобное пространство и искать решение в нем). Тут на форуме был пример поиска решения.
Larina Tatjana
Цитата(Olga30 @ 6.03.2012 - 20:28) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Привет, Olga30!


Это типичная задача для логистической регрессии. У меня сейчас подруга пишет докторскую, и ситуация примерно такая же.

Относительно числа используемых переменных. Надо использовать ВСЕ ПЕРЕМЕННЫЕ, которые есть. Т.е. и антропометрику, и УЗИ, и биохимию, и кровь, и т.д.
Почему так? Ответов несколько Во-первых, до проведения лог. регрессии надо проанализировать все парные связи. И вот здесь-то "зарыта собака".
Нужно не просто найти ответы "Есть" или "Нет" связь, а найти детали этих связей. Во-вторых, разные многомерные методы тоже помогают сделать выводы о
наиболее информативных переменных.
В-третьих, есть такие методы лог. регрессии, в которых делается перебор разных наборов признаков, и выбираются самые ценные наборы.
Olga30
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет?

Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах.

Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)?
p2004r
Цитата(Olga30 @ 6.03.2012 - 19:34) *
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет?

Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах.


И все таки ориентируйтесь на AIC моделей. Для одного и того же набора данных выбирайте модель с наименьшим AIC.

Это есть _во_всех_ пакетах статистического анализа (теми где нет, наверное лучше прекратить пользоваться smile.gif
Olga30
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?
p2004r
Цитата(Olga30 @ 6.03.2012 - 22:33) *
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?


Простой пакет означает только большое кол-во действий по получению результатов. smile.gif

Вас волнует число точек обуславливающих каждую степень свободы модели. Это в целом правильно. Практически достаточность числа точек может подтвердить бутстреп (да и AIC не даст разогнаться в числе параметров включенных в модель).
TheThing
Цитата
Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)?


Если придерживаться правила минимум 10 наблюдений на 1 переменную, то наименьшая группа людей должна содержать 120 человек (не выборка в целом 120, а группа с ТИА, а затем группа контроля без ТИА).

Сотрудники из моего отдела пытались опубликовать похожую работу в 2 хороших западных журналах и каждый раз ревьюверы спрашивали: "какова стат. мощность вашего исследования" и "слишком мало наблюдений для такого количества предикторов".

Если же работа планируется на "наших" просторах - не забивайте голову, на это никто не обратит внимания smile.gif
TheThing
Неплохой тьюториал по AIC, может пригодится тем, кто начинает его использовать.

Также существует замечательная книга "Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson, издательство Springer. На просторах иНета ее практически не найти, если кого-то заинтересует - пишите, я в своё время купил. И даже если Вы не планируете заниматься всякими там AIC'ами и BIC'ами, мне кажется, что первые несколько глав полезно прочитать всем, кто занимается построением и дальнейшим отбором мат. моделей.
Larina Tatjana
Цитата(Olga30 @ 7.03.2012 - 05:03) *
Ту Larina Tatjana - спасибо! + естественно, все переменные были
проверены попарно. Остались значимые. Если их 12 - не многовато-ли
для выборки в 120 (а группы - и того меньше(55 и 65)?

Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?


Привет, Olga30!

Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы.
Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка
парных связей поможет лишь в интерпретации основных эффектов.

Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений.
Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов.
И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее
ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее
и были использованы для оформления патентов.

Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет
интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят.

Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу

http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false

Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы...

Успехов!
TheThing
Цитата(Larina Tatjana @ 15.03.2012 - 16:49) *
Привет, Olga30!

Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы.
Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка
парных связей поможет лишь в интерпретации основных эффектов.

Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений.
Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов.
И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее
ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее
и были использованы для оформления патентов.

Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет
интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят.

Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу

http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false

Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы...

Успехов!


Здравствуйте, Татьяна!

Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!


Larina Tatjana
Цитата(TheThing @ 16.03.2012 - 01:08) *
Здравствуйте, Татьяна!

Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!


Здравствуйте, уважаемый TheThing!

Я списалась с исполнителем моего заказа. Он действительно выполнял расчёты в пакете SAS. Относительно SPSS он сказал, что для оценки уравнения логистической регрессии этот пакет содержит немало возможностей. Просто в нём расчёты требуют гораздо больше времени. Мне же больше всего понравилось то, что в результатах по логистической регрессии, как и по многим другим методам, а всего их было более 10, я получила очень много детальной информации. А вот в SPSS такой детализации нет. Или я не умею эти детали получать. Ведь в любом случае чтобы овладеть всеми тонкостями в любом пакете, надо его изучать. А у меня другая работа. Вот почему я и решила заказать эти расчёты профессионалу. Даже ту книжку, адрес которой в сети я указала в предыдущем посте, тоже ведь надо прочитать, и понять что в ней написано. А я ведь не математик, не статистик.

Относительно статьи о сравнении пакетов. Лет 5 назад, когда я обсуждала с исполнителем мой заказ, я тоже спрашивала примерно об этом же. Помнится он тогда сказал что есть даже книга о сравнении разных пакетов. Автора, правда, я уже не помню

Недорогие предикторы. В медицине всякий анализ стоит деньги. И стоимость их разная. Например, МРТ стоит гораздо дороже чем УЗИ и т.п. Вот почему и требовалось получить очень большое количество вариантов уравнений, чтобы потом можно было сравнить себестоимость их реализации для пациентов, и выбрать оптимальные варианты.

Успехов!
Вале а
Цитата(TheThing @ 15.03.2012 - 19:38) *
Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!

По алгоритмам построения моделей неплохая статья http://www.basegroup.ru/library/analysis/r...ture_selection/. я сравнивал. метод логистической регрессии в SPSS и SAS. В журнале "Риск-менеджмент в кредитной организации", начиная с 1го номера, начался цикл статей на эту тему (большой материал, пришлось разбить на части). Разные программы - разные философии. Обусловлено тем, что люди, работающие с SAS, изначально ценят в ней возможность программирования, что значительно расширяет арсенал методов. SPSS часто воспринимается как "программа с кнопочным интерфейсом", нажал-и-вывел на экран, SPSS Syntax, написанием скриптов мало кто пользуется. На курсах это обычно всплывает. Но, конечно, ворочать базы по 300000 наблюдений и в 200 переменных в SPSS не будешь. Что касается Боинга, очень достойный выбор.
TheThing
Спасибо за ответы, статья и вправду хорошая.
YVR
Цитата(Olga30 @ 6.03.2012 - 15:58) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Переменных можно вводить сколько угодно. А вот сколько их будет значимыми - это еще вопрос?

Телепатически ответить на Ваш вопрос невозможно, т.е. нужна обучающая выборка для уточнения. Если выборка не является секретной, то выкладывате ее в формате CSV или XLS.
TheThing
Цитата(TheThing @ 15.03.2012 - 19:38) *
Здравствуйте, Татьяна!

что может SAS и чего не может SPSS в плане логистической регрессии?


Вот интересная статья, где проводится анализ 6 статистических пакетов (жаль, что R нет, хотя обычно в нем реализованы новейшие алгоритмы) в плане логистической регрессии, рассказывается про плюсы и минусы каждого.

Для тех, кому будет лень прочитать статью полностью (читается как художественный роман), привожу выдержку, которая относится к теме обсуждения:

We recommend the versatile SAS package and BMDP LR for researchers experienced with logisitc regression and programming. Diagnostoc statistics in SAS are based either on observations or covariate patterns. Several unique goodness-of-fit indexes and selection methods are provided in SAS. Its ability to fit a broad class of binary response models, plus its provision to correct for oversampling, overdispersion and bias introduced into predicted probabilities, sets it apart from the other five (stat. packages). If either SPSS or STATA is the only package available, researchers must be aware that both compute goodness-of-fit and diagnostic statistics from individual observations. Consequently, these statistics are innappropriate for statistical tests.

Вот так вот..
Larina Tatjana
Цитата(Olga30 @ 7.03.2012 - 05:03) *
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?


Привет, Olga30!

Вот нашла ссылки на источники про AIC and BIC:
http://www.twirpx.com/file/812685/
http://www.twirpx.com/file/812695/



Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.