Логистическая регрессия - правильный выбор? (медицина), Верно ли я выбрала методику? |
Здравствуйте, гость ( Вход | Регистрация )
Логистическая регрессия - правильный выбор? (медицина), Верно ли я выбрала методику? |
6.03.2012 - 13:58
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 |
Здравствуйте.
У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? |
|
6.03.2012 - 14:09
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Надо смотреть на сами переменные и получающиеся модели. Например от полной модели двигаться к наиболее сильной по критерию AIC постепенно исключая наименее информативные (в R например это функция step(полная.модель)). Это если вслепую и чисто механистически решение искать. Можно по предикторам построить PCA (или подобное пространство и искать решение в нем). Тут на форуме был пример поиска решения. |
|
6.03.2012 - 18:09
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Привет, Olga30! Это типичная задача для логистической регрессии. У меня сейчас подруга пишет докторскую, и ситуация примерно такая же. Относительно числа используемых переменных. Надо использовать ВСЕ ПЕРЕМЕННЫЕ, которые есть. Т.е. и антропометрику, и УЗИ, и биохимию, и кровь, и т.д. Почему так? Ответов несколько Во-первых, до проведения лог. регрессии надо проанализировать все парные связи. И вот здесь-то "зарыта собака". Нужно не просто найти ответы "Есть" или "Нет" связь, а найти детали этих связей. Во-вторых, разные многомерные методы тоже помогают сделать выводы о наиболее информативных переменных. В-третьих, есть такие методы лог. регрессии, в которых делается перебор разных наборов признаков, и выбираются самые ценные наборы. Сообщение отредактировал Larina Tatjana - 6.03.2012 - 18:16 |
|
6.03.2012 - 19:34
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 |
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? |
|
6.03.2012 - 21:31
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой. Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. И все таки ориентируйтесь на AIC моделей. Для одного и того же набора данных выбирайте модель с наименьшим AIC. Это есть _во_всех_ пакетах статистического анализа (теми где нет, наверное лучше прекратить пользоваться |
|
6.03.2012 - 22:33
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 |
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? |
|
7.03.2012 - 22:06
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Простой пакет означает только большое кол-во действий по получению результатов. Вас волнует число точек обуславливающих каждую степень свободы модели. Это в целом правильно. Практически достаточность числа точек может подтвердить бутстреп (да и AIC не даст разогнаться в числе параметров включенных в модель). |
|
15.03.2012 - 11:58
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Цитата Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Если придерживаться правила минимум 10 наблюдений на 1 переменную, то наименьшая группа людей должна содержать 120 человек (не выборка в целом 120, а группа с ТИА, а затем группа контроля без ТИА). Сотрудники из моего отдела пытались опубликовать похожую работу в 2 хороших западных журналах и каждый раз ревьюверы спрашивали: "какова стат. мощность вашего исследования" и "слишком мало наблюдений для такого количества предикторов". Если же работа планируется на "наших" просторах - не забивайте голову, на это никто не обратит внимания |
|
15.03.2012 - 15:30
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Неплохой тьюториал по AIC, может пригодится тем, кто начинает его использовать.
Также существует замечательная книга "Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson, издательство Springer. На просторах иНета ее практически не найти, если кого-то заинтересует - пишите, я в своё время купил. И даже если Вы не планируете заниматься всякими там AIC'ами и BIC'ами, мне кажется, что первые несколько глав полезно прочитать всем, кто занимается построением и дальнейшим отбором мат. моделей.
Прикрепленные файлы
|
|
15.03.2012 - 15:49
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов! |
|
15.03.2012 - 18:38
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов! Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! |
|
16.03.2012 - 16:19
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! Здравствуйте, уважаемый TheThing! Я списалась с исполнителем моего заказа. Он действительно выполнял расчёты в пакете SAS. Относительно SPSS он сказал, что для оценки уравнения логистической регрессии этот пакет содержит немало возможностей. Просто в нём расчёты требуют гораздо больше времени. Мне же больше всего понравилось то, что в результатах по логистической регрессии, как и по многим другим методам, а всего их было более 10, я получила очень много детальной информации. А вот в SPSS такой детализации нет. Или я не умею эти детали получать. Ведь в любом случае чтобы овладеть всеми тонкостями в любом пакете, надо его изучать. А у меня другая работа. Вот почему я и решила заказать эти расчёты профессионалу. Даже ту книжку, адрес которой в сети я указала в предыдущем посте, тоже ведь надо прочитать, и понять что в ней написано. А я ведь не математик, не статистик. Относительно статьи о сравнении пакетов. Лет 5 назад, когда я обсуждала с исполнителем мой заказ, я тоже спрашивала примерно об этом же. Помнится он тогда сказал что есть даже книга о сравнении разных пакетов. Автора, правда, я уже не помню Недорогие предикторы. В медицине всякий анализ стоит деньги. И стоимость их разная. Например, МРТ стоит гораздо дороже чем УЗИ и т.п. Вот почему и требовалось получить очень большое количество вариантов уравнений, чтобы потом можно было сравнить себестоимость их реализации для пациентов, и выбрать оптимальные варианты. Успехов! |
|
16.03.2012 - 17:20
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! По алгоритмам построения моделей неплохая статья http://www.basegroup.ru/library/analysis/r...ture_selection/. я сравнивал. метод логистической регрессии в SPSS и SAS. В журнале "Риск-менеджмент в кредитной организации", начиная с 1го номера, начался цикл статей на эту тему (большой материал, пришлось разбить на части). Разные программы - разные философии. Обусловлено тем, что люди, работающие с SAS, изначально ценят в ней возможность программирования, что значительно расширяет арсенал методов. SPSS часто воспринимается как "программа с кнопочным интерфейсом", нажал-и-вывел на экран, SPSS Syntax, написанием скриптов мало кто пользуется. На курсах это обычно всплывает. Но, конечно, ворочать базы по 300000 наблюдений и в 200 переменных в SPSS не будешь. Что касается Боинга, очень достойный выбор. |
|
16.03.2012 - 17:38
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Спасибо за ответы, статья и вправду хорошая.
|
|
20.03.2012 - 14:51
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582 |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Переменных можно вводить сколько угодно. А вот сколько их будет значимыми - это еще вопрос? Телепатически ответить на Ваш вопрос невозможно, т.е. нужна обучающая выборка для уточнения. Если выборка не является секретной, то выкладывате ее в формате CSV или XLS. Yury V. Reshetov |
|