Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Логистическая регрессия - правильный выбор? (медицина), Верно ли я выбрала методику?
Olga30
сообщение 6.03.2012 - 13:58
Сообщение #1





Группа: Пользователи
Сообщений: 5
Регистрация: 6.03.2012
Пользователь №: 23546



Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 6.03.2012 - 14:09
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Olga30 @ 6.03.2012 - 13:58) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Надо смотреть на сами переменные и получающиеся модели. Например от полной модели двигаться к наиболее сильной по критерию AIC постепенно исключая наименее информативные (в R например это функция step(полная.модель)).

Это если вслепую и чисто механистически решение искать.

Можно по предикторам построить PCA (или подобное пространство и искать решение в нем). Тут на форуме был пример поиска решения.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Larina Tatjana
сообщение 6.03.2012 - 18:09
Сообщение #3





Группа: Пользователи
Сообщений: 49
Регистрация: 3.03.2012
Из: USA
Пользователь №: 23536



Цитата(Olga30 @ 6.03.2012 - 20:28) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Привет, Olga30!


Это типичная задача для логистической регрессии. У меня сейчас подруга пишет докторскую, и ситуация примерно такая же.

Относительно числа используемых переменных. Надо использовать ВСЕ ПЕРЕМЕННЫЕ, которые есть. Т.е. и антропометрику, и УЗИ, и биохимию, и кровь, и т.д.
Почему так? Ответов несколько Во-первых, до проведения лог. регрессии надо проанализировать все парные связи. И вот здесь-то "зарыта собака".
Нужно не просто найти ответы "Есть" или "Нет" связь, а найти детали этих связей. Во-вторых, разные многомерные методы тоже помогают сделать выводы о
наиболее информативных переменных.
В-третьих, есть такие методы лог. регрессии, в которых делается перебор разных наборов признаков, и выбираются самые ценные наборы.

Сообщение отредактировал Larina Tatjana - 6.03.2012 - 18:16
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Olga30
сообщение 6.03.2012 - 19:34
Сообщение #4





Группа: Пользователи
Сообщений: 5
Регистрация: 6.03.2012
Пользователь №: 23546



Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет?

Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах.

Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 6.03.2012 - 21:31
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Olga30 @ 6.03.2012 - 19:34) *
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет?

Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах.


И все таки ориентируйтесь на AIC моделей. Для одного и того же набора данных выбирайте модель с наименьшим AIC.

Это есть _во_всех_ пакетах статистического анализа (теми где нет, наверное лучше прекратить пользоваться smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Olga30
сообщение 6.03.2012 - 22:33
Сообщение #6





Группа: Пользователи
Сообщений: 5
Регистрация: 6.03.2012
Пользователь №: 23546



Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 7.03.2012 - 22:06
Сообщение #7





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Olga30 @ 6.03.2012 - 22:33) *
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?


Простой пакет означает только большое кол-во действий по получению результатов. smile.gif

Вас волнует число точек обуславливающих каждую степень свободы модели. Это в целом правильно. Практически достаточность числа точек может подтвердить бутстреп (да и AIC не даст разогнаться в числе параметров включенных в модель).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 15.03.2012 - 11:58
Сообщение #8





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата
Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)?


Если придерживаться правила минимум 10 наблюдений на 1 переменную, то наименьшая группа людей должна содержать 120 человек (не выборка в целом 120, а группа с ТИА, а затем группа контроля без ТИА).

Сотрудники из моего отдела пытались опубликовать похожую работу в 2 хороших западных журналах и каждый раз ревьюверы спрашивали: "какова стат. мощность вашего исследования" и "слишком мало наблюдений для такого количества предикторов".

Если же работа планируется на "наших" просторах - не забивайте голову, на это никто не обратит внимания smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 15.03.2012 - 15:30
Сообщение #9





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Неплохой тьюториал по AIC, может пригодится тем, кто начинает его использовать.

Также существует замечательная книга "Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson, издательство Springer. На просторах иНета ее практически не найти, если кого-то заинтересует - пишите, я в своё время купил. И даже если Вы не планируете заниматься всякими там AIC'ами и BIC'ами, мне кажется, что первые несколько глав полезно прочитать всем, кто занимается построением и дальнейшим отбором мат. моделей.
Прикрепленные файлы
Прикрепленный файл  aic_reg.pdf ( 44,75 килобайт ) Кол-во скачиваний: 1237
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Larina Tatjana
сообщение 15.03.2012 - 15:49
Сообщение #10





Группа: Пользователи
Сообщений: 49
Регистрация: 3.03.2012
Из: USA
Пользователь №: 23536



Цитата(Olga30 @ 7.03.2012 - 05:03) *
Ту Larina Tatjana - спасибо! + естественно, все переменные были
проверены попарно. Остались значимые. Если их 12 - не многовато-ли
для выборки в 120 (а группы - и того меньше(55 и 65)?

Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше...
Спасибо!
А по остальному моему набору - подход верный?


Привет, Olga30!

Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы.
Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка
парных связей поможет лишь в интерпретации основных эффектов.

Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений.
Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов.
И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее
ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее
и были использованы для оформления патентов.

Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет
интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят.

Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу

http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false

Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы...

Успехов!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 15.03.2012 - 18:38
Сообщение #11





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(Larina Tatjana @ 15.03.2012 - 16:49) *
Привет, Olga30!

Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы.
Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка
парных связей поможет лишь в интерпретации основных эффектов.

Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений.
Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов.
И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее
ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее
и были использованы для оформления патентов.

Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет
интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят.

Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу

http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false

Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы...

Успехов!


Здравствуйте, Татьяна!

Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Larina Tatjana
сообщение 16.03.2012 - 16:19
Сообщение #12





Группа: Пользователи
Сообщений: 49
Регистрация: 3.03.2012
Из: USA
Пользователь №: 23536



Цитата(TheThing @ 16.03.2012 - 01:08) *
Здравствуйте, Татьяна!

Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!


Здравствуйте, уважаемый TheThing!

Я списалась с исполнителем моего заказа. Он действительно выполнял расчёты в пакете SAS. Относительно SPSS он сказал, что для оценки уравнения логистической регрессии этот пакет содержит немало возможностей. Просто в нём расчёты требуют гораздо больше времени. Мне же больше всего понравилось то, что в результатах по логистической регрессии, как и по многим другим методам, а всего их было более 10, я получила очень много детальной информации. А вот в SPSS такой детализации нет. Или я не умею эти детали получать. Ведь в любом случае чтобы овладеть всеми тонкостями в любом пакете, надо его изучать. А у меня другая работа. Вот почему я и решила заказать эти расчёты профессионалу. Даже ту книжку, адрес которой в сети я указала в предыдущем посте, тоже ведь надо прочитать, и понять что в ней написано. А я ведь не математик, не статистик.

Относительно статьи о сравнении пакетов. Лет 5 назад, когда я обсуждала с исполнителем мой заказ, я тоже спрашивала примерно об этом же. Помнится он тогда сказал что есть даже книга о сравнении разных пакетов. Автора, правда, я уже не помню

Недорогие предикторы. В медицине всякий анализ стоит деньги. И стоимость их разная. Например, МРТ стоит гораздо дороже чем УЗИ и т.п. Вот почему и требовалось получить очень большое количество вариантов уравнений, чтобы потом можно было сравнить себестоимость их реализации для пациентов, и выбрать оптимальные варианты.

Успехов!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Вале а
сообщение 16.03.2012 - 17:20
Сообщение #13





Группа: Пользователи
Сообщений: 33
Регистрация: 9.01.2012
Пользователь №: 23408



Цитата(TheThing @ 15.03.2012 - 19:38) *
Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов smile.gif

Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами?

Спасибо!

По алгоритмам построения моделей неплохая статья http://www.basegroup.ru/library/analysis/r...ture_selection/. я сравнивал. метод логистической регрессии в SPSS и SAS. В журнале "Риск-менеджмент в кредитной организации", начиная с 1го номера, начался цикл статей на эту тему (большой материал, пришлось разбить на части). Разные программы - разные философии. Обусловлено тем, что люди, работающие с SAS, изначально ценят в ней возможность программирования, что значительно расширяет арсенал методов. SPSS часто воспринимается как "программа с кнопочным интерфейсом", нажал-и-вывел на экран, SPSS Syntax, написанием скриптов мало кто пользуется. На курсах это обычно всплывает. Но, конечно, ворочать базы по 300000 наблюдений и в 200 переменных в SPSS не будешь. Что касается Боинга, очень достойный выбор.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 16.03.2012 - 17:38
Сообщение #14





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Спасибо за ответы, статья и вправду хорошая.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
YVR
сообщение 20.03.2012 - 14:51
Сообщение #15





Группа: Пользователи
Сообщений: 63
Регистрация: 20.03.2012
Из: Ташкент
Пользователь №: 23582



Цитата(Olga30 @ 6.03.2012 - 15:58) *
Здравствуйте.
У меня 120 пациентов с сахарным диабетом.
Также все они страдают ИБС.
Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС.
Так вот - у 55 пациентов - не было ни одной ТИА.
А у 65 пациентов - была одна и более.
Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА.
Сколько переменных я могу вводить?
Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно?


Переменных можно вводить сколько угодно. А вот сколько их будет значимыми - это еще вопрос?

Телепатически ответить на Ваш вопрос невозможно, т.е. нужна обучающая выборка для уточнения. Если выборка не является секретной, то выкладывате ее в формате CSV или XLS.


Signature
Yury V. Reshetov

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему