![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 ![]() |
Здравствуйте.
У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Надо смотреть на сами переменные и получающиеся модели. Например от полной модели двигаться к наиболее сильной по критерию AIC постепенно исключая наименее информативные (в R например это функция step(полная.модель)). Это если вслепую и чисто механистически решение искать. Можно по предикторам построить PCA (или подобное пространство и искать решение в нем). Тут на форуме был пример поиска решения. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Привет, Olga30! Это типичная задача для логистической регрессии. У меня сейчас подруга пишет докторскую, и ситуация примерно такая же. Относительно числа используемых переменных. Надо использовать ВСЕ ПЕРЕМЕННЫЕ, которые есть. Т.е. и антропометрику, и УЗИ, и биохимию, и кровь, и т.д. Почему так? Ответов несколько Во-первых, до проведения лог. регрессии надо проанализировать все парные связи. И вот здесь-то "зарыта собака". Нужно не просто найти ответы "Есть" или "Нет" связь, а найти детали этих связей. Во-вторых, разные многомерные методы тоже помогают сделать выводы о наиболее информативных переменных. В-третьих, есть такие методы лог. регрессии, в которых делается перебор разных наборов признаков, и выбираются самые ценные наборы. Сообщение отредактировал Larina Tatjana - 6.03.2012 - 18:16 |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 ![]() |
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой.
Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Спасибо, хотелось бы еще мнений насчет правильности выбора данного метода (логистическая регрессия) в отношении данной задачи с данной выборкой. Интересует только данный пример - в целом, грамотно я подхожу или нет? Ту p2004r - спасибо! + я работаю в стандартных пакетах, среду R освоить уже не успею. Интересует мнение с точки зрения соблюдения мною в данном вопросе статистической грамотности, а не поиск наилучшего способа. Ограничена в способах и других ресурсах. И все таки ориентируйтесь на AIC моделей. Для одного и того же набора данных выбирайте модель с наименьшим AIC. Это есть _во_всех_ пакетах статистического анализа (теми где нет, наверное лучше прекратить пользоваться ![]() ![]() |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 6.03.2012 Пользователь №: 23546 ![]() |
Пакеты у меня самые простые - SPSS и STATISTICA.
Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Простой пакет означает только большое кол-во действий по получению результатов. ![]() Вас волнует число точек обуславливающих каждую степень свободы модели. Это в целом правильно. Практически достаточность числа точек может подтвердить бутстреп (да и AIC не даст разогнаться в числе параметров включенных в модель). ![]() |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Цитата Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Если придерживаться правила минимум 10 наблюдений на 1 переменную, то наименьшая группа людей должна содержать 120 человек (не выборка в целом 120, а группа с ТИА, а затем группа контроля без ТИА). Сотрудники из моего отдела пытались опубликовать похожую работу в 2 хороших западных журналах и каждый раз ревьюверы спрашивали: "какова стат. мощность вашего исследования" и "слишком мало наблюдений для такого количества предикторов". Если же работа планируется на "наших" просторах - не забивайте голову, на это никто не обратит внимания ![]() |
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Неплохой тьюториал по AIC, может пригодится тем, кто начинает его использовать.
Также существует замечательная книга "Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson, издательство Springer. На просторах иНета ее практически не найти, если кого-то заинтересует - пишите, я в своё время купил. И даже если Вы не планируете заниматься всякими там AIC'ами и BIC'ами, мне кажется, что первые несколько глав полезно прочитать всем, кто занимается построением и дальнейшим отбором мат. моделей.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Ту Larina Tatjana - спасибо! + естественно, все переменные были проверены попарно. Остались значимые. Если их 12 - не многовато-ли для выборки в 120 (а группы - и того меньше(55 и 65)? Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов! |
|
![]() |
![]() |
![]()
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Привет, Olga30! Относительно попарных связей. Эта проверка не означает, что нужно оставлять в анализе лишь те пары, для которых связи значимы. Ведь пошаговые алгоритмы логит-регрессии учитывают не только парные, но множественные, фактически цепочечные связи. А проверка парных связей поможет лишь в интерпретации основных эффектов. Относительно пакетов. Это действительно "простые - SPSS и STATISTICA", т.е. не для профессионального анализа и оценки логит-уравнений. Когда мне выполнили заказ по оценке таких уравнений, то я получила несколько десятков разных уравнений, с разными наборами предикторов. И получены они были также разными алгоритмами. И вот дальше началось самое интересное. Я выбрала из этого множества уравнений наиболее ценные, и в тоже время самые надёжные и недорогие предикторы. В итоге окончательный набор уравнений включал 5 вариантов, которые далее и были использованы для оформления патентов. Если речь идёт о публикации внутри России, то прав наш коллега TheThing, не забивайте голову. Всё равно никому, кроме Вас, это не будет интересно и понятно. Ну а если всё же хочется докопаться до истины, то обращайтесь к профессионалам, пусть они оценят. Или можете прочитать упомянутую TheThing книгу Model selection and multimodel inference: A practical information, theoretic approach" by K. Burnham, D. Anderson по адресу http://books.google.ru/books?id=BQYR6js0CC...p;q&f=false Раньше она лежала на Гиге, но сейчас её прихлопнули, и увы... Успехов! Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов ![]() Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! |
|
![]() |
![]() |
![]()
Сообщение
#12
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Здравствуйте, Татьяна! Я интуитивно догадываюсь, что Ваша работа была выполнена в пакете SAS. Вы могли бы сказать (или спросить у того человека, который проводил анализ), что может SAS и чего не может SPSS в плане логистической регрессии. Например, алгоритмов построения модели, упомянутые Вами, в SPSS версии 17.0 (в 20 кажется не прибавилось) - 7, насколько больше их в SAS? Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов ![]() Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! Здравствуйте, уважаемый TheThing! Я списалась с исполнителем моего заказа. Он действительно выполнял расчёты в пакете SAS. Относительно SPSS он сказал, что для оценки уравнения логистической регрессии этот пакет содержит немало возможностей. Просто в нём расчёты требуют гораздо больше времени. Мне же больше всего понравилось то, что в результатах по логистической регрессии, как и по многим другим методам, а всего их было более 10, я получила очень много детальной информации. А вот в SPSS такой детализации нет. Или я не умею эти детали получать. Ведь в любом случае чтобы овладеть всеми тонкостями в любом пакете, надо его изучать. А у меня другая работа. Вот почему я и решила заказать эти расчёты профессионалу. Даже ту книжку, адрес которой в сети я указала в предыдущем посте, тоже ведь надо прочитать, и понять что в ней написано. А я ведь не математик, не статистик. Относительно статьи о сравнении пакетов. Лет 5 назад, когда я обсуждала с исполнителем мой заказ, я тоже спрашивала примерно об этом же. Помнится он тогда сказал что есть даже книга о сравнении разных пакетов. Автора, правда, я уже не помню Недорогие предикторы. В медицине всякий анализ стоит деньги. И стоимость их разная. Например, МРТ стоит гораздо дороже чем УЗИ и т.п. Вот почему и требовалось получить очень большое количество вариантов уравнений, чтобы потом можно было сравнить себестоимость их реализации для пациентов, и выбрать оптимальные варианты. Успехов! |
|
![]() |
![]() |
![]()
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
Да и сложно найти у нас кандидатскую/докторскую, в которой бы применялись хотя бы 3 разных алгоритма включения предикторов, в основном используется метод Enter / Block. К тому же в литературе существуют противоречивые данные относительно того, стоит ли применять forward / backward selection алгоритм, некоторые - за, другие - критикуют. Мне бы хотелось найти в иНете авторитетную статью (не заказную), которая бы провела сравнительный анализ пакетов SPSS и SAS, и, как вывод, заявила, что SPSS - игрушка для детей, а SAS - для профи. Увы, пока не нашел. В компании "Боинг" стоит R, мне кажется, что там хватает профессионалов ![]() Вы бы могли еще объяснить, что имеете ввиду под недорогими предикторами? Спасибо! По алгоритмам построения моделей неплохая статья http://www.basegroup.ru/library/analysis/r...ture_selection/. я сравнивал. метод логистической регрессии в SPSS и SAS. В журнале "Риск-менеджмент в кредитной организации", начиная с 1го номера, начался цикл статей на эту тему (большой материал, пришлось разбить на части). Разные программы - разные философии. Обусловлено тем, что люди, работающие с SAS, изначально ценят в ней возможность программирования, что значительно расширяет арсенал методов. SPSS часто воспринимается как "программа с кнопочным интерфейсом", нажал-и-вывел на экран, SPSS Syntax, написанием скриптов мало кто пользуется. На курсах это обычно всплывает. Но, конечно, ворочать базы по 300000 наблюдений и в 200 переменных в SPSS не будешь. Что касается Боинга, очень достойный выбор. |
|
![]() |
![]() |
![]()
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Спасибо за ответы, статья и вправду хорошая.
|
|
![]() |
![]() |
![]()
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582 ![]() |
Здравствуйте. У меня 120 пациентов с сахарным диабетом. Также все они страдают ИБС. Изучаю я клинику - ТИА (транзиторной ишемической атаки) - это как осложнение ИБС. Так вот - у 55 пациентов - не было ни одной ТИА. А у 65 пациентов - была одна и более. Могу ли я использовать логистическую регрессию для того, чтобы выявить, какие переменные влияют на исход - ТИА. Сколько переменных я могу вводить? Если из расчета 1 к 10 - то у меня 12 переменных может участвовать в модели. Верно? Переменных можно вводить сколько угодно. А вот сколько их будет значимыми - это еще вопрос? Телепатически ответить на Ваш вопрос невозможно, т.е. нужна обучающая выборка для уточнения. Если выборка не является секретной, то выкладывате ее в формате CSV или XLS. ![]() Yury V. Reshetov |
|
![]() |
![]() |
![]()
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 ![]() |
Здравствуйте, Татьяна! что может SAS и чего не может SPSS в плане логистической регрессии? Вот интересная статья, где проводится анализ 6 статистических пакетов (жаль, что R нет, хотя обычно в нем реализованы новейшие алгоритмы) в плане логистической регрессии, рассказывается про плюсы и минусы каждого. Для тех, кому будет лень прочитать статью полностью (читается как художественный роман), привожу выдержку, которая относится к теме обсуждения: We recommend the versatile SAS package and BMDP LR for researchers experienced with logisitc regression and programming. Diagnostoc statistics in SAS are based either on observations or covariate patterns. Several unique goodness-of-fit indexes and selection methods are provided in SAS. Its ability to fit a broad class of binary response models, plus its provision to correct for oversampling, overdispersion and bias introduced into predicted probabilities, sets it apart from the other five (stat. packages). If either SPSS or STATA is the only package available, researchers must be aware that both compute goodness-of-fit and diagnostic statistics from individual observations. Consequently, these statistics are innappropriate for statistical tests. Вот так вот..
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#17
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Пакеты у меня самые простые - SPSS и STATISTICA. Буду искать с AIC - не сталкивалась с этим критерием раньше... Спасибо! А по остальному моему набору - подход верный? Привет, Olga30! Вот нашла ссылки на источники про AIC and BIC: http://www.twirpx.com/file/812685/ http://www.twirpx.com/file/812695/ |
|
![]() |
![]() |
![]() ![]() |