Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ help анализ частоты осложнений, логистическая регрессия и все, все, все

Автор: DrgLena 28.11.2007 - 00:09

Уважаемые, форумчане!
В ваших статистических изысканиях, не встречалась ли вам информация о использовании формулы Ферстера для сравнения числа осложнений возникающих после двух медицинских вмешательств. При этом используется понятие неопределенность системы, снижение неопределенности. Описано, как делали, есть формула, но нет ссылки на используемую литературу. Диссертация в которой это используется уже защищена и я повторила расчет для своих данных, но не могу работать без ссылки на математический источник. Может быть подскажете другие статистические форумы, где это могут знать.

Автор: Игорь 29.11.2007 - 06:50

То, что Вы ищете, есть в книгах:

1. Леонтюк А.С., Леонтюк Л.А.., Сыкало А.И. Информационный анализ в морфологических исследованиях. - Минск: Наука и техника, 1981.
2. Теория информации в медицине / Под ред. В.А. Бандарина. - Минск: Беларусь, 1974.

Можно также статью посмотреть обзорную (и ссылки в ней):

Блюменфельд Л.А. Информация, термодинамика и конструкция биологических систем // Соросовский образовательный журнал, 1996, т. 2, № 7, с. 88-92.

Статья доступна бесплатно на сайте "Соросовского образовательного журнала" http://journal.issep.rssi.ru, хотя можно на фирменном CD всю подборку заказать, что я и сделал. Упоминания такого автора, как Ферстер, правда, найти не удалось (в контексте информационного анализа). Возможно, это автор (Foerster? - в настоящее время по-немецки букву "о ум-лаут" принято заменять на "oe") какой-либо специализированной работы из области медицины.

Автор: DrgLena 29.11.2007 - 20:59

Я думаю, что это этоот Ферстер:

Фёрстер, Хейнц фон
Материал из Википедии - свободной энциклопедии
Хейнц фон Фёрстер (нем. Heinz von Foerster; 13 ноября 1911 - 2 октября 2002) - австрийский физик, математик, один из основоположников кибернетики.

1. Используя суммарное значение количества осложнений для каждой системы, определяли, какой процент каждое осложнение составляет от суммы всех осложнений.
Подобные расчеты сделаны для всех видов осложнений для каждой системы.
Относительна организация рассчитывалась по формуле Г. Ферстера.
2. Величина текущей неопределенности системы для обоих методов лечения была рассчитана из данных таблиц частоты, потом их делили на 0,602 и рассчитывали R . На основе допущений сделанных ранее, можно утверждать, что относительная организация послеоперационных осложнений (R ) выше в группе оригинального лечения
3. Величина относительной организации ? рассчитывалась по формуле:

R=1-H/H_m ,
где Hm - максимальная неопределенность системы видов изменений;
Н - текущая неопределенность системы видов изменений.
Величина Hm- характеризует сложность системы, которая есть функция числа состояний, которые может принимать система. В этом случае число состояний (К) - число видов изменений.
H_m=lg(K)
В нашем случае К=4, отсюда:
lg4=0,602

Текущая неопределенность системы рассчитывается по формуле:
Сумма частот умноженных на логарифм частот:
H=-∑p_i *lg р_i

Поточнее, где это есть?

Автор: DrgLena 29.11.2007 - 22:30

Спасибо большое за информацию, я нашла именно то, что искала по указанной вами ссылке.

http://journal.issep.rssi.ru/articles/pdf/0111_122.pdf

Я просто была введена в заблуждение авторами, поскольку они использовали не формулу Ферстера, а функционал введенный Клодом Шеноном.
А Ферстер считал население Земли....

Автор: плав 4.12.2007 - 00:24

Ну вообще-то число осложнений после вмешательства принято сравнивать при помощи логистической регрессии (если только одно осложнение) или регрессии по Пуассону (если их могло быть несколько у одного пациента). Только таким образом Вы можете проконтролировать различия между группами по исходной тяжести состояния, социально-экономическим и демографическим показателям и т.п. Пользоваться же в чисто биостатистической задаче теорией информации вообще-то странно - это из совсем другой оперы, теория информации чаще используется в диагностике, а не при тестировании гипотез.
Возьмите аналогичные исследования, опубликованные в приличных журналах (типа BMJ, JAMA или Lancet), т.е. где есть рецензент по статистике - и если найдете что-то подобное, можете использовать. Если нет - скорее всего это псевдоматематический шаманизм (выглядит именно так - авторы не могли использовать обычные, принятые методы, а использовав методику не относящуюся к основной задаче научного исследования - проверке научной гипотезы - получили какую-то цифру).

Автор: Игорь 4.12.2007 - 06:49

Это и так, и не так.

С одной стороны, действительно, теория информации используется в технической диагностике: см. Биргер И.А. Техническая диагностика. - М.: Машиностроение, 1978.

С другой стороны, все статистические проблемы могут быть сформулированы в терминах теории информации: см. Кульбак С. Теория информации и статистика. - М.: Наука, 1967. См. также специально отобранные медико-биологические источники, указанные выше.

В задаче же, поставленной в настоящей теме, с моей точки зрения, действительно, статистическое решение предпочтительнее. Хотя и информационные методы - интересное решение.

Автор: плав 5.12.2007 - 00:17

Тут ведь проблема двоякая
1) Прикладные научные исследования делаются для того, чтобы ими было можно воспользоваться в практике. А для этого они должны быть сопоставимыми. Если же все используют одну методику доказательства гипотез, а один автор - другую, то даже если в иной системе координат это доказательство легитимно (другая философская основа - не наш родной позитивизм, а, скажем, холистическая философия) - то для всех коллег это автора это доказательство не имеет смысла, ибо перевод из одной системы координат в другую - это не их, прикладников, задача. Посему я и рекомендую смотреть на другие научные публикации в данной области (в нормальных журналах)
2) С 70-80х годов в биостатистике многое изменилось и, что самое главное, сильно спрогрессировал анализ выживаемости (модель пропорционального риска Кокса - это как раз 70е, а ее реализация в программных пакетах началсь интенсивно только в начале 90х). Соответственно, теперь смотреть на время от момента проведения процедуры (операции) до наступления осложнений стало проще при помощи методик анализа выживаемости. А в последние годы появилась возможность относительно просто делать пуассонову регрессию (были сложности ввиду того, что она не описывается обычной GLM - общей линейной моделью).
Соответственно, изучать возможности применения различных теорий в медицине можно и нужно. Но в диссертациях, этому посвященных. В диссертации, посвященной оценке эффективности терапии или факторам риска осложнений (течению и прогнозу заболевания) этому не место, шифр специальности другой...

Автор: DrgLena 5.12.2007 - 01:52

Я задала этот вопрос, чтобы самой разобраться, как это было сделано автором конкретной работы. Я в данном случае была задействована как неофициальный рецензент, поскольку у меня большой опыт в области применения статистики в медицинских исследованиях, в том числе и в использовании методов логистической регрессии и кокс - регресси, Каплан-Мейеровских оценок и т.д. Однако использование формулы Клода Шеннона, которая дает количественную характеристику изменчивости системы после хирургическог воздействия, позволяет сравнить две методики операции по частое и разнообразию (4-х) видов осложнений. Эффективность двух хирургических методик в отношении достижения результата одинакова, вывод в пользу авторской методики делается на основании меньшей частоты определенных осложнений.
Логистическая регрессия хороша только для бинарного отклика и, если предикторы также бинарны, можно создать модель прогноза этого отклика. В данном случае задача другая - оценить накопленность осложнений при двух методиках. Причем осложнения все послеоперационные, а не возникают во времени, поэтому и Кокс регрессия - тоже не подходит. Она используется для оценки вероятности наступления события, которое наступает только 1 раз (у меня есть работы не только по анализу выживаемости, но и для оценки вероятности наступления отторжения трансплантанта).
Мое заключение носит рекомендательный характер, а именно использовать статистические методы проверки гипотез. Сегодня, в медицинских исследованиях рекомендуется использование простых понятий - относительный риск или отношение шансов, которые легко вычисляются из четырехпольной таблицы. Расчет Отношения Шансов (Odds Ratio) иметь или не иметь осложнение в зависимости от метода лечения, с соответствующими доверительными интервалами, позволяет дать ясную медицинскую интерпретацию результата.

Автор: плав 5.12.2007 - 14:51

1) Логистическая регрессия может использоваться не только для бинарных, но и для любых упорядоченных переменных
2) Для оценки количества осложнений (именно количества) стандартным является оценка отношения количества осложнений у одного человека на пациенто-время наблюдения.
3) Если необходима модель влияния чего-то на дискретную переменную (количество осложнений) пользуются различными логлинейными моделями, наиболее удобной в настоящий момент является Пуассонова регрессия.
3) Модель пропорционального риска Кокса действительно требует наступление определенного события, хотя ее можно приспособить для анализа (время до первого осложнения, время до второго осложнения и т.д.). (насчет послеоперационных осложнений - и отсутствия необходимости оценивать время - странно, это делается сплошь и рядом, может, тогда речь шла о периоперационных осложнениях?)

Иными словами, методы - общепринятые - есть и есть и простые и значительно более сложные, модельные.

Другой вопрос, каким образом можно "складывать" разные осложнения - и не лучше ли анализировать каждое осложнение по отдельности, ибо в противном случае информация для клинициста бессмысленная (метод хорош по суммарному индексу осложнений, который приравнивает одно тяжелое осложнение двум легким или полутора средней тяжести - а все-таки с пациентом-то что будет?) Задайте вопрос, почему никто широко не пользуется этим методом (с сороковых-то годов и при той любви, которую все специалисты по информатике питают к Шеннону) - задача-то часто встречающаяся? Все идиоты или не понимают очевидного? Или что-то другое?

Автор: DrgLena 5.12.2007 - 18:46

Безусловно вы правы. Автор решил, вернее не автор, а тот кто помогал в анализе данных, сразить всех наповал малознакомыми формулами. И он сразил, поскольку работа проголосована ученым советом (не у нас в институте, а в другом совете, поэтому я работу не слушала) и никто не возразил, поскольку обсуждалась, я думаю, только хирургия. А сегодня она на рассмотрении и возникли вопросы. К сожалению, организованного сообщества специальстов, которые могли бы давать оценку качеству статистического анализа медицинских исследований, на сегодняшний день нет. Ссылку на форум дать нельзя.
По поводу логистической регресси, я имею в виду левую часть уравнения, когда прогнозируется только два альтернативных состояния, а в правой части могут быть и бинарные и количественные переменные и даже ранговые, но это уже труднее реализовать (в SPSS, но не в Statistica). Для прогноза трех состояний все еще сложнее, по моему только Stata позволяет это сделать. Но сама я не делала, там много ручками надо ваять.

Автор: плав 5.12.2007 - 23:44

Цитата(DrgLena @ 5.12.2007 - 18:46)

По поводу логистической регресси, я имею в виду левую часть уравнения, когда прогнозируется только два альтернативных состояния, а в правой части могут быть и бинарные и количественные переменные и даже ранговые, но это уже труднее реализовать (в SPSS, но не в Statistica). Для прогноза трех состояний все еще сложнее, по моему только Stata позволяет это сделать. Но сама я не делала, там много ручками надо ваять.

Я тоже имел в виду левую часть уравнения. Существуют варианты логистической регрессии для ординальных переменных отклика (модель пропорциональных шансов) и для номинальных с несколькими уровнями (генерализованная логит модель). Модель пропорциональных шансов была описана McCullagh (1980), и затем стала очень популярной для ординальных исходов. Про это проосто не очень известно, хотя в приличной программе расчетно все достаточно просто. Очень подробно методология расписана в главе 9 Categorical Data Analysis Using SAS System (Stokes M., Davis C., Koch G., SAS Institutes Inc., 2000). На самом деле одна из лучших книжек по анализу качественных переменных. Есть описание и здесь (http://www.stat.psu.edu/~jglenn/stat504/08_multilog/40_multilog_proportion.htm). Версия 9 SAS поддерживает эту модель в процедуре LOGISTIC.
Нечто подобное можно сделать в R, Stata вообще считается более мощной с точки зрения анализа качественных переменных (например, процедура glogit), SPSS также это делает достаточно просто (http://www.ats.ucla.edu/STAT/SPSS/dae/ologit.htm и http://www.ats.ucla.edu/stat/spss/dae/mlogit.htm для мультиноминальной модели).

Автор: DrgLena 6.12.2007 - 02:20

Да, все верно. Но для докторов все же гораздо труднее, чем при использовании бинарной логистической регрессии, где exp(B) имет то же значение и трактовку, что и OR в четырехпольной таблице. Я всегда кодирую в базах данных каждое состояние (осложнение или фактор риска) бинарно и рассматриваю отклик также бинарный (результат лечения достигнут или не достигнут). Тогда легко создавать группы риска по комбинациям предикторов.
У меня SAS никогда не было, но я читала, что это мощный профессиональный пакет.( все другие есть). Есть ли у вас ссылки на русскоязычные работы, где этот метод применяется, независимо от пакета. Англоязычные ресурты мне все доступны (есть подписка Hinary), а в русскоязычном пространстве я не встречала полнотекстовых медицинских статей с применением логистической регрессии, может просто не знаю ресурсов. Своими опубликованными могу поделиться. И еще хотельсь бы почитать статьи на русском языке с ROC анализом, у меня в описании американизма много.

Автор: плав 6.12.2007 - 20:46

Речь идет, наверное, о статьях с применением модели пропорциональных шансов, поскольку на русском языке статей с описанием использования логистической регрессии достаточно много. Что касается POM (proportional odds model) - то я на русском языке публикаций не встречал, что вообщем-то не удивительно (раз в Statistica нет и из меню SPSS не доступно ).
По поводу характеристических кривых - была статья у В.В. Власова, где он анализировал частоту использования ROC-анализа (хотя, вернее, анализа площади под характеристическими кривыми AUC ROC) в статьях по рентгенологии. Короткий поиск общедоступных статей привел к следующим ссылкам http://www.icj.ru/2005-03-06.html и http://www.consilium-medicum.com/media/cardio/07_01/18.shtml . Этот анализ достаточно часто используется в кардиологии, просто сейчас не уверен, что из подготовленных моими знакомыми авторами уже вышло из печати, они анализ характеристических кривых использовали достаточно широко. Кроме того, можно найти статью Я.Балабановой в Сибирском медицинском журнале (это на русском, ее же вариант в BMJ http://www.bmj.com/cgi/content/abstract/331/7513/379.

Автор: DrgLena 7.12.2007 - 00:27

Спасибо, я посмотрела статью по первой ссылке. Нормально, но все же, не совсем на русском языке. Точка разделения по возрасту 53 года, звучит нормально, я использую «точка перегиба», что гораздо хуже, и мой директор меня не понял. Но в таблице «Независимые факторы риска?» вначале представлены «Unadjusted Odds ratio», т.е. оценка каждого фактора в одновариантной модели, и дальше «Adjusted Odds ratio» - результат оценки этих факторов в многофакторной модели. Т.е. именно они и являются согласованными или независимыми. Без английского авторы тоже не обошлись.
Вторая работа, к сожалению, не загрузилась, а в последней - ROC кривые совсем не кривые, поскольку есть только одна точка, и оценивается только площадь.
Спасибо, если у вас есть ссылки на статьи методического плана, которые раскрывают суть определенных методов анализа, чтобы можно было на них сослаться, это было бы очень полезно. Например, в журнале «Врач-аспирант», одну я нашла случайно.
Если вы принимаете в этот журнал статьи такого плана, то тоже возможно сотрудничество.
Есть ли статья Власова в инете?

Автор: плав 7.12.2007 - 23:22

Статья В.В. Власова доступна здесь:
http://www.mediasphera.ru/mjmp/2001/2/r2-01-7.htm
Еще одна статья с использованием анализа характеристических кривых и, как мне показалось при быстром просмотре нормальным русским языком тут
http://www.ehealth.ru/old/Sod/Pdf-03/num6/A03-6-05.pdf
Что же касается adjusted odds ratio - то по-русски это все-таки будет "откорректированные (или стандартизованные) отношения шансов" (благо в русском языке для моделей, корректирующих показатели смертности и заболеваемости age-adjusted mortality используется обозначение метода прямая/непрямая стандартизация). Соответственно, unadjusted odds ratio должно обозначаться как нестандартизированные, "сырые" или унивариантные отношения шансов.
К сожалению, устоявшейся терминологии в этой области нет, поэтому основное - чтобы поняли читатели.
Что же касается "Врач-аспирант" я тут не причем "сидим тут никого не трогаем, примусы починяем"

Автор: DrgLena 8.12.2007 - 01:23

Спасибо за полезную информацию. Я использую термин "согласованное" значение OR, поскольку стандартизированные - имеют метематически другое значение (типа стандартизированные коэффициенты уравнения регрессии). А согласованное значение появляется, если в уравнение множественной регрессии вводят новый член уравнения, например возраст, который согласовывает или приспосабливает коээффициенты с учетом влияния возраста. После этого OR может измениться вследствии этого согласования и появляется adjusted for age.
ПО ROC анализу Власов пишет, что он редко используется. Я его использую, возможно слишком часто, поскольку его рассматривают как инструмент диагностики. А можно ли его использовать для прогноза отсроченного состояния, т.е. создавать прогностический тест?
Эта ветка врачей-аспирантов не увлекла.

Автор: плав 8.12.2007 - 13:20

Что касается терминологии, то тут могут быть разные точки зрения. Мне кажется, что лучше использовать слова откорректированные и не откорректированные отношения шансов, поскольку самое главное ради чего делается многомерный анализ - выделить независимое от других показтелей влияние данного фактора на исход, откорректировать различия между группами по всем факторам, кроме анализируемого. Слово "коррекция" в данной ситуации кажется более очевидным, чем "согласование"
Что касается же создания прогностического теста, то сама логистическая регрессия очень часто используется для создания прогностических шкал (одной из первых была Фрмингемская шкала риска развития ССЗ). При этом используется, естественно, не сам анализ характеристических кривых (ибо он приспособлен для сравнения разных источников информации - откуда и название - тест вроде бы был сконструирован во время второй мировой войны для определения способности различать сигнал на фоне шума при радиопередачах разный _характер_ восприятия информации в зависимости от силы сигнала и размера шума). Строго говоря, для создания прогностической шкалы берут проспективно полученные данные, затем ищут точку наилучшего разделения (чаще всего ту, что ближе всего к левому верхнему углу на графике характеристической кривой), либо делят всю шкалу рассчитанных по логистической регрессии вероятностей на интервалы и описывают их как возможные значения вероятности развития, например, ИБС за определенный промежуток времени.
Я не очень люблю для этих целей логистическую регрессию, поскольку она не учитывает время, а, как говорил Дж.М.Кейнс "В долгосрочной перспективе мы все мертвы". Кроме того у нее очевидные проблемы тем, что оцениваются отношения шансов, а не относительный риск. Поэтому лучше для построения прогностических моделей пользоваться либо моделью Кокса (в случае бинарных исходов), либо Пуассоновой регрессией. Последняя, кстати, наиболее удобна для построения шкал

Автор: DrgLena 9.12.2007 - 01:47

Логистическую регрессию гораздо легче описывать в предметной области. Простые ясные трактовки коэффициентов и созданиие групп риска по набору факторов риска. Лнгко привести пример, как работает модель для конкретного больного. Знаю, и потому люблю. Кокс регрессионные модели использую, но не люблю. Поскольку мало представить значения exp (b), объяснить их величину и следовательно вклад в регрессию. Нужно еще знать, что делать потом, когда перед вами конкретный больной, вы подставляете значения его предикторов и.... Нужно вводить понятие базовый риск. Приводить кривую Каплан-Мейера для средних значений предикторов, и только после этого можно показать, где будет проходить кривая выживания для этого больного. Обычно медицинские статьи заканчиваются только представлением коэффициентов. До конца никто не доходит, чтобы эти уравнения использовать. Или я не права?
Пуассонову регрессию не знаю, очевидно - это SAS. Но я по SAS только книжку в руках держала, думаю Вашу! Жалею, что не купила. В сентябре была в Москве, ее уже нет.

Автор: плав 11.12.2007 - 22:02

На самом деле с Коксовской регрессией все не сложнее, чем с логистической. Если Вы имеете набор предикторов, то подставляя их значения в формулу получаете, насколько риск у одного пациента выше, чем у другого. Тот же результат в принципе получается и для логистической регрессии. В том случае, если надо оценить абсолютный риск для пациента, то тогда Вам нужен базовый риск, но, опять-таки он может быть достаточно легко рассчитан как средний риск по группе (например, риск на человеко-года наблюдения). И тогда индивидуальный риск равен среднему риску, умноженному на относительный риск. Логистическая регрессия дает такие же результаты, только время не учитывается.
Пуассонова регрессия относится к семейству логлинейных моделей и реализована (нормально) в SAS, Stata и R (в последнем пакете используется процедура, предназначенная для анализа модели пропорционального риска - т.е. модели Кокса). Если есть доступ к какому-либо из этих пакетов могу привести соответствующий код. Преимущество Пуассоновой регрессии в том, что она позволяет оценить относительный риск (RR), а не отношение шансов (OR), что значительно приятнее для когортных исследований. Кроме того, можно напрямую рассчитать абсолютный риск для пациента с заранее заданной комбинацией предикторов (а, соответственно, например можно оценить количество лиц, которых надо лечить для предотвращения одного исхода - NNT после коррекции по различий между группами по факторам риска).

Автор: DrgLena 12.12.2007 - 02:10

Спасибо, я имею только Stata 6.0. Но использовала ее очень давно и только однажды в 2000-1? году, меня привлекли к анализу данных по международному проекту (синдром внезапной детской смертности). Сопроводительные документы содержали специальный том по анализу данных, где было подробно описано как провести логистическую регрессию и анализ нужно было выполнить непременно в Stata 6.0. А дальше только help программы. И ROC после регрессии там тоже хорошо получился. Хоть график и был не в графическом, а в текстовом режиме. Но после работы с "кнопочными" программами - вернуться к Stata - это тяжелый труд, нужен стимул и интересная задача, которая бы требовала такого подхода. Постараюсь поискать в инете реализацию Пуассоновской регрессии в медицинских приложениях. Есть ли у вас такие ссылки?.
Есть ли информация о конференциях или семинарах в России по анализу данных и доказательной медицине.

Автор: плав 12.12.2007 - 13:47

Подробное описание с примерами на S есть в книге S.Selvin. Modern Applied Biostatistical methods. Краткий обзор можно найти в следующей статье http://www.unipr.it/arpa/facvet/annali/2006/025_044.pdf
Статьи в которых описывалось использование этого вида регрессии были опубликованы в Am.J.Epidemiology и доступны для просмотра
http://aje.oxfordjournals.org/cgi/content/full/159/7/702
и
http://aje.oxfordjournals.org/cgi/content/full/162/3/199
Обратите внимание внизу страниц список статей, которые цитировали эти статьи, т.е. тех, которые использовали предложенную методологию в разных областях медицины.
Stata 8 (насчет шестерки, просто не помню) дает график ROC кривой (нормальный график, не текстовой) с рассчитанной площадью под кривой по команде lroc. Кроме того диагностическая информация включая чувствительность, специафичность и проч. превосходит все, что только может выдать, например, Statistica (известно, что с точки зрения анализа качественных переменных Stata одна из лучших программ).
На самом деле "кнопочные" программы хуже, чем программы командной строки, если только человеку не надо сделать одну задачу и затем забыть об анализе данных. Можно просто сесть с секундомером и подсчитать, сколько времени уходит на обработку данных (с учетом необходимости чистки данных, трансформации переменных и т.п.) в "кнопочной" программе и программе командной строки. А для повторяющихся задач!
И это уж не говоря о том, что кнопочные программы ригидны и не позволяют реализовывать новые методы или это делается очень сложно.
Кстати для облегчения перехода у Stata сейчас есть очень удобная система меню (а у SAS - Enterprise Guide и SAS/Assist). Почти все (общие) команды можно вызвать через систему меню (у SAS небольшой поднабор) и так потихоньку выучить и язык.
Почитайте письма забугорных статистиков о кнопочных программах
http://www.pubhealth.spb.ru/SAS/point.htm
http://www.pubhealth.spb.ru/SAS/point2.htm (особенно интересно второе письмо)
Я, конечно, понимаю, что плыву против течения, но капля ведь и камень точит
Что касается семинаров - вроде сейчас много кто проводит... В СПб МАПО (С.Петербург) цикл по ДМ и биостатистике проводится раз в год в декабре, этим летом должна быть Летняя школа посвященная этим вопросам, организуемая ОИЗ в Москве. Ряд мероприятий проводит ОСДМ (www.osdm.org). Хотя, к сожалению, чаще всего конференции строятся по принципу "что такое РКИ, как плохо с наукой, какой плохой t-тест. Да здравствует тест Вилкоксона, отношения шаносв и хи2!". Обсуждения реально современных методов наблюдается достаточно редко и и еще реже того, как интерпретировать полученные результаты, где подводные камни интерпретации и т.п.
Интересная дискуссия в этой связи была на страницах международного журнала медицинской практики
http://www.mediasphera.ru/journals/practik/2006/2/
http://www.mediasphera.ru/journals/practik/338/
Лучше отформатированная версия статей в МЖМП 2006 года на сайте Леонова
http://www.biometrica.tomsk.ru/MJMP_2_2006.htm

Автор: DrgLena 12.12.2007 - 21:05

Большое спасибо!
Вполне достаточно информации, чтобы взяться за дело и применить пуассонову регрессию.
Информация с сайтов Леонова и МЖМП у меня есть. Сейчас они кое-что прикрыли и нет в полном доступе. Леонову я даже посылала свои работы в сборник "Вероятностные идеи в науке и философии", там был медицинский раздел, в 2003 году. Но, когда я встретила его собственную статью о влиянии солнечной активности на частоту врожденных уродств, то поняла, что и на Солнце бывают пятна, а генетики рядом с Леоновым отдыхают. Особенно удивила его мысль пользе обращения причинно-следственных связей в его работе по гинекологическим заболеваниям матерей и дочерей, из которой следует, что по гинекологическому здоровью дочери- студентки можно сделать вывод о здоровье матери. Это о трактовке и биологическом смысле результатов анализа данных.

Автор: Elene 25.12.2007 - 16:00

Здравствуйте!
Помогите, пожалуйста! Мне нужно вычислить вероятность осуществления некоторого события (например, выживаемости), имея вероятности выживаемости в группах нескольких признаков. Например, есть вероятность выживания в зависимости от возраста; вероятность в зависимости от веса, пола (например) и др. Что нужно сделать с этими тремя вероятностями, чтобы получить одну общую? (зная возраст, вес и пол)?

Автор: плав 26.12.2007 - 23:47

Надо поточнее описать задачу. Выживаемость не имеет вероятности, они и есть вероятность (вероятность прожить х лет/месяцев/дней). Если у Вас есть время до момента наступления события (смерти или окончания исследования), то надо пользоваться методами анализа выживаемости, предпочтительно моделью пропорционального риска Коска, куда и включить все интересующие Вас переменные (возраст, вес и пол). Если у Вас нет данных о времени наблюдения, значит выживаемость Вы оценить не можете, а оцениваете только вероятность наступления события (дожил человек до конца исследования или нет). Тогда Вам нужна логистическая регрессия.

Автор: DrgLena 29.12.2007 - 01:51

Я думаю Elene не четко сформулировала задачу. Возможно, она состоит в том, чтобы имея exp коэф., (которые часто трактуют как вероятность) по трем показателям посчитать вероятность выживания. Такие вопросы возникают, когда в публикациях приводятся эти коэффициенты и возикают вопросы у читателей, как их использовать для своих больных.

Автор: Galka_gf 4.11.2008 - 10:59

Здравствуйте, уважаемый Плав!
У меня есть несколько давно наболевших вопросов, относительно логистической регрессии. К сожалению, самостоятельно никак не могу с ними справится.
Во многих зарубежных статьях встречаются такого рода цитаты: Adjusted for age, sex, ets....
Вопросы:
Как выполнить этот adjustment, как определить независимые переменные, по которым он выполняется.
Пробовала выполнить расчеты в SAS 9.1, пользуясь Вашей книгой, но в резултат анализа не содержал данных, полностью соответствующих структуре описанной в книге.
Опять же, остаются вопросы, изложенные выше, относительно набора переменных, которые будут влиять на Odds.

Автор: плав 4.11.2008 - 17:49

Цитата(Galka_gf @ 4.11.2008 - 10:59)

Adjusted for age, sex и т.д. означает просто, что в логистической регрессионной модели были включены переменные пол и возраст. Т.е. если вы создали модель, например:
PROC LOGISTIC DESCENDING;
MODEL Isxod=age sex treatment;
RUN;
то полученные отношения шансов для treatment будут как раз age and sex adjusted...

CODE

 The LOGISTIC Procedure

                          Analysis of Maximum Likelihood Estimates

                                            Standard          Wald
             Parameter    DF    Estimate       Error    Chi-Square    Pr > ChiSq

             Intercept     1     -5.2417      0.3139      278.8676        <.0001
             AGE           1      0.1060     0.00639      275.7084        <.0001
             EDHIGH        1     -0.5383      0.0906       35.3186        <.0001
             EDLOW         1      0.4655      0.0833       31.2356        <.0001


                                    Odds Ratio Estimates

                                      Point          95% Wald
                         Effect    Estimate      Confidence Limits

                         AGE          1.112       1.098       1.126
                         EDHIGH       0.584       0.489       0.697
                         EDLOW        1.593       1.353       1.875


                Association of Predicted Probabilities and Observed Responses

                     Percent Concordant       68.8    Somers' D    0.393
                     Percent Discordant       29.5    Gamma        0.399
                     Percent Tied              1.7    Tau-a        0.196
                     Pairs                 3812130    c            0.696

Выше приведена распечатка в 9.1 она, немного отличается от того, что в книге (там даже в примечании указано, что в книге - с версии 6.12, команды же аналогичны книжным), однако не сильно. Основное различие, что доверительные интервалы для переменных вынесены в отдельный блок. Соответственно, по сравнению с лицами, имеющими среднее образование, лица не закончившие даже среднюю школу имеют шансы умереть в 1,59 раз выше (95%ДИ=1,35-1,87). Вот это отношение шансов является откорректированным на возраст (age-adjusted), поскольку возраст включен в модель.

Автор: Galka_gf 5.11.2008 - 07:26

т.е. коррекция проводится только в случае включения в модель количественных переменных? А если я закодирую возраст в виде нескольких дихотомических переменных, то никакой коррекции не будет выполнено (она просто будет не нужна).
В случае с количественным возрастом я должна буду указать в сноске: "Adjusted for age, sex, treatment"? или нет?

"...то полученные отношения шансов для treatment будут как раз age and sex adjusted..." и почему для treatment а не для Isxod?

Автор: плав 5.11.2008 - 13:41

Цитата(Galka_gf @ 5.11.2008 - 07:26)

1) Нет, коррекция по всем внесенным в модель переменным (строго говоря, процедура не знает, что такое качественные переменные, путем использования дихотомических переменных мы систему "обманываем")
2) Потому, что мы брали отношение шансов для treatment. ISxod - это зависимая переменная, шансы которой как раз меняются под воздействием treatment.

Автор: Galka_gf 6.11.2008 - 12:12

Я так понимаю, что переменные в модели согласовываются относительно друг друга, или масштабируются, или приводятся к одному "формату", для того, чтобы в дальнейшем их можно было интерпретировать.
В одной из статей нашла вот такую фразу: "Tests statistical significance of adding corresponding variables to the model adjusted for all other variables."

Автор: плав 6.11.2008 - 18:47

Цитата(Galka_gf @ 6.11.2008 - 12:12)

Примерно так, на самом деле модель отвечает на вопрос, как бы менялась зависимая переменная при изменении данной независимой переменной, если бы значения всех остальных переменных были бы неизменными. Поскольку большинство моделей являются линеаризуемыми, то выражение для них записывается так:
F(Y_i)=a+b1x1+b2x2+epsilon_i
В случае логистической регрессии преобразование, позволяющее записывать линейную функцию - логиты (ln(p/(1-p)) - или логарифмы шансов. Epsilon - случайная вариабельность или показатель "шума" в модели? x1 и x2 - значения включенных в модель переменных.
Теперь представим себе, что мы хотим оценить, как изменится среднее F(Y) если значение x1 изменится на одну единицу, а значение x2 останется неизменным. Поскольку мы оцениваем среднее F(Y), epsilon обращается в 0 и формула упрощается:
E(F(Y))=a+b1x1+b2x2
Тогда для x1=x' и x1=(x'+1) - разность на одну единицу, имеем:
E(F(Y0))=a+b1(x')+b2x2
E(F(Y1))=a+b1(x'+1)+b2x2
Их разность, очевидно
E(F(Y1))-E(F(Y0))=a+b1(x'+1)+b2x2 - a-b1(x')-b2x2=b1
Итак в этой модели коэффициент регрессии равен изменению ожидаемой (средней) величины зависимой переменной при изменении независимой величины на одну единицу (обратите внимание, что все остальные факторы устраняются). Это справедливо для любой линеаризуемой модели.
Вернемся к логистической регрессии. Разность логарифмов равна логарифму отношения. Поскольку логарифмировались шансы, значит коэффициент регрессии равен логарифму отношений шансов при изменении независимой переменной на одну единицу.
Отсюда и идет расчет отношения шансов и тот факт, что это откорректированное отношение шансов.