Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Анализ данных типа времени жизни

Автор: Игорь 12.12.2008 - 20:53

При анализе данных типа времени жизни возникает необходимость расчета дисперсии функции выживания. Она необходима для расчета ДИ.

На с. 238 книги "Эпидемиология" Власов приводит результаты, рассчитанные программой STATISTICA. Результаты вызывают сомнение (почему стандартная ошибка так растет к концу интервала - это не подтверждают расчеты). К тому же Власов дает ссылку на свою же формулу, представляющую собой просто дисперсию доли. Расчет именно по данной формуле практически не имеет ничего общего с приведенным листингом.

С другой стороны, Кокс в книге "Анализ данных типа времени жизни" на с. 53 дает формулу Гринвуда, расчет по которой просто не получается. По другой из формул (4.6, там же) результат выглядит правдоподобным, но отличается от результатов Власова.

Во-вторых, для ДИ Кокс приводит формулу, в которой фигурирует стандартное отклонение, а не стандартная ошибка. Если произвести вычисление по данной формуле, ДИ просто не получаются разумными.

Итак, вопрос. Как считать дисперсию и ДИ функции выживания?

Автор: nokh 12.12.2008 - 21:32

Книги Кокса нет, но есть Hosmer, Jr. and Stanley Lemeshow. Applied Survival Analysis: Regression Modeling of Time to Event Data. Ее можно быстро найти в сети в формате djvu (3,8 Mб). Сейчас быстро пробежался - единственного решения нет - в книге этому отведено несколько страниц текста с описанием и формулами + приложения 1 и 3.

Автор: DrgLena 12.12.2008 - 22:17

Фрагмент начала таблицы:
Kaplan-Meier (Product-limit) analysis.Note: Censored cases are marked with +
Case Number Time Cumulatv Survival Standard Error
1 1+ 3.0667
2 2+ 3.0667
3 3+ 3.1000
4 4 3.2000 0.998906 0.001093
5 5+ 3.3333
6 6+ 3.5000
7 7 3.5667 0.997809 0.001547

Начиная с первого события (умер 4 больной), ошибка считается по той же формуле Гринвуда:
s.e.=0.998906*sqrt(1/(917*(917-1)))
дальше, для больного 7 (второй умерший), появляется еще одно слагаемое под корнем, и т.д. Ошибка растет не в конце интервала, а в конце наблюдения.
Все программы дают в этом модуле именно стандартную ошибку и она совпадает с посчитанной руками по формуле Гринвуда. Подробно и ясно написано у Стентона Гланца, стр 382-383. Таблица расползается, но ясно, что в последней колонке s.e.

Автор: DoctorStat 12.12.2008 - 22:35

Цитата(DrgLena @ 12.12.2008 - 22:17) *
Начиная с первого события (умер 4 больной), ошибка считается по той же формуле Гринвуда:
Формула Гринвуда (Гланц, стр.382) дает нулевую стандартную ошибку до момента смерти 1-ого пациента.

Автор: плав 12.12.2008 - 22:54

Дисперсия логарифма функции дожития:
\sum_{t_i<t}(d_i/(r_i-d_i)/r_i,
==Tex==$\sum_{t_i<t}\frac{d_i}{(r_i-d_i)r_i}$
где d_i - количество умерших в i-ом интервале, r_i - количество живых на начало i-го интервала
Соответственоо для S(t) дисперсия
S(t)^2*\sum_{t_i<t}(d_i/(r_i-d_i)/r_i,
==Tex==$S(t)^2*\sum_{t_i<t}\frac{d_i}{(r_i-d_i)*r_i}$
очевидно, что дисперсия будет "расползаться" к концу срока (в правой части графика выживаемости), поскольку количество живых на начало интервала будет снижаться.
Формула Пето
var(S(t))=S(t)^2*(1-S(t))/R(t)
==Tex== $var(S(t))= \frac{S(t)^2*(1-S(t))}{R(t)}$
где R(t) - численность группы риска
В формуле Пето дисперсия пересчитывается в момент цензурирования или смерти, в формуле Гринвуда - только смерти.
Расчет ДИ может белаться двумя путями:
S(t) +/- z(alpha/2)*\sqrt(Var(S(t))
Возможная проблема - выход ДИ за пределы 0 или 1
Рассчитать величину V(t)=ln(-ln(S(t))) - двойной логарифм функции выживания. Ее дисперсия Var(V(t))=Var(S(t))/[S(t)*ln(S(t))]^2
==Tex==$Var(V(t))=\frac{Var(S(t))}{[S(t)*ln(S(t))]^2}$
Доверительный интервал V(t)+/-z(alpha/2)*\sqrt(Var(V(t)).
==Tex==$V(t) \pm (alpha/2)*\sqrt{Var(V(t)}$
Доверительный интервал для функции выживания получается путем двойного экспоненциирования полученных границ.

Cantor A., SAS Survival Analysis Techniques for Medical Research., SAS Institute, 2003, p.23-25

P.S. поскольку формулы текстом набирать неудобно, после ==Tex== идут latex'овские формулы, можно посмотреть в любом редакторе, совместимом с ним.

Автор: DrgLena 12.12.2008 - 23:23

Цитата(DoctorStat @ 12.12.2008 - 22:35) *
Формула Гринвуда (Гланц, стр.382) дает нулевую стандартную ошибку до момента смерти 1-ого пациента.

Да, как и на первом интервале при расчете Таблиц выживаемости. При К-М первым интервалом считают тот, где произошло первое событие.

Автор: плав 13.12.2008 - 01:21

Цитата(DrgLena @ 12.12.2008 - 23:23) *
Да, как и на первом интервале при расчете Таблиц выживаемости. При К-М первым интервалом считают тот, где произошло первое событие.

По формуле Гринвуда дисперсию считают только на момент смерти пациента. По Пето - смерти или цензурирования

Автор: Игорь 14.12.2008 - 17:41

Заранее извиняюсь: немного ознакомился с литературой по этой новой для меня теме, поэтому могу фатально ошибаться, а могу и нет.

Цитата(DrgLena @ 12.12.2008 - 23:17) *
Все программы дают в этом модуле именно стандартную ошибку и она совпадает с посчитанной руками по формуле Гринвуда. Подробно и ясно написано у Стентона Гланца, стр 382-383. Таблица расползается, но ясно, что в последней колонке s.e.

Это - слишком сильное утверждение, означающее только одно - ВСЕ программы врут. Причем это не мое утверждение, а логический вывод из утверждения уважаемого собеседника. Ибо по формуле Гринвуда стандартную ошибку посчитать нельзя, т.к. по данной формуле считают не стандартную ошибку, а дисперсию. Чтобы из дисперсии получить стандартную ошибку, надо ее (дисперсию) поделить на численность чего-либо, а затем из промежуточного результата извлечь квадратный корень.

Вот в этом-то все и дело - на что именно делить дисперсию по Гринвуду? Если на суммы (оставшихся в живых + умерших в данный момент), результат расчета ДИ, по крайней мере, правдоподобен. А вот если не делить, то, опять повторюсь и извинюсь, все источники врут, т.к. почти для всей кривой выживаемости верхняя граница ДИ будет > 1. В том числе и Кокс, который, как и уважаемого собеседника, также лежит на моем столе. И я подставляю числа в формулу Гринвуда, и вижу, что результаты расчета различаются с приведенными. Причем сильно. При этом результаты расчета самой кривой выживаемости полностью (!) совпадают с имеющимися в распоряжении источниками (Власов, например).

Но все программы и источники врать не могут. Следовательно, приходим к выводу, что приводятся одни формулы, а результаты расчета, их иллюстрирующие, получены по другим формулам. Такое баловство мне давненько, лет 30, не встречалось.

Цитата(nokh @ 12.12.2008 - 22:32) *
Книги Кокса нет, но есть Hosmer, Jr. and Stanley Lemeshow. Applied Survival Analysis: Regression Modeling of Time to Event Data. Ее можно быстро найти в сети в формате djvu (3,8 Mб). Сейчас быстро пробежался - единственного решения нет - в книге этому отведено несколько страниц текста с описанием и формулами + приложения 1 и 3.

Посмотрел. Хорошая идея - функция = 1 до гибели 1-го пациента. В STATISTICA этого нет. А вот то, что авторы сознательно избегают решения "жареных" вопросов (например, что делать, если есть несколько пациентов с одним сроком, причем часть из них цензурирована, а часть нет), чести им не делает. А вот Власов данный вопрос рассмотрел подробно.

Цитата(плав @ 12.12.2008 - 23:54) *
Cantor A., SAS Survival Analysis Techniques for Medical Research., SAS Institute, 2003, p.23-25

Спасибо, не видел данную книгу. Начал искать - не нашел. Поискал еще. Может, кому пригодится. 1 глава - http://support.sas.com/publishing/pubcat/chaps/58416.pdf. Вторая глава - http://books.google.ru/books?id=iyvvwCAM_aUC&output=html. Очень приятно.

Автор: DrgLena 14.12.2008 - 18:52

Игорь, я уважаю вас за смелость высказывания, однако вы не потрудились заглянуть на указанную стр у Гланца. Там приведена формула Гринвуда для расчета стандартной ошибки выживаемости. Я вам показала, что я ручками получаю то, что дают программы и называют они это s.e. и это вовсе не дисперсия, а дальше там написано, как ДИ считается, используя s.e. Вы пользуетесь той же формулой?

Автор: плав 14.12.2008 - 20:30

Цитата(DrgLena @ 14.12.2008 - 18:52) *
Игорь, я уважаю вас за смелость высказывания, однако вы не потрудились заглянуть на указанную стр у Гланца. Там приведена формула Гринвуда для расчета стандартной ошибки выживаемости. Я вам показала, что я ручками получаю то, что дают программы и называют они это s.e. и это вовсе не дисперсия, а дальше там написано, как ДИ считается, используя s.e. Вы пользуетесь той же формулой?

Это где-то уже обсуждалось ранее, но я все-таки повторю. Принципиальная ошибка здесь в том, что забывается, что se - это не что иное, как стандартное отклонение выборочных средних. Соответственно, квадрат se - это дисперсия выборочных средних. Для расчета ДИ нужна дисперсия (или стандартное отклонение). Просто дисперсия выборочных средних по центральной предельной теореме определяется как популяционная дисперсия деленная на квадратный корень из размера выборки. Отсюда и путаница.
Поэтому в данном случае определяем дисперсию функции выживаемости, извлекаем из нее корень и используем для оценки ДИ. Еще раз, чтобы не было так путанно, ДИ зависит от дисперсии изучаемого параметра, а SE - показатель, который только путает ситуацию (грубо говоря, забудьте о SE и говорите о стандартном отклонении/дисперсии)

Автор: DrgLena 14.12.2008 - 21:01

Да, Игорь запутался именно из-за перевода и терминологии. Хотелось бы, чтобы у нас был тот же язык, который во всем мире принят для s.e. SD и Variance
Формула Гринвуда, вывод которой Кокс приводит, это формула для дисперсии. На странице 54, если книжка Кокса перед вами вы можете увидеть, что для первого значения функции выживания 0,8571 стандартное уклонение, на самом деле это стандартная ошибка (s.e.), и она получена так=0.8571*sqrt(3/(21*(21-3))) =0.0763565368 ее и используют для расчета ДИ
Корень квадратный из формулы Гринвуда и есть s.e. и Гланц ее и приводит.
Once the variance has been calculated, the standard error can be determined by taking the square root of the variance: http://www.weibull.com/LifeDataWeb/nonparametric_analysis.htm

Автор: Игорь 14.12.2008 - 22:20

Да, спасибо, по Гланцу все считается нормально.

Автор: Игорь 29.12.2008 - 19:37

Если позволите, 2-й практический вопрос.

Зачем программа STATISTICA (судя по имеющимся иллюстрациям из источников) выводит на графике выживаемости обозначения (крестиком) цензурированных индивидуумов?

Полагаю, что вывод на графике данной информации не имеет никакого смысла, т.к., во-первых, цензурирование уже учтено при построении графика. Во-вторых, график выживаемости является своего рода интегральной характеристикой, построенной по данным достаточно большой совокупности пациентов, и от каждого конкретного пациента график абстрагирован. Ну, и в-третьих, может быть несколько (много) больных с одним и тем же сроком, причем часть из них может быть цензурирована, а часть нет.

Автор: DrgLena 29.12.2008 - 20:35

Мне как раз нравится видеть на этих графиках плюсики, но к сожалению там есть и нулики. Анализируя такой график, можно увидеть, где сосредоточены и те и другие. Метастазирование при этой патологии чаще отмечается в первые 5 лет, но не для всех типов опухолей. Полезна также информация, что есть отдаленные наблюдения и там много выживших, т.е. цензурированных на определенный срок. По такому графику можно сказать например, что более 20 лет наблюдается 101 больной, и это не просто цензурированные на этот срок наблюдения, а конкретные больные, которые отвечают на письма, после онкопатологии.

 onco3.ppt ( 499,5 килобайт ) : 592
 

Автор: плав 29.12.2008 - 20:38

Цитата(Игорь @ 29.12.2008 - 19:37) *
Если позволите, 2-й практический вопрос.

Зачем программа STATISTICA (судя по имеющимся иллюстрациям из источников) выводит на графике выживаемости обозначения (крестиком) цензурированных индивидуумов?

Полагаю, что вывод на графике данной информации не имеет никакого смысла, т.к., во-первых, цензурирование уже учтено при построении графика. Во-вторых, график выживаемости является своего рода интегральной характеристикой, построенной по данным достаточно большой совокупности пациентов, и от каждого конкретного пациента график абстрагирован. Ну, и в-третьих, может быть несколько (много) больных с одним и тем же сроком, причем часть из них может быть цензурирована, а часть нет.

Цензурированные наблюдения на графике приводить принято по причине того, что в этом случае (при Каплан-Мейере) на графике есть все данные. Поскольку принято считать время наблюдения в днях, вероятность того, что в конкретный день будет много умерших и цензурированных невелика, особенно учитывая то, что анализ пришел из онкологии с относительно небольшими группами. Кроме того, большое количество цензурированных наблюдений в начале будут указывать на подозрительность оценок функции выживаемости на более поздних сроках.

Автор: Игорь 30.12.2008 - 08:31

Нельзя сказать, что все понял.

Немного иначе тогда. Зачем нужен график выживаемости? Если для иллюстрации состояния дел к конкретном случае (патологии, метода, клиники), то приводить состояние наблюдаемого случая на графике (умер - 0, цензурирован - +), конечно, нужно. Но в таком случае график лишь заменяет таблицу, хотя и радикально улучшая восприятие информации.

Но при изучении источников мне казалось, что не эта иллюстративная цель в построении графика основная. Может быть, основной целью графика выживаемости все-таки является прогнозирование исхода для конкретного пациента (пусть даже не участвовавшего в исследовании), имеющего данное заболевание? Например, при таком-то заболевании вероятность остаться в живых через полгода (после выявления симптомов заболевания) для данного пациента (пока живого) составляет 0,875.

Да, еще такая проблема. Пусть для данного срока имеется 5 случаев (3 умерли, 2 цензурированы). На графике 3 нуля и 2 креста сольются. Как быть?

Автор: DrgLena 30.12.2008 - 15:39

Если коротко, поскольку уже включен проект Новый Год, то графики К-М характеризуют группу или демонстрируют различия в нескольких группах, как я проиллюстрировала. Храрктеристики - медиана, квартили и соответствующие критерии сравнения функции выживаемости. А чтобы для каждрго конкретного больного посчитать функцию выживаемости используют cox регрессию и по его данным строят кривую вероятности выживания на каждый срок. Такой случай, что в один и тот же день один больной умер, а другой ответил и он жив, на графике при этом плюс и нуль совпадут.

Автор: плав 30.12.2008 - 19:07

Цитата(Игорь @ 30.12.2008 - 08:31) *
Нельзя сказать, что все понял.

Немного иначе тогда. Зачем нужен график выживаемости? Если для иллюстрации состояния дел к конкретном случае (патологии, метода, клиники), то приводить состояние наблюдаемого случая на графике (умер - 0, цензурирован - +), конечно, нужно. Но в таком случае график лишь заменяет таблицу, хотя и радикально улучшая восприятие информации.

Но при изучении источников мне казалось, что не эта иллюстративная цель в построении графика основная. Может быть, основной целью графика выживаемости все-таки является прогнозирование исхода для конкретного пациента (пусть даже не участвовавшего в исследовании), имеющего данное заболевание? Например, при таком-то заболевании вероятность остаться в живых через полгода (после выявления симптомов заболевания) для данного пациента (пока живого) составляет 0,875.

Да, еще такая проблема. Пусть для данного срока имеется 5 случаев (3 умерли, 2 цензурированы). На графике 3 нуля и 2 креста сольются. Как быть?

Во-первых 5 случаев на одном сроке крайно маловероятно. Повторюсь, единицей измерения обычно является день чтобы было пять случаев надо группу около тысячи человек с ожидаемой продолжительностью жизни один год. Так что в реальности кресты не сливаются.
Во-вторых. Нулем помечать случаи не надо. КМ график является ступенчатым, соответственно, там где ступенька, там и не цензурированный случай.
В-третьих, использовать графики для прогноза опасно, поскольку это эмпирическая - выборочная кривая выживаемости. При использовании другой выборки кривая пойдет иначе. Так что график - просто иллюстрация ситуации и вузуальное сравнение групп и предположения о характере распределения времен дожития.

Автор: Игорь 2.01.2009 - 12:11

Цитата(DrgLena @ 29.12.2008 - 21:35) *
Мне как раз нравится видеть на этих графиках плюсики, но к сожалению там есть и нулики.

Ну это тема для другой ветки. Для себя я понял, что указывать на графике крестики и нолики необходимости нет. Тем более, что в Excel это сделать непросто.

Посмотрел прилагаемую презентацию. Спасибо. Оказалась кстати (но и вызвала ряд вопросов), т.к. в изучении выживаемости добрался до сравнения графиков выживаемости. Один из вопросов возник относительно методики сравнения, представленной на втором слайде. Например, Скрипник с соавт. в книге "Анализ надежности технических систем по цензурированным выборкам" полагают, что необходимо использовать логарифмический ранговый критерий (он же критерий Кокса, он же обобщенный критерий Сэвиджа). Реализация данного метода на основе критерия Сэвиджа сложности совершенно не вызвала.

Позволю себе цитату из упомянутой монографии (с. 120): " ... при наличии цензурирования критерий Пирсона становится практически неприменим, а критерии Колмогорова и Крамера-Мизеса теряют многие из своих свойств и требуют проведения дополнительных специальных исследований для определения распределений порождаемых статистик".

Как оказалось, не зря я приобрел "про запас" монографию Скрипника с соавт. 1988 года издания, т.к. книга Кокса и Оукса, в том же году изданная, вопреки рекламе из предисловия, никакого "неформального введения" в предмет не дает, а представляет собой безусловно полезное эссе (составленное грамотными - почти гениями, но методически неопытными авторами), полезное для чтения лишь после всестороннего изучения предмета по другим источникам. При первом изучении Кокса-Оукса ничего не понятно. После же изучения предмета и повторном чтении данной книги постоянно не покидает мысль: "Вот-вот, где-то я это уже видел". smile.gif

Замечание к обсуждению дисперсии. При некоторых наборах исходных данных формула Гринвуда оказывается неприменимой по причине появления нуля в знаменателе.

Автор: DrgLena 2.01.2009 - 18:44

Я не очень поняла вопроса. Хи квадр, не значит Присона. По второму слайду, например
Overall Comparisons
Log Rank (Mantel-Cox) Chi-Square=66,250
Breslow (Generalized Wilcoxon) Chi-Square=65,563
Tarone-Ware Chi-Square=67,372 (Это SPSS)
Т.е. При больших выборках практически одинаковые значения критериев.

При сравнении двух выборок программа Statistica предлагает 5 тестов.
Кое что про них известно,

Gehan?s Wilcoxon наиболее часто используют, рекомендуют в тех случаях, когда различия в кривых наиболее выражены в начальный период наблюдения, а также, когда нарушается модель пропорциональных рисков.
Cox?s используют при экспоненциально распределенных выборках. Этот критерий особенно чувствителен к различиям на концах распределений.
Log-Rank Test рекомендуют, когда наблюдаемое число смертей мало.

Я предпочитаю Cox?s и Log-Rank Test просто потому, что в зарубежных публикациях по этой патологии чаще их используют, это наиболее мощные критерии, но риск у меня не пропорциональный, а с хвостами распределения, я не всегда знаю как поступать.

Автор: DrgLena 2.01.2009 - 18:55

Я из ранее представленной презентации сделала график сравнения двух групп, клечточный тип 2 и 3. Сравнения по 5 критериям
1. Gehan's Wilcoxon Test WW = -7355. Sum = 2044E4 Var = 4930E3 Test statistic = -3.31239 p = .00093
2. Cox's F-Test T1 = 93.42011 T2 = 68.57989 F( 98, 224) = 1.677947 p = .00088
3. Cox-Mantel Test I = 39.30574 U = -20.9806 Test statistic = -3.34649 p = .00082
4. Peto & Peto Wilcoxon Test WW = 17.310 Sum = 108.88 Var = 26.259 Test statistic = 3.377951 p = .00073
5. Log-Rank Test WW = 20.981 Sum = 160.11 Var = 38.613 Test statistic = 3.376394 p = .00073

Может пригодится тому, кто пишет...

 

Автор: Игорь 11.01.2009 - 06:54

Спасибо, интересная информация. Не совсем понятна тяга разработчиков к хи-квадрат. В источниках представлена нормальная аппроксимация для тех же методов. Но это непринципиально.

Возник еще вопрос. Задача такая - имеется плотность эмпирического распределения. Задача - подобрать подходящее теоретическое распределение.

В источниках теоретическое распределение обычно подбирается по исходным данным. Но тут несколько иная постановка.

Автор: Игорь 11.01.2009 - 16:22

Нашел в книге Кобзаря.

Автор: Ssovev 17.01.2009 - 14:02

Это что за книга такая?

Автор: Игорь 17.01.2009 - 16:06

Цитата(Ssovev @ 17.01.2009 - 14:02) *
это что за книга такая?

Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006.

Опубликована версия AtteStat 10, в которую вошел модуль "Анализ выживаемости" со всеми необходимыми теоретическими обоснованиями. Предварительно, программа будет доступна для скачивания до 10 февраля включительно, после чего за неуплату сайт будет ликвидирован. Затем программа будет доступна бесплатно только по электронной почте после направления автору соответствующего запроса. Это предварительно. Если удастся найти источник финансирования, все останется по-прежнему.

Автор: Igoroshka 22.01.2009 - 15:50

Несколько книг по "выживаемости".
Advances in Survival Analysis. Rao, Balakrishnan. Elsevier, 2003
Applied Survival Analysis - Regression Modeling of Time to Event Data. Hosmer, Lemeshow (есть примеры на R, SAS, Stata, SPSS)
Dynamic Regression Models For Survival Data. Martinussen, Scheike
Regression Models and Life-Tables. Cox. 1972
Statistical Methods for Survival Data Analysis. Lee, Wang. 2003, 3ed
Cox Proportional-Hazards Regression for Survival Data. Fox (применительно к R-system)
Survival Analysis. A Self-Learning Text. Kleinbaum, Klein. 2ed. Springer, 2005
Survival Analysis. Stevenson
Survival Analysis for Epidemiologic and Medical Research. Selvin. 2007
The Statistical Analysis of Failure Time Data. Kalbfleisch, Prentice. 2Ed. Wiley, 2002
The Statistical Analysis of Recurrent Events. Cook, Lawless. Springer, 2007
Therneau - frailty
Using Residuals with Cox Models. Terry Therneau
Comparing Marginal and Random Effects Frailty Models. Terry Therneau

Описания многих подходов, используемых при анализе время-событие можно найти в описания модулей R (например, http://cran.gis-lab.info/web/packages/)
survival
muhaz
eha
Design
surv2sample
TSHRC
emplik
dblcens
coin
CPE
coxphf
intcox
NestedCohort
proptest
glmpath
rankreg
quantreg
crq
lss
gamlss.cens
smoothSurv
mixPHM
mvna
frailtypack
survrec
gcmrec
cmprsk
relsurv
MLEcens
CompetingRiskFrailty
DPpackage
survBayes
mboost
CoxBoost
randomSurvivalForest
KMsurv
survivalROC
tpr
party
TwoWaySurvival

Автор: Igoroshka 22.01.2009 - 15:59

Еще парочка:
Survival Analysis Using S-R. Tableman
Survival Analysis Using the SAS System. A Practical Guide


Автор: плав 22.01.2009 - 16:47

Цитата(Igoroshka @ 22.01.2009 - 15:50) *
Несколько книг по "выживаемости".


Не понятно, это к чему? Если Вы эти книги читали и рекомендуете, пожалуйста краткую характеристику.
В противном случае, каждый может на amazon.com ввести слово survival в поиск. Насчет R те же рекомендации - характеристику пакетов и преимущества одного перед другим.

Автор: Igoroshka 22.01.2009 - 17:46

На амазоне книг гораздо больше smile.gif.
Это те книги, которые есть у меня, и которыми могу поделиться.

Насчет характеристики -- сложновато. По последней, которую изучал:

Survival Analysis Using S-R. Tableman
Курс лекций Tableman, представленные в виде книги.
Кратко рассмотрена теория, даны примеры анализа выживаемости с использованием S (R-system, S+). При рассмотрении примеров используются как стандартные средства, так и функции, разработанные автором и ассистентами. По тексту функций можно проследить алгоритм.
Рассмотрены следующие вопросы:
. оценки КМ и Нельсона-Аалена; квантили; функция риска
. сравнение выживаемостей (лог-ранговый, Пето, rho Harrington and Fleming
. моделирование выживаемости распределениями: экспоненциальным, Вейбула, лог-нормальным, лог- логистическим, гамма; сравнение групп, моделированных парам. распределениями
. параметрические регрессионные модели; процедура AIC
. регрессионный анализ Кокса; процедура AIC. Стратифицированный регрессионный анализ
. проверка моделей, проверка пропорциональности

Если будет интересно, еще несколько смогу подготовить.

Насчет сравнения модулей для R. Это сложно сделать. Частичное перекрытие функций есть. Но, в основном, каждый из них реализует дополнительные возможности. Например, используя модуль survival можно получить оценку функций риска. Но лучше использовать функции, предложенные в вышеназванной книге. А пакет muhaz дополнительно позволяет получить сглаженные функции риска. Пакет surv2sample позволяет сравнивать выживаемость в 2-х группах с различными весами, а также проверить предположение о пропорциональности рисков и шансов (proportional hazards, proportional odds).

Автор: DoctorStat 22.01.2009 - 21:42

Цитата(Igoroshka @ 22.01.2009 - 17:46) *
Это те книги, которые есть у меня, и которыми могу поделиться.
Поделитесь книгами со мной smile.gif

Автор: плав 22.01.2009 - 22:05

Цитата(Igoroshka @ 22.01.2009 - 17:46) *
Survival Analysis Using S-R. Tableman
...
Насчет сравнения модулей для R. ...

Ну вот, наконец-то на форуме еще кто-то появился кому R нравится smile.gif


Автор: DoctorStat 22.01.2009 - 22:45

Цитата(плав @ 22.01.2009 - 22:05) *
Ну вот, наконец-то на форуме еще кто-то появился кому R нравится smile.gif
«мне нравится R» - это неправильное выражение. Во времена СССР выпускалась такая книжица с названием «ЭТО должен знать каждый». Про ее содержание точно сказать не могу, кажется, она была посвящена гражданской обороне. Актуальность обороны нашей страны в то время была вызвана холодной войной, развязанной проклятыми капиталистами, которые хотели нас захватить и т.д. Здесь аналогичный случай, только слово «ЭТО» нужно заменить на букву «R». Актуальность программы R обусловлена наличием полезной функциональности, отсутствующей в других статистических пакетах (таких как Statistica и SPSS), что неоднократно подтверждалось на этом форуме. Грубо говоря, мы вынуждены изучать R, чтобы не прослыть невежами. Предлагаю текущий лозунг дня: «А ты уже попробывал R?»

Автор: Igoroshka 23.01.2009 - 11:07

На самом деле все гораздо проще smile.gif. С моей точки зрения. R бесплатен в отличие от очень платной Статистики, не говоря уже о других "сильных мира сего". В функциональности и "правильности" вряд ли стоит убеждать кого-либо. А коммандная строка при ближайшем рассмотрении это скорее плюс, чем минус при реальном анализе.

Автор: Igoroshka 23.01.2009 - 11:10

Цитата(DoctorStat @ 22.01.2009 - 20:42) *
Поделитесь книгами со мной smile.gif

Какими? Наверное, лучше в личку.

Автор: Игорь 23.01.2009 - 21:20

Цитата(Igoroshka @ 23.01.2009 - 12:10) *
Какими?

В последнее время просмотрел литературу по теме (около сотни источников, треть из которых - монографии). Не в восторге от изданных в последнее время зарубежных источников.

Гораздо более ценной для меня стала мощная книга "Эпидемиология" В.В. Власова, классика Кокса и Оукса, а также десяток статей, в-основном с идеями.

"Большие" монографии производят двойственное впечатление. С одно стороны, 500-страничная англоязычная монография вызывает уважение к труду авторов. С другой стороны, вся тема в принципе умещается на 10 страницах (если опустить вывод формул) вместе с примерами.

Автор: Igoroshka 23.01.2009 - 23:13

Цитата(Игорь @ 23.01.2009 - 20:20) *
В последнее время просмотрел литературу по теме (около сотни источников, треть из которых - монографии). Не в восторге от изданных в последнее время зарубежных источников.

Гораздо более ценной для меня стала мощная книга "Эпидемиология" В.В. Власова, классика Кокса и Оукса, а также десяток статей, в-основном с идеями.

"Большие" монографии производят двойственное впечатление. С одно стороны, 500-страничная англоязычная монография вызывает уважение к труду авторов. С другой стороны, вся тема в принципе умещается на 10 страницах (если опустить вывод формул) вместе с примерами.

По большому счету любая теория без вывода, формул и оценок уместиться на десятке-другом страниц smile.gif . Но попробуйте реализовать голые идеи ...

Автор: Игорь 27.01.2009 - 14:07

Как оценить функцию интенсивности в модели пропорциональных рисков Кокса при стандартных условиях, т.е. h0(t)?

Автор: DrgLena 27.01.2009 - 19:16

Посмотрите внимательно ветку с началом 10.03.2008 - 07:36 , там есть ответ. Власов не достаточно "мощная" книга в этом вопросе, но и другие книги на русском языке тоже ответа не дают.

Автор: Игорь 28.01.2009 - 06:43

Цитата(DrgLena @ 27.01.2009 - 20:16) *
Посмотрите внимательно ветку с началом 10.03.2008 - 07:36 , там есть ответ.

Там нет ответа, если не считать ответом констатацию факта использования метода. Таких статей у меня десятка 3 лежит - с описаниями чудесных результатов, полученных в Statistica, STATA и т.п.
Цитата(DrgLena @ 27.01.2009 - 20:16) *
... но и другие книги на русском языке тоже ответа не дают.

Спасибо. Я это понял. Потому и задал вопрос. Другие [обе?] русскоязычные книги по данному вопросу - "ударно-нажимного" действия. В смысле какую кнопку нажимать в программе Statistica, чтобы получить выглядящие правдоподобно "машинограммы". Конечно, этого достаточно для 99% читателей, кому нужно сделать формальный расчет для диссертации. Требуется же нечто иное - понимание алгоритма.

Хотя, я , наверное, несправедлив к русскоязычным монографиям на данную тему. Ибо большинство англоязычных тоже мало чем от них отличаются. Например, в книге Altman с соавт. (статья Machin с соавт.) вычислению h0 внимания не уделяется вовсе, а некоторые другие параметры вычисляются с помощью "компьютерных программ" (именно так). Подобное "научное" умозаключение доступно сделать любой домохозяйке - для этого не нужно быть не только Altman-ом, но даже Machin-ым. smile.gif

Внятное пояснение, что h0 - это параметрическая аппроксимация h распределением Вейбулла или иным подходящим теоретическим (!) распределением, нашел в книге Armitage. Поэтому не совсем ясно, каким образом реализуются "стандартные условия", если оценка h0 производится на основании опытных же данных о выживаемости. Т.е. здесь не только не исключается влияние параметров конкретного пациента, а, напротив, оценка [распределения] делается (засоряется?) на основании параметров всех представленных пациентов - собственно, так и определяется вектор B параметров ковариат - как в любой регрессионной модели. Тогда непонятно, почему плав не рекомендовал использовать для прогнозирования (а только для иллюстрации) кривую выживаемости, если в основе всех полученных функций и параметров - одни и те же исходные данные, показанные с разных сторон и при различных предположениях.

К тому же может иметь ситуация, когда реальная выживаемость не аппроксимируется удовлетворительно ни одним из предлагаемых программой стандартных теоретических распределений. Довольно большая проблема положена в основу модели Кокса. Т.е. для сравнения выживаемостей и для оценки пропорционального (кстати, почему пропорционального - по-русски - относительного!) риска ее использовать можно (в первом случае за счет исключения из них h0, во втором - за счет включения данной функции в искомый относительный параметр), а вот для временного прогнозирования исхода по поводу одного пациента, как где-то в недрах форума предлагалось DrgLena - сомнительно.

Еще так понял, в модели Кокса функция h0 введена [в том числе] с целью разнести зависимость [формы кривой] от времени (h0), которая логично предполагается той же самой - "усредненной" - для всей популяции, и зависимость от ковариат (BZ) - для конкретного пациента. Тогда неясен смысл введения в модели с ковариатами, зависящими от времени, функции h0 - в ней просто нет необходимости - зависимость от времени уже учтена в члене BZ, и решение ничем не должно отличаться от обычной нелинейной множественной регрессии (например, логистической или пробит, но без порога).

Автор: DrgLena 28.01.2009 - 11:01

Какие книги перед вами?

Автор: Игорь 28.01.2009 - 11:13

Прошу прощения, я редактировал предыдущее, когда был получен ответ. Так что просьба, если интересно, перечитать пост.

Цитата(DrgLena @ 28.01.2009 - 11:01) *
Какие книги перед вами?

Из тех, где полезного ничего не найдено, отмечу, по упоминаемой в них же регрессии Кокса, самые "яркие": Герасимов "Медицинская статистика", Юнкеров и Григорьев "Математико-статистическая обработка данных...", Реброва "Статистический анализ ...", штук 5 иностранных. Иностранные отличаются только тем, что в них еще STATA упоминается. Полезности это не добавляет.

А вот оказавшиеся крайне интересными: Klein "Survival analysis...", Forthofer "Biostatistics", Collett "Modelling survival...". В научном плане они отличаются от указанных выше, как Энциклопедический словарь от журнала "Мурзилка".

Автор: DrgLena 28.01.2009 - 17:11

Обращаясь на форум, вы скорее всего хотите получить помощь плава, специалиста по статистике, а не «домохозяйки», которая только и умеет, что кнопки нажимать и машинограммы демонстрировать.

Цитата(Игорь @ 27.01.2009 - 15:07) *
Как оценить функцию интенсивности в модели пропорциональных рисков Кокса при стандартных условиях, т.е. h0(t)?

Это вы Юнкерова начитались, это он h0(t) называет функцией интенсивности смерти при стандартных условиях. А Боровиков вам про тоже самое напишет, что это базовая функция интенсивности при равенстве нулю всех ковариат. Вы никак ее не оцените, если считаете, что
Цитата(Игорь @ 28.01.2009 - 07:43) *
Внятное пояснение, что h0 - это параметрическая аппроксимация h распределением Вейбулла или иным подходящим теоретическим (!) распределением, нашел в книге Armitage.

Это ваше пояснение совсем не внятное.
Цитата(Игорь @ 28.01.2009 - 07:43) *
.. для оценки пропорционального (кстати, почему пропорционального - по-русски - относительного!)

А потому, что относительный риск допускается постоянным в течение времени, т.е. риски предполагаются пропорциональными. Важно проверить это допущение, применяя графические методы или включая взаимодействие между ковариатой и log(время) с гарантией, что оно несущественно, Боровиков это показывает.

Прогноз по моделям все же возможен, в документации к пограмме MedCalc, рекомендованной WOH для медицинских исследований, есть даже PI http://www.medcalc.be/manual/cox_proportional_hazards.php
На Альтмана тоже зря наехали, он занимается прикладной медицинской статистикой. И исследователя не интересует h0(t),т.е. мгновенный риск, а интересует куммулятивное значение H0(t), которое строится по средним значениям предикторов. В документациях к приличным пакетам алгоритмы есть, а документация остается, как вы сами заметили однажды, даже после истечения времени действия демо версии.

Автор: плав 28.01.2009 - 20:04

На самом деле выше в ветке я писал, что h0 в модели Кокса не оценивается. Методика была разработана так, что для оценки значимости факторов риска она не нужна. В программах для пользователей делают оценку эмпирической функции выживаемости (по Каплану-Мейеру) и затем используют ее (для этого модель сама стандартизуется так, что значения факторов заменяются на отклонения от среднего) в сочетании с результатми модели Кокса

Автор: Игорь 30.01.2009 - 06:51

Цитата(плав @ 28.01.2009 - 20:04) *
На самом деле выше в ветке я писал, что h0 в модели Кокса не оценивается. Методика была разработана так, что для оценки значимости факторов риска она не нужна. В программах для пользователей делают оценку эмпирической функции выживаемости (по Каплану-Мейеру) и затем используют ее (для этого модель сама стандартизуется так, что значения факторов заменяются на отклонения от среднего) в сочетании с результатми модели Кокса

Большое спасибо, плав.

DrgLena, большое спасибо за ссылку на Боровикова. Понравилось. Пример, как надо писать книги - и к конкретной системе вроде привязано, и пояснения хорошие.

Еще такого же типа книгу недавно в магазине видел. Не купил, правда, потому что дорого (600 руб.). Вадзинский. Excel - только как повод + очень хорошо представленная теория. Это так - лирическое отступление от темы.

Автор: DrgLena 31.01.2009 - 21:57

Не увлекайтесь Боровиковым, это вредные, популистские книжки, они у меня все есть. Ничего он не дал, большего, чем есть в документации, а иногда с дурным переводом вообще ставил в тупик. Его главная идея - не надо знать статистику, а купите у меня пакет и все у вас получится! Для вас - это вредные книжки, сегодня доступна другая литература, на английском, конечно...

Автор: Игорь 1.02.2009 - 13:17

Цитата(DrgLena @ 31.01.2009 - 21:57) *
Не увлекайтесь Боровиковым, это вредные, популистские книжки, они у меня все есть. Ничего он не дал, большего, чем есть в документации, а иногда с дурным переводом вообще ставил в тупик. Его главная идея - не надо знать статистику, а купите у меня пакет и все у вас получится! Для вас - это вредные книжки, сегодня доступна другая литература, на английском, конечно...

Вы же сами мне его рекомендовали. Так что уж будьте последовательны. И что значит тут перевод. Книга - не перевод фирменной документации.

Вредных книжек не бывает. В каждой есть что-то интересное. Иначе в диссертациях и прочих опусах не приводили по 2 сотни источников, а ограничивались бы только одним кратким курсом истории КПСС.

Нашел на английском. Спасибо. Можно закрывать тему.

Автор: DrgLena 1.02.2009 - 14:32

Цитата(Игорь @ 1.02.2009 - 14:17) *
Вы же сами мне его рекомендовали.

Не рекомендовала, а писала, что эти два автора про одно то же пришут по разному.
Если Боровиков пишет на 5 стр своей толстой книги, что вам не надо знать методы статистики в деталях..., то вряд ли вам эта книжка нужна.

Автор: Игорь 1.02.2009 - 16:04

Цитата(DrgLena @ 1.02.2009 - 14:32) *
Не рекомендовала, а писала, что эти два автора про одно то же пришут по разному.
Если Боровиков пишет на 5 стр своей толстой книги, что вам не надо знать методы статистики в деталях..., то вряд ли вам эта книжка нужна.

А мне интересно было почитать про регрессию Кокса у Боровикова. Конечно, алгоритм по данной информации не запрограммируешь. По крайней мере, он не считает читателей идиотами и уважает их. Для алгоритмической проработки есть другие источники. Которые также просмотрел и все сделал. Программа работает превосходно. Чего же еще желать. О том, что она никому не нужна и ей мало кто воспользуется? Да и ладно. Были потери и потяжелее.

Автор: DrgLena 1.02.2009 - 20:12

Цитата(Игорь @ 1.02.2009 - 16:04) *
Программа работает превосходно.

Фирмы разработчики нанимают тестировщиков, чтобы сделать такой вывод.

Автор: Igoroshka 24.02.2009 - 01:38

Цитата(Игорь @ 1.02.2009 - 15:04) *
... Программа работает превосходно. Чего же еще желать. О том, что она никому не нужна и ей мало кто воспользуется? Да и ладно. Были потери и потяжелее.

Если Вы имели ввиду Statistica (версий до 7, 8-не не видел), то для расчетов выживаемости это не лучшая программа. Любой из пакетов SAS/R/Splus/Stata позволяет получить адекватный результат. Или, как минимум, гораздо меньшими усилиями.

Автор: mix3d 28.12.2009 - 22:41

Подскажите, пожалуйста, как получить скорректированный относительный риск (adjasted hazard ratio) при изучении влияния некоторых факторов на выживаемость.

Автор: mix3d 28.12.2009 - 23:20

Помогите, пожалуйста, разобраться!

Исследуется роль "нового" биомаркера на выживаемость больных с инфарктом миокарда.

В качестве разделительного значения на подгруппы выбраны нижний и верхний квартили.

По F-критерию Кокса выживаемость пациентов в полученных подгруппах значимо различалась (корректировка не проводилась).

Также получено независимое предикторное значение изучаемого биомаркера (p<0,05) на выживаемость в регрессионной модели пропорциональных рисков Кокса, в т.ч. после корректировки на другие известные предикторы (тропонины, фракция выброса и т.д.), при этом изучаемая величина взята как непрерывная.

При построении той же модели, но с ковариантами (согласно разделения по квартилям) независимое предикторное значение уже утрачивалось. Также незначимые получились результаты расчета относительного риска (как рассчитать его скорректированное значение???) - пользовался просто четырехпольными таблицами с формулами из книги госпожи Ребровой.

В том ли дело, что разделительное значение выбрано неправильно и как найти то значение, разделение по которому будет значимо влиять на выживаемость??? Или достаточно того, что получилось?

Вот такое мое непонимание((( Использую Statistica 6.0

Спасибо!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)