Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Допустимая доля цензурированных наблюдений в анализе выживаемости
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2
nokh
Идеальные данные для анализа выживаемости - когда точно известно сколько человек прожил, например, после операции и когда умер. В этом случае цензурированных наблюдений нет. Другой крайний случай - когда все наблюдения цензурированные и дальнейшая судьба пациентов неизвестна. Например один прожил больше года, другой - больше трех. В этом случае может оказаться, что больше года - это 5, а больше трех - это 4. Поэтому, насколько я понимаю, сравнить выживаемость в двух группах где все наблюдения цензурированные невозможно в принципе. А какова допустимая доля цензурированных наблюдений в выборке? Существуют ли какие-то обоснованные или негласные правила? Полазил в и-нете, заглянул в книжки - пока ответа не нашел, хотя везде рассматриваются примеры где полные данные заметно преобладают над цензурированными. Или может считать цензурированными только точно живых на момент анализа, а всех потерявшихся считать умершими в интервале между двумя осмотрами, как прочитал в одной статье?
DrgLena
Естественно, что анализ выживаемости не проводят, если никто не умер.. И его легко провести, если в конце исследования все умерли (complete). Но чаще всего проводят анализ не полных данных. На момент анализа у вас должны быть сведения о умерших - дата начала наблюдения и дата смерти, для больных о которых есть сведения, что они были живы на конкретную дату -дата начала наблюдения и дата цензурирования, т.е. сведения, что больной был жив к этой дате). Эти сведения должны относиться к выбранному вами интервалу, на которые вы разбиваете сроки наблюдения, а не ко времени проведения анализа. Поэтому ваше последнее предложение не верно, нельзя считать умершими или живыми тех, о ком нет сведений. Обычно анализ проводят многократно, после получения новых сведений о больных даты цензурирования обновляются в базе данных и жизненный статус корректируется.
Самый старый анализ выживаемости - таблицы выживаемости. В Statistica таблица выглядит так, как я прилагаю. Ширина интервала - 24 месяца. В первом интервале 186 больных умерло, 420 точно не умершие.
nokh
Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует insane.gif. По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке?
DrgLena
Вы затронули очень важную тему в анализе данных. Часто на конференциях можно услышать совершенно различные оценки выживаемости больных с одной и той же патологией, поскольку каждый считает как умеет, кроме того хочет показать, что у него результат лучше, и это одна из проблем. Другая - нет возможности получить достоверную информацию о статусе больного. Приходится писать письма больным и получать порой весьма ожидаемый ответ ( не проживает). В примере, который я привела (n=1733), к сожалению, нет второй строки к названию колонок (недостаток Statistica) цензурировано 1193 (68,8%), не цензурировано 540 (31,2%), умерло 354. Можно было бы считать, что смертность на весь срок наблюдения 354/1733*100=20%. Однако, множительные оценки учитывают отсутствие данных. И к средине 5 летнего интервала, как следует из представленной таблицы вероятность выживания 0,76, смертности 0,24. Число подверженных риску на определенном интервале вычисляется как разница числа наблюдаемых в предыдущем интервале минус половина не умерших. В новом файле на русском языке обведена эта колонка.
Подробно про цензурирование ? Анализ данных типа времени жизни. Д.Р. Кокс, Д. Оукс. М. 1988 ? у меня на столе, в электронном виде не встречала.
Я думаю, что на любом этапе наблюдения может быть проведен анализ выживаемости, даже если имеется большой процент не полных данных. На следующем этапе анализа могут появиться сведения о статусе больного.
У меня тоже есть вопросы по этому методу анализа. Как правильно работать с хвостами распределения. Например, в первые месяцы после постановки диагноза или лечения сведений о статусе нет. Повторные осмотры примерно через пол года или письма начали писать через год или два. Кроме того есть данные очень отдаленных наблюдений, в данном примере более 30 лет, есть больные которые точно живы к середине интервала.
DrgLena
Обведенная колонка у меня съехала, я хотела отметить число подверженных риску.
плав
Цитата(nokh @ 13.03.2008 - 00:51) *
Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует insane.gif. По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке?

Для того, чтобы ответить на конкретный и общий вопросы надо немного задуматься над принципом анализа выживаемости. В нем анализируются, грубо говоря, два компонента - количество наступивших исходов (т.е. умерших) и время наблюдения (за умершими и не умершими). Показатели смертности тогда являются просто отношением количества умерших к суммарному времени наблюдения. Соответственно, если у Вас много цензурированных наблюдений, то это не страшно, поскольку Вы увеличиваете знаменатель. В кардиологических исследованиях не редко цензурируются до 80-90% случаев и более.
НО. Речь идет о цензурированных сулчаях, т.е. известно, что к моменту окончания исследования больной был жив или на третьем месяце наблюдения он погиб в автокатастрофе, а не от инфаркта. Проблема Ваших данных в том, что у Вас цензурированные данные двух типов - качественные (известно, что живы) и некачественные (неизвестно, что с ними). Соответственно, формально Вы их можете включать в исследование только с тем временем наблюдения, когда они _точно_ были живы. Если они потерялись сразу же после операции (т.е. их выписали, а далее судьба неизвестна - то такие наблюдения следует игнорировать. В принципе, при подобных потерях используется обычное правило определения репрезентативности используемой группы, когда данные еще считаются репрезентативными, если потерялось не более 30% наблюдений. Считать потерявшихся больных умершими нельзя, ибо какое время Вы им отведете? Момент последнего контакта - резко завысите смертность, какую-то еще дату - а почему именно ее? С другой стороны, честно говоря, мне не совсем понятны проблемы с нахождением пациентов. Для них известны адреса, по идее должны быть записаны телефоны. В конце концов, есть поликлиника по месту жительства. Поскольку я принимал участие и организовывал не одно исследование с длительным наблюдением могу сказать - данные получить сложно (особенно с прошлого года, когда адресные бюро стали отказывать в предоставлении данных о проживающих), но возможно. Просто для этого надо приложить значительные усилия, а на блюдечке с голубой каемочкой их никто не принесет - не Швеция. В крупных проектах налаживаются связи с Росстатом (региональным отделением) и договариваются о проверке базы данных сотрудниками Росстата (иным образом - запрос умер/жив) нельзя.
Вместе с тем, пусть плохие данные остаются на совести исследователей. Я бы анализировал эти данные по факту - т.е. когда был последний контакт (перед потерей связи или окончанием исследования) или установлен факт смерти и отдельно привел статистику по потерянным пациентам. Это наиболее честный способ представления подобных данных.
плав
To DrgLena
Если известно, что человек был жив через три года после начала. то то, что с ним не контактировали в первый год - не проблема - важен момент последнего контакта. Если что-то измеряется, что могло произойти в первый год (нефатальный инфаркт), а контактов не было - надо просто проигнорировать первый год (т.е. отбросить все события в первый год - и призошедшие и потерянных) и описать это в работе.
DrgLena
Как именно игнориорвать мне и не ясно. Условие включения в анализ, или ограничения по длительности наблюдения, изменяют 5 летнюю выживаемость. Где то я когда - то читала как работать с длинными хвостами, чтобы получать более точные оценки, но не запомнила. Оба приведенных мной примера из реальной жизни (базы данных под рукой). Кого как исключить? Особенно это важно при сравнении двух методик лечения, которые оцениваются Каплан- Майеровскими кривыми. В одной группе есть, например один ответ в отдаленные сроки наблюдения, в другой - нет. Исключения или обрезание "хвостов" сильно влияют на результат сравнения.
DrgLena
Вот пример реальный, из той же базы данных, сравниваются два метода лечения (n=1502), другие не рассматриваются. Какой вывод можно сделать из представленных кривых? По критерию различия статистически значимы, на 5 лет это заметно, а на 10 лет?
DrgLena
График убежал, повторяю jpg
плав
Цитата(DrgLena @ 13.03.2008 - 14:37) *
Вот пример реальный, из той же базы данных, сравниваются два метода лечения (n=1502), другие не рассматриваются. Какой вывод можно сделать из представленных кривых? По критерию различия статистически значимы, на 5 лет это заметно, а на 10 лет?

А анализ выживаемости не задается вопросом о различиях на определенных сроках - анализируется вся кривая выживаемости целиком. Соответственно из представленных кривых видно, что одна группа имела явно более высокую выживаемость в первые годы, а затем "нагнала" основную. Если есть желание сравнивать по периодам, то можно делать анализ таблиц дожития с расчетом на каждом периоде различий между группами по Мантелю-Ханзелю.
Кстати метод Каплана-Мейера просто описательный. На него навешивают тесты типа Пето или Вилкоксона, у которых уже есть ряд предположений о характере данных.
В принципе сравнение предполагает "равномерное" вымирание. Если это не так, то для сравнения в рамках моделей надо использовать Кокса с временными переменными (time-dependent variables)
nokh
Спасибо! На свои вопросы я ответы получил. Выходит, что важна не доля полных исходов (смертей), а их общее количество, которое должно быть достаточным для анализа (вероятно, где то от нескольких десятков и более). Допущения о времени смерти потерявшегося пациента - чистые фантазии, которые никак нельзя обработать статистически. Данные, которые я собирался анализировать в имеющемся виде для анализа не годятся, т.к. абсолютное число подтвержденных смертей очень мало.
ВалНест
Уважаемый ПЛАВ!
У меня проблемы при сравнении наблюдаемой и скорректированной выживаемостей онкобольных. Меня удивляет то, что если онкобольной умирает от сопутствующего заболевания, усугубленного специфическим лечением, показатель эффективности лечения (скорректированный) улучшается. Оценивать наблюдаемую выживаемость при оценке эффективности лечения тоже некорректно. Как тогда поступать? Кто нибудь серьезно задумался над этой проблемой? Спасибо за внимание!
ВалНест
Цитата(nokh @ 13.03.2008 - 01:51) *
Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует insane.gif. По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке?

Уважаемый коллега! Я понял, что опыт оценки выживаемости у Вас больше, чем у меня. Если есть возможность, подскажите, раковые регистры не могли бы использовать информацию из соответствующих служб о смерти и причине смерти. Кто-то справку о смерти выдает? Но меня волнует проблема цензурирования с другой стороны. Онкобольной умер от инсульта. Он цензурируется. Скорректированная выживаемость улучшается. Но разве инсульт нельзя рассматривать как осложнение противоопухолевой терапии? Чем больше больных погибнет о коморбидной патологии, тем лучше будет эффективность лечения онкопатологии. По наблюдаемой выживаемости тоже некорректно оценивать эффективность лечения. Некоторые смерти действительно нужно цензурировать. Например, возрастающие в частоте суициды. Как поступать при оценке эффективности лечения? Кто-то об этом думал?
ВалНест
Речь идет о цензурированных сулчаях, т.е. известно, что к моменту окончания исследования больной был жив или на третьем месяце наблюдения он погиб в автокатастрофе, а не от инфаркта. Проблема Ваших данных в том, что у Вас цензурированные данные двух типов - качественные (известно, что живы) и некачественные (неизвестно, что с ними).
А я опять о своих регистрах! Раковые регистры - это государственное дело. Почему они не могут получать информацию о смерти больных из органов, которые выдают справки о смерти с указанием причин смерти? Тогда проблема "некачественных" данных будет решена! Это делается?
плав
Цитата(ВалНест @ 1.06.2008 - 10:10) *
Уважаемый коллега! Я понял, что опыт оценки выживаемости у Вас больше, чем у меня. Если есть возможность, подскажите, раковые регистры не могли бы использовать информацию из соответствующих служб о смерти и причине смерти. Кто-то справку о смерти выдает? Но меня волнует проблема цензурирования с другой стороны. Онкобольной умер от инсульта. Он цензурируется. Скорректированная выживаемость улучшается. Но разве инсульт нельзя рассматривать как осложнение противоопухолевой терапии? Чем больше больных погибнет о коморбидной патологии, тем лучше будет эффективность лечения онкопатологии. По наблюдаемой выживаемости тоже некорректно оценивать эффективность лечения. Некоторые смерти действительно нужно цензурировать. Например, возрастающие в частоте суициды. Как поступать при оценке эффективности лечения? Кто-то об этом думал?

1) У Вас ошибочные представления о влиянии цензурирования. Цензурирование не улучшает показатели выживаемости, оно всего лишь описывает очевидный факт, что если больной умер от инсульта, то он потерян для лечения и сколько он прожил бы, если бы не инсульт, не известно. Что касается Ваших вопросов об оценке эффективности лечения, то это тоже давно известно. В любой приличной статье дается информация о смертности от всех причин и от, например онкопатологии. Если Ваше предположение правильно и онкопатология приводит к росту суицидов, инсультов и проч., то тогда общая смертность в группе лечения будет больше, чем в группе контроля. Если же общая смертность ниже, значит, лечение эффективно (другое дело, что часто исследование недостаточно мощное чтобы выявить статистическую достоверности снижения общей смертности, но в этом случае есть хотя бы тенденции).
2) У Вас очень смутные представления о регистрации смертей в РФ и качестве указания причин смерти в сертификатах о смерти. Раковые регистры действительно получают информацию из органов госстатистики, однако (1) иногда прчина смерти в сертификате не совсем верно отражает истинную причину смерти (например, часто алкогольное отравление регистрируется как смерть от ИБС) и (2) не решается проблема потери пациентов - они уезжают из города, из страны, меняют место жительства, фамилию, имя и т.д. и т.п. Так что в реальности раковые регистры получают информацию из органов статистики (поэтому вопрос "не могут ли они получать?" некорректен и эта информация не решает проблемы цензурирования наблюдений.
Igoroshka
Позвольте и свои 5 копеек добавить smile.gif.
Усеченные (цензурированные) наблюдения могут "улучшить" наблюдаемую выживаемость. Достаточно часто в регистрах можно встретить больных, например, 4 стадии, умерших "от других" причин, которые вместо того, чтобы учитываться как событие, учитываются как усеченное наблюдение (подобные "подходы" встречал и при оценке выживаемости в клинических исследованиях).
Расчеты выживаемости на основе регистров -- достаточно специфическая вещь. Следует учитывать наличие в популяции конкурирующих рисков. Поэтому "показаны" методы оценки относительной выживаемости -- Эдерера, Хакулинена.
плав
Ну и каким образом это "улучшает" выживаемость? Итак у нас есть 5 человек. Умирают с перерывом в месяц. Один на третьем месяце попал под машину. Имеем:
5 0 0 1 1
5 1 0 0,8 0,8
4 0 1 1 0,8
3 1 0 0,67 0,54
2 1 0 0,5 0,27
1 1 0 0 0
Как выживаемость должна выглядеть без цензурирования? Если хочется сказать, что человек должен был на третьем месяце умереть от изучаемой причины, а умер от машины, то вопрос а откуда исследователь об этом знает? Почему пациент не должен был прожить еще пять или шесть месяцев? Тогда цензурирование "ухудшает" выживаемость (на четверотом месяце она была бы не 0,54, а 0,60. Мне кажется, просто немного путается оценка выживаемости с цензурированием с делением умерших на общее число наблюдений.
Igoroshka
Цитата(плав @ 5.08.2008 - 13:24) *
Ну и каким образом это "улучшает" выживаемость? Итак у нас есть 5 человек. Умирают с перерывом в месяц. Один на третьем месяце попал под машину...

У меня получилось:
с усечением:
N d cens f 1-f S
5 1 0 0.20 0.80 0.80
4 0 0 0.00 1.00 0.80
3 1 1 0.33 0.67 0.53
2 1 0 0.50 0.50 0.27
1 1 0 1.00 0.00 0.00

без усечения (цензурирования):
N d cens f 1-f S
5 1 0 0.20 0.80 0.80
4 1 0 0.25 0.75 0.60
3 1 0 0.33 0.67 0.40
2 1 0 0.50 0.50 0.20
1 1 0 1.00 0.00 0.00

Т.е., если умершего больного посчитать, как умершего от других причин (т.е., вместо завершенного наблюдения указать как усеченное), выживаемость получается выше.
По-моему, так.

Куда отнести пациента, попавшего под машину, -- вопрос протокола исследования. В случае с расчетом на популяционном уровне на основе регистра (онкологического) лично я предпочитаю относить такие случаи к умершим от основного заболевания. Аргументов несколько: а) подобные случаи достаточно редки и случайны, б) выживаемость получается несколько более низкая, но более определенная, в) при оценке относительной выживаемости эти риски учитываются через общую популяционную смертность.
плав
Цитата(Igoroshka @ 5.08.2008 - 15:11) *
Куда отнести пациента, попавшего под машину, -- вопрос протокола исследования. В случае с расчетом на популяционном уровне на основе регистра (онкологического) лично я предпочитаю относить такие случаи к умершим от основного заболевания. Аргументов несколько: а) подобные случаи достаточно редки и случайны, б) выживаемость получается несколько более низкая, но более определенная, в) при оценке относительной выживаемости эти риски учитываются через общую популяционную смертность.

Глубокая ошибка.
Вы не знаете, сколько человек бы еще прожил, если бы не попал под машину (умер от других причин). Вы искусственно меняете (фактически подделываете) причину смерти. В реальности единственно, что Вы знаете, это то, что человек был жив три месяца на протяжении исследования. Сколько он еще бы прожил, не известно. Он мог бы прожить месяц, два месяца или десять лет. То, что Вы относите его смерть к "основному заболеванию" не обосновано абсолютно ничем, кроме желания избежать цензурирования. Найдите хоть одну приличную публикацию по анализу выживаемости где-бы так делалось. Весь анализ выживаемости построен на концепции цензурирования как последствия конкурирующих рисков.
Игорь
Цитата(плав @ 9.08.2008 - 20:14) *
Глубокая ошибка.
Вы не знаете, сколько человек бы еще прожил ...


Видимо, надо четко конкретизировать использование информации о выбытии пациента и исключить всякий произвол исследователя.
Igoroshka
Цитата(плав @ 9.08.2008 - 20:14) *
Глубокая ошибка.
[1] Вы не знаете, сколько человек бы еще прожил, если бы не попал под машину (умер от других причин). Вы искусственно меняете (фактически подделываете) причину смерти. В реальности единственно, что Вы знаете, это то, что человек был жив три месяца на протяжении исследования. Сколько он еще бы прожил, не известно. Он мог бы прожить месяц, два месяца или десять лет.
[2] То, что Вы относите его смерть к "основному заболеванию" не обосновано абсолютно ничем, кроме желания избежать цензурирования.
[3] Найдите хоть одну приличную публикацию по анализу выживаемости где-бы так делалось.
[4] Весь анализ выживаемости построен на концепции цензурирования как последствия конкурирующих рисков.

Безусловно, с каждым случаем смерти, указанным, как "смерть от других причин", следует разбираться отдельно. С моей точки зрения это вопрос медицинского характера и четкого определения условий определения конечных состояний в протоколе исследования или в разделе материалов и методов и соответствующей оценки возможного смещения оценок.

1. Хотел бы доуточнить ситуацию. В случаях, с которыми мне, как правило, приходится сталкиваться, информация о статусе пациента (имеется ввиду жив/умер), как правило, поступает из канцер-регистра. Там это отмечено как "жив", "умер от основного заболевания", "умер от причин, не связанных с основным заболеванием", др. В случае со смертью "от других причин", я не знаю не столько, сколько бы он прожил, сколько, что стоит за "смерть от других причин". Особенно, если речь идет о высоколетальных локализациях или распространенных процессах.

2. При отнесении всех смертей, безотносительно от ее причины, к одной категории, с моей точки зрения, мы получаем пусть и заниженный, но нижний предел оценки. Но, повторюсь,
При оценках выживаемости на популяционном уровне (речь идет об относительной выживаемости), разделять причину смерти, чтобы учесть конкурирующие риски, нет смысла, поскольку влияние конкурирующих рисков оценивается через общую популяционную смертность (методы Эдеррера, Хакулинена).

3. Например, "Report of an International Workshop to Standardize Response Criteria for Non-Hodgkin's Lymphomas", Journal of Clinical Oncology, Vol 17, Issue 4 (April), 1999: 1244, http://jco.ascopubs.org/cgi/content/full/17/4/1244: "End Points/
The major end points of interest in clinical trials should5670252 event-free survival (time to treatment failure), which includes failure or death from any causes, freedom from progression, and overall survival.
"
"Postoperative Radiotherapy in High-Risk Premenopausal Women with Breast Cancer Who Receive Adjuvant Chemotherapy", The New England Journal of Medicine, Volume 337:949-955 October 2, 1997 Number 14, http://content.nejm.org/cgi/content/full/3...9e933752eb#R11: "Statistical Analysis/Overall survival was calculated as the length of time until death, irrespective of cause. "

Позволю себе еще одну цитату подхода к решению вопроса о типе наблюдения, соответствующему моему представлению: "Deaths attributed to causes other than breast cancer with no reported recurrence of breast cancer are described as "non?breast-cancer deaths," and all other deaths are described as "breast-cancer deaths"; the latter includes not only the deaths attributed to breast cancer but also deaths from unknown causes without reported recurrence and deaths from any cause after recurrence. These conventions necessitate the use of special statistical methods to avoid bias. These special methods compensate for the fact that if someone who would otherwise have had a recurrence of breast cancer before dying of an unrelated cause were to be given a treatment that had no effect on the time or cause of death but merely prevented the recurrence from preceding it, then instead of being categorized as due to breast cancer, that death would be recategorized as a "non?breast-cancer death."",
Effects of Radiotherapy and Surgery in Early Breast Cancer ? An Overview of the Randomized Trials, http://content.nejm.org/cgi/content/full/3...c07e6f44a00a8ed

4. Был бы благодарен за более развернутое объяснение этой точки зрения.
плав
Цитата(Igoroshka @ 12.08.2008 - 13:20) *
1. Хотел бы доуточнить ситуацию. В случаях, с которыми мне, как правило, приходится сталкиваться, информация о статусе пациента (имеется ввиду жив/умер), как правило, поступает из канцер-регистра. Там это отмечено как "жив", "умер от основного заболевания", "умер от причин, не связанных с основным заболеванием", др. В случае со смертью "от других причин", я не знаю не столько, сколько бы он прожил, сколько, что стоит за "смерть от других причин". Особенно, если речь идет о высоколетальных локализациях или распространенных процессах.


Все равно у Вас есть только два пути - анализировать общую смертность или цензурировать. В случае отнесения "смерти от других причин" к "смерти от основного заболевания" Вы подделываете данные.

Цитата(Igoroshka @ 12.08.2008 - 13:20) *
2. При отнесении всех смертей, безотносительно от ее причины, к одной категории, с моей точки зрения, мы получаем пусть и заниженный, но нижний предел оценки. Но, повторюсь,
При оценках выживаемости на популяционном уровне (речь идет об относительной выживаемости), разделять причину смерти, чтобы учесть конкурирующие риски, нет смысла, поскольку влияние конкурирующих рисков оценивается через общую популяционную смертность (методы Эдеррера, Хакулинена).


В этом случае Вы анализируете общую смертность, а не смертность от определенной причины (от основного заболевания). Кстати, что такое "популяционная" смертность не совсем понятно, при анализе когортных данных о которых идет речь в регистрах.

Цитата(Igoroshka @ 12.08.2008 - 13:20) *
3. Например, "Report of an International Workshop to Standardize Response Criteria for Non-Hodgkin's Lymphomas", Journal of Clinical Oncology, Vol 17, Issue 4 (April), 1999: 1244, http://jco.ascopubs.org/cgi/content/full/17/4/1244: "End Points/
The major end points of interest in clinical trials should5670252 event-free survival (time to treatment failure), which includes failure or death from any causes, freedom from progression, and overall survival.
"
"Postoperative Radiotherapy in High-Risk Premenopausal Women with Breast Cancer Who Receive Adjuvant Chemotherapy", The New England Journal of Medicine, Volume 337:949-955 October 2, 1997 Number 14, http://content.nejm.org/cgi/content/full/3...9e933752eb#R11: "Statistical Analysis/Overall survival was calculated as the length of time until death, irrespective of cause. "

Правильно, авторы указывают, что они анализируют общую смертность в группе больных раком или длительность дожития до первого события. Никакого отнесения "смерти от других причин" к "смерти от основного заболевания" нет. В тексте обычно указывается, что, поскольку речь идет о высоколетальном заболевании, то общая смертность является аппроксимацией смерти от основного заболевания. При обсуждении подобных статей и сравнении с более адекватно организованными этот факт принимается во внимание и результаты такого исследования получают меньший вес. Кроме того, возникает серьезная проблема конкурирующих рисков в ситуации, например, пожилой популяции. Тогда использование общей смертности будет приводить к меньшей мощности исследования.

Цитата(Igoroshka @ 12.08.2008 - 13:20) *
Позволю себе еще одну цитату подхода к решению вопроса о типе наблюдения, соответствующему моему представлению: "Deaths attributed to causes other than breast cancer with no reported recurrence of breast cancer are described as "non?breast-cancer deaths," and all other deaths are described as "breast-cancer deaths"; the latter includes not only the deaths attributed to breast cancer but also deaths from unknown causes without reported recurrence and deaths from any cause after recurrence. These conventions necessitate the use of special statistical methods to avoid bias. These special methods compensate for the fact that if someone who would otherwise have had a recurrence of breast cancer before dying of an unrelated cause were to be given a treatment that had no effect on the time or cause of death but merely prevented the recurrence from preceding it, then instead of being categorized as due to breast cancer, that death would be recategorized as a "non?breast-cancer death."",
Effects of Radiotherapy and Surgery in Early Breast Cancer ? An Overview of the Randomized Trials, http://content.nejm.org/cgi/content/full/3...c07e6f44a00a8ed

Обратите внимание, что в подобной ситуации (а это был обзор и авторы были вынуждены работать с исследованиями разного качества - у них был не первичный, а вторичный материал) требовалась коррекция возможных ошибок (смещений). Однако, повторюсь, здесь ситуация абсолютно иная - цитата относится к методам мета-анализа, а не анализа когортных (регистровых) данных.

Цитата(Igoroshka @ 12.08.2008 - 13:20) *
4. Был бы благодарен за более развернутое объяснение этой точки зрения.

На форуме невозможно воспроизвести то, чему посвящены целые книги. В двух словах я уже комментировал это выше. Итак, пациенты рекрутируются для исследования. Не все они могут быть рекуртированы в одно время, т.е. время входа в исследование разное. Соответственно, чтобы мы ни делали, они будут находиться под наблюдением разное время. Соответственно, речь идет об "открытой" популяции, где мы обязаны учитывать время, которое пациент находился под наблюдением, а не просто число пациентов в группе ("закрытая" популяция). Соответственно, если мы анализируем данные, то есть пациенты, которые умерли (у них наступил исход) и те, кто... ПОКА не умер. Например, пациенты вошли в исследование за 10, 6 и 4 месяца до анализа. Тот, который вошел за десять умер за месяц до конца. Два остальных живы. Что мы можем про них сказать? Только то, что первый прожил в исследовании 9 месяцев, второй 6 и третий 4. При это первый умер, а остальные нет. Умерет ли второй на 9 месяце? Возможно. Соответственно, он (и третий пациент) ЦЕНЗУРИРОВАНЫ. Мы знаем, сколько они находились в исследовании, и знаем, что у них не наступил интересующий нас исход. Интервал выживаемости для них открыт справа.
Соответственно, весь анализ выживаемости базируется на наличии цензурированных наблюдений и говорить, что "лучше не цензурировать" является просто непониманием методологии анализа выживаемости. Более подробно можно почитать в любом руководстве по анализу выживаемости или книге по биостатистике. Мне кажертся наиболее простой и понятной P.Allisson. Survival Analysis Using the SAS system.
Игорь
По информационным каналам прошло сообщение. Как раз на тему. http://lenta.ru/news/2008/10/01/odds/

Интересно, правы американские медики или ошиблись?
Igoroshka
Цитата(Игорь @ 1.10.2008 - 15:26) *
По информационным каналам прошло сообщение. Как раз на тему. http://lenta.ru/news/2008/10/01/odds/

Интересно, правы американские медики или ошиблись?

Скорее всего статистически да smile.gif -- мужчина, белый, в возрасте 72 лет. Оценка ожидаемой продолжительности жизни с учетом особенностей жизни.
nokh
Еще информация к размышлению по части анализа выживаемости: http://www.inauka.ru/news/article86391.html
Неучитываемый в исследованиях качественный фактор?
Игорь
Цитата(nokh @ 9.10.2008 - 22:44) *
Еще информация к размышлению по части анализа выживаемости: http://www.inauka.ru/news/article86391.html
Неучитываемый в исследованиях качественный фактор?


Утверждения автора заметки вызывают удивление. Вижу здесь два варианта:
1. Журналист слышал звон, да не знает где он.
2. Исследователи демонстрируют недостаточное понимание сути вероятностных процессов.
nokh
Не стал открывать новую ветку, т.к. вопрос опять по выживаемости. Онкобольные прооперированы 2 способами +/- химиотерапия. Итого - 4 группы по 20-30 чел, общая доля цензурированных наблюдений (живы) около 50%. Различия в выживаемости статистически значимы, но по тяжести и специфике заболевания пациенты, пролеченные по разным схемам отличаются. Хочу сделать коррекцию на возраст, размер опухоли и еще 2-3 показателя. Использовал регрессию Кокса с интересующими показателями и меткой принадлежности к группе по способу лечения. Насколько это корректно? Как в данном случае интерпретировать параметр регрессии b, если предиктор "Способ лечения" номинальный?
плав
Цитата(nokh @ 14.11.2008 - 08:59) *
Не стал открывать новую ветку, т.к. вопрос опять по выживаемости. Онкобольные прооперированы 2 способами +/- химиотерапия. Итого - 4 группы по 20-30 чел, общая доля цензурированных наблюдений (живы) около 50%. Различия в выживаемости статистически значимы, но по тяжести и специфике заболевания пациенты, пролеченные по разным схемам отличаются. Хочу сделать коррекцию на возраст, размер опухоли и еще 2-3 показателя. Использовал регрессию Кокса с интересующими показателями и меткой принадлежности к группе по способу лечения. Насколько это корректно? Как в данном случае интерпретировать параметр регрессии b, если предиктор "Способ лечения" номинальный?

Аналогичным образом, как и в логистической регрессии. Создаем 2 новых переменных:
тип операции (operation) коды 0 и 1
химиотерапия (chem) коды 0 и 1
если предполагается неодинаковая реакция на химиотерапию при разных вмешательствах, то надо будет ввести в модель их произведение, т.е.
operation+chem+chem*operation
получаем три параметра, b1, b2, b3
Таким образом оцениваете влияние операции само по себе (b1), химиотерапии сама по себе (b2) и сочетание химии и операции ( b2 (или b1)+b3)
nokh
Большое спасибо, пока все получилось красиво. Но я не вводил в модель взаимодействия, т.к. программа не позволяет сделать это через кнопочный интерфейс. (1) Можно ли самостоятельно закодировать каким-либо образом колонку для взаимодействия? И еще прочитал здесь ( http://faculty.chass.ncsu.edu/garson/PA765...hazardratiostat ), что отношение рисков Hazard ratio называют также отношением шансов Odds ratio. (2) Так ли это, т.е. означает ли exp(Beta)=2, что шанс (как отношение вероятности события к его альтернативе) смерти ко времени t+1 увеличивается в 2 раза? Или это терминологическое сходство c обычным отношением шансов?
плав
Цитата(nokh @ 17.11.2008 - 18:28) *
Большое спасибо, пока все получилось красиво. Но я не вводил в модель взаимодействия, т.к. программа не позволяет сделать это через кнопочный интерфейс. (1) Можно ли самостоятельно закодировать каким-либо образом колонку для взаимодействия? И еще прочитал здесь ( http://faculty.chass.ncsu.edu/garson/PA765...hazardratiostat ), что отношение рисков Hazard ratio называют также отношением шансов Odds ratio. (2) Так ли это, т.е. означает ли exp(Beta)=2, что шанс (как отношение вероятности события к его альтернативе) смерти ко времени t+1 увеличивается в 2 раза? Или это терминологическое сходство c обычным отношением шансов?

Закодировать можно, на самом деле это простое произведение, т.е. если v1 (0,1) и v2 (0,1), то
v1*v2 = v3
0 0 0
0 1 0
1 0 0
1 1 1
На самом деле отношение опасностей действительно часто называют отношением шансов, поскольку это отношение вероятности умереть в интервале к вероятности его прожить. Не совсем правильно, но в первом приближении так делать можно. Но вот отношение не для времени, а для уровней факторов риска. Особенность модели Кокса как раз в том, что ничего про кривую выживаемости она сказать не может. Так что HR - это для отношений шансов смерти при уровне фактора х в сравнении с уровнем фактора х+1 в один и тот же момент времени t (допущение модели, что HR не меняется на протяжении всего срока исследования).
nokh
Спасибо. Получается, что если переменная бинарная, то HR описывает риск при переходе из одной категории в другую, а если переменная имеет больше градаций (например, упорядоченные категории или измерения) - то риск при переходе в отличающуюся на единицу категорию. Но тогда величина HR для таких предикторов должна быть априори меньше по сравнению с HR для альтернативных предикторов?
DrgLena
Да, если предиктор бинарный, то экспоненциальный коэффициент показывает во сколько раз возрастает риск при наличии фактора риска (код признака 1), относительно альтернативы (0). А вот если переменная имеет больше градаций, например, локализация опухоли или ее клеточный тип, то можно сначала выяснить, как они упорядочены используя построение кривых выживаемости К-М. Это дает возможность упорядочить градации от менее к более опасным. После этого вы можете получить HR для второй градации относительно первой, третьей относительно второй и т.д. Т.е. риск не будет возрастать одинаково при переходе от одной категории к другой, как для количественной переменной, например для выстояния опухоли или возраста больного. Некоторые программы (Statistica) работают только с количественными переменными, т.е. переменная с упорядоченными категориями будет восприниматься как количественная и риск будет возрастать одинаково при переходе на каждую более высокую категорию по сравнению с предыдущей.
SPSS предоставляет различные возможности для работы с категориальными переменными (сontrast, reference category). В ссылке, которую вы привели это описано.
nokh
Спасибо за разъяснения. Выходит что если предикторы представлены данными разного типа, то использовать величину HR для оценки их прогностической ценности нельзя. А вот этот момент не понял:
Цитата(DrgLena @ 23.11.2008 - 02:56) *
...После этого вы можете получить HR для второй градации относительно первой, третьей относительно второй и т.д.

Как вы это проделываете? (1) Выдергиваете интересующие категории из всего массива предикторов и строите для них отдельные регресии чтобы в этом разобраться или (2) разбиваете все сложные предикторы на бинарные и включаете в модель Кокса одновременно? Если (2), то модель получется очень сложной, а если (1), то предикторы не будут adjusted друг на друга confused.gif
плав
Цитата(nokh @ 27.11.2008 - 19:21) *
1) Спасибо за разъяснения. Выходит что если предикторы представлены данными разного типа, то использовать величину HR для оценки их прогностической ценности нельзя. А вот этот момент не понял:

2) Как вы это проделываете? (1) Выдергиваете интересующие категории из всего массива предикторов и строите для них отдельные регресии чтобы в этом разобраться или (2) разбиваете все сложные предикторы на бинарные и включаете в модель Кокса одновременно? Если (2), то модель получется очень сложной, а если (1), то предикторы не будут adjusted друг на друга confused.gif

1) Почему нельзя использовать? Так же как в логистической регрессии используете для количественных стандартизованные HR (т.е. HR при изменении значения на 1 SD (exp(\beta*SD)), так разные показатели можно сравнивать друг с другом (для бинарных, SD, очевидно, будет равно \sqrt(р*(1-р)))
2) А чего плохого в большом количестве бинарных предикторов? Модель действительно строится для большого количества бинарных предикторов (кстати, SAS это делает автоматом при использовании идентификатора CLASS, Stata при помощи приставки xi, а R просто автоматически конвертирует факторы (т.е. качественные переменные)). Так что проблем нет, в конечной модели, которая представляется в статью большая часть предикторов, которые были в модели опускаются и приводятся HR только для важнейших с подписью в заголовке, что все откорректировано на "пол, возраст и уровень ХС"
DrgLena
«Как вы это проделываете?»
Да также как и все, кроме тех, кто стандартизирует HR. Мне не удалось найти ни одной публикации, где бы были представлены стандартизироавнные HR.
Кокс регрессия анализирует влияние фактора против альтернативы (отсутствие фактора), для бинарной переменной это понятно. Например мужской пол относительно женского при УМ HR=1,15 ( «м» versus «ж»)
Если у нас номинальная переменная имеет, например 5 градаций (клеточный тип УМ ), и вы хотите проанализировать, какие из них более благоприятные (веретеноклеточный А и АБ), а какие более зловредные (Б, смешанные и эпителиоидные). Кривые К-М это показывают. Поэтому, я либо могу объединить Б и неверетеноклеточные и оценить их относительно альтернативы (веретеноклеточный А и АБ), т е анализировать бинарную переменную, либо выбрать любую градацию этой переменной и альтернативу ей. Например, эпителиоидные по сравнению с любыми другими, или конкретно с А. Если в модель включены количественные переменные, например возраст при постановке диагноза, то его вклад в выживаемость тоже может быть значимым. Причем, все публикации по УМ дают для возраста примерно одинаковое значение HR=1,03, для выстояния опухоли также примерно одинаковые значения 1,05. И мы уже обсудили, что это значит. Но HR для веретеноклеточного АБ по сравнению с А =1,7, а эпителиоидный (versus А) =2,77. Т.е. модель дает мне возможность оценить независимое влияние каждой переменной на выживаемость, а не сравнивать разные переменные по степени вклада между собой. Мне не нужно сравнивать, что хуже быть мужчиной или женщиной, но с опухолью на 3 мм выше. А если в модель входит метод лечения например химия, хирургия и их сочетание, то вы сами выбираете альтернативу, например хирургия относительно сочетания или химия относительно сочетания.
Понять, зачем стандартизировать HR , я так и не смогла. Вот, если бы у нас были только количественные предикторы, то мы бы стандартизировали эти переменные и с ними работали.
плав
Цитата(DrgLena @ 28.11.2008 - 03:30) *
«Как вы это проделываете?»
Да также как и все, кроме тех, кто стандартизирует HR. Мне не удалось найти ни одной публикации, где бы были представлены стандартизироавнные HR.
...
Понять, зачем стандартизировать HR , я так и не смогла. Вот, если бы у нас были только количественные предикторы, то мы бы стандартизировали эти переменные и с ними работали.

Очень просто - для того, чтобы сравнивать силу действия факторов риска. Представьте себе, что у Вас два фактора риска - курение (HR=2.4) и уровень АД (HR=1.06). Какой из этих факторов сильнее? Курение? (HR больше). Нет. Артериальное давление.
Очевидно, что HR рассчитывает рост риска при изменении фактора риска на одну единицу. Соответственно в примере выше сравнивается переход между категориями (курит-не курит) и ростом АД на 1 мм.рт.ст. Несравнивнимые показатели.
Что же делать? Используется стандартизованное распределение, которое не имеет размерности. Стандартизованное распределение (классический пример - стандартизованное нормальное N(0,1)) измеряет все в долях стандартного отклонения. Поскольку мы уходим от несравнимы единиц, теперь HR можно сравнивать друг с другом (можно спорить, что стандартизация по SD не очень хороша, можно использовать стандартизацию по IQR). Однако путем простого фокуса - рассчета HR не на единицу, а на стандартное отклонение получаем в случае курения (предположим, курит 50%) получаем HR=1.55, а для артериального давления (SD=20) HR=3.21. Соответственно, значимость АД, как фактора риска, в данной популяции значительно выше.
(на самом деле часто используются именно стандартизованные HR, просто это отмечается мелким шрифтом в примечании к таблице, типа HR рассчитаны на 1 SD)
DrgLena
Мы очевидно для разных целей используем кокс регрессию. Мне не нужно сравнивать факторы между собой, мне нужно построить функцию выживания в зависимости от значения, например этих двух факторов - курение и АД. Понятно, что у курильщиков риск в 2,5 раза выше, чем у не курильщиков, а также повышение на 1 (n+1) АД повышает риск на 6% относительно n. А ваши стандартизированные HR мне такой информации не дают. Вопрос в другом, относительно какого значения АД, начинается отсчет повышение риска? Например, оба не курят, у одного верхнее давление 100, у другого 105, будет ли у второго риск выше на 30% выше, чем у первого. Вот тут наконец мы и приходим к формуле кокс регрессии и объясняем, что такое «базовый риск» h0(t), Боровиков написал, что это значение функции отказа при нулевом значении всех предикторов. Очевидно, он взял эту фразу из документации к программа Statistica. Он только не уточнил, что это средние стандартизированные значения. Т.о. по средним значениям строится функция отказов. Тогда, при переходе на реальные данные среднее давление в выборке по которой строилась модель , например, 155, тогда повышение давления до 160 повышает риск на 30% по сравнению с 155.
Именно поэтому после процедуры кокс регрессии программы, например SPSS или Statistica выдают средние значения предикторов в обучающей выборке. И из этих средних значений во многих публикациях делают бинарные переменные. Возраст >63 лет, высота опухоли >7,2 мм ? это фактор риска, альтернатива ? меньше этих значений. Насколько я поняла, мы оцениваем риск каждого больного относительно этого базового риска. При этом, я привожу кривую базового риска и на этом же графике для конкретного больного.
Но ?.получить ручками из реальных коэффициентов (не exp) я не смогла. Если можно, покажите, как их использовать для ответа на вопрос какова вероятность 5 летнего выживания при давлении 160 у курильщика. Или на более понятной реальной задаче. в пришпиленном файле
плав
Цитата(DrgLena @ 28.11.2008 - 14:27) *
Мы очевидно для разных целей используем кокс регрессию. Мне не нужно сравнивать факторы между собой, мне нужно построить функцию выживания в зависимости от значения, например этих двух факторов - курение и АД. Понятно, что у курильщиков риск в 2,5 раза выше, чем у не курильщиков, а также повышение на 1 (n+1) АД повышает риск на 6% относительно n. А ваши стандартизированные HR мне такой информации не дают. Вопрос в другом, относительно какого значения АД, начинается отсчет повышение риска? Например, оба не курят, у одного верхнее давление 100, у другого 105, будет ли у второго риск выше на 30% выше, чем у первого. Вот тут наконец мы и приходим к формуле кокс регрессии и объясняем, что такое «базовый риск» h0(t), Боровиков написал, что это значение функции отказа при нулевом значении всех предикторов. Очевидно, он взял эту фразу из документации к программа Statistica. Он только не уточнил, что это средние стандартизированные значения. Т.о. по средним значениям строится функция отказов. Тогда, при переходе на реальные данные среднее давление в выборке по которой строилась модель , например, 155, тогда повышение давления до 160 повышает риск на 30% по сравнению с 155.
Именно поэтому после процедуры кокс регрессии программы, например SPSS или Statistica выдают средние значения предикторов в обучающей выборке. И из этих средних значений во многих публикациях делают бинарные переменные. Возраст >63 лет, высота опухоли >7,2 мм ? это фактор риска, альтернатива ? меньше этих значений. Насколько я поняла, мы оцениваем риск каждого больного относительно этого базового риска. При этом, я привожу кривую базового риска и на этом же графике для конкретного больного.
Но ?.получить ручками из реальных коэффициентов (не exp) я не смогла. Если можно, покажите, как их использовать для ответа на вопрос какова вероятность 5 летнего выживания при давлении 160 у курильщика. Или на более понятной реальной задаче. в пришпиленном файле

Если ответить коротко - никак. Регрессия по Коксу как раз была разработана для тех случаев, когда нет представления о форме функции выживаемости. Иными словами при анализе модели пропорционального риска кривая выживаемости из рассмотрения удаляется и рассматриваются только ее изменения при разном уровне предикторов. Иными словами, модель была разработана как раз для сравнения факторов риска и оценки их влияния на эмпирическую фнукцию выживания. Соответственно, что делают большинство людей (и программ). Они оценивают эмпирическую функцию выживаемости (т.е. это будет функция для средних значений предикторов), а затем модифицируют ее на основе полученных значений HR. Соответственно, единственный способ получния вероятности выживания пациента - построение (откорректированной) кривой выживаемости (на основе эмпирической) и затем анализ полученного графика. Иными лсоавми, работаем так же, как и кривой Каплана-Мейера (собственно, она и используется для оценки эмпирической функции). Соответственно, можно анализировать только данные за период наблюдения (если смертность меньше 50%, продолжительность жизни уже не оценить).
В реальности если надо анализировать не значимость факторов риска, а выживаемость, то надо использовать не модель пропорционального риска, а параметрические модели (AFTM - accelaretd failure-time model) такие, как модель Вейбулла - придется делать предположения о форме распределения времен дожития. Там - по параметрам модели - уже можно оценивать и вероятность дожития до определенного периода, и продолжительность жизни и т.д.
DrgLena
Да, мне наконец удалось, посчитать руками, помогла документация к MedCalc. Я думаю, что если базовая функция построена на 917 наблюдениях, она дает представление о форме распределения интенсивности отказов.
Из MedCalc:
Finally, the program lists the baseline cumulative hazard H0(t), with the cumulative hazard and survival at mean of all covariates in the model.
The baseline cumulative hazard can be used to calculate the survival probability S(t) for any case at time t:
S(t)=exp (-H0(t)*PI)
PI=x1*b1+x2*b2?..

Фактически, программа MedCalc выдает h0(t) для каждого времени наблюдения, для которого есть данные в выборке, а PI (его так и называбют прогностический индекс)
мы легко считаем, используя обычные коэффициенты b. Я просто запуталась с терминологией, поскольку в формулу расчета вероятности выживания S(t) входит H0 - hazard !! У Боровикова одинаковые обозначения H(t).

Однако, программа Statistica, хотя и не выдает значения H0(t), но позволяет получить не только график фазовой функции, но и ввести значения предикторов любого больного и получить его график, что и прилагаю.
nokh
Спасибо за ответы и интересную дискуссию. Использовать много альтернативных переменных не позволяет объем выборки. Как это оценить количественно я не знаю, но исключительно интуитивно полагаю, что для 100 человек больше 3-5 предикторов рассматривать одновременно не следует. Также мне пока не ясно как влияет на модель многократная дихотомизация одной переменной типа вместо 1, 2, 3, 4, 5 - 1 vs 2+3+4+5, 1+2 vs 3+4+5 и т.п. В этом случае при вычислении средних значений предикторов многократно используются одни и те же данные. Не приводит ли это к сильному смещению оценок? Возможность использования полученных коэффициентов для построения модельных кривых выживаемости впечатляет. Это уже не вывеска, а именно доказательная медицина.
плав
Цитата(DrgLena @ 29.11.2008 - 04:11) *
Да, мне наконец удалось, посчитать руками, помогла документация к MedCalc. Я думаю, что если базовая функция построена на 917 наблюдениях, она дает представление о форме распределения интенсивности отказов.
Из MedCalc:
Finally, the program lists the baseline cumulative hazard H0(t), with the cumulative hazard and survival at mean of all covariates in the model.
The baseline cumulative hazard can be used to calculate the survival probability S(t) for any case at time t:
S(t)=exp (-H0(t)*PI)
PI=x1*b1+x2*b2?..

Фактически, программа MedCalc выдает h0(t) для каждого времени наблюдения, для которого есть данные в выборке, а PI (его так и называбют прогностический индекс)
мы легко считаем, используя обычные коэффициенты b. Я просто запуталась с терминологией, поскольку в формулу расчета вероятности выживания S(t) входит H0 - hazard !! У Боровикова одинаковые обозначения H(t).

Однако, программа Statistica, хотя и не выдает значения H0(t), но позволяет получить не только график фазовой функции, но и ввести значения предикторов любого больного и получить его график, что и прилагаю.

Все не так уж просто. Подчеркиваю, H0(t) - это эмипирическая функция выживаемости, а, значит, ее точность падает слево направо. 917 человек вначале, а во второй половине сколько? (кстати, эти упражениния не имеют отношения к модели пропорционального риска, попытка совместить ее с привычкой, оставшейся от исторически более ранних AFTM). Так что представление все равно будет ограничено. Хотите анализировать выживаемость - делайте предположение о форме функции выживаемости.
плав
Цитата(nokh @ 30.11.2008 - 23:23) *
Спасибо за ответы и интересную дискуссию. Использовать много альтернативных переменных не позволяет объем выборки. Как это оценить количественно я не знаю, но исключительно интуитивно полагаю, что для 100 человек больше 3-5 предикторов рассматривать одновременно не следует. Также мне пока не ясно как влияет на модель многократная дихотомизация одной переменной типа вместо 1, 2, 3, 4, 5 - 1 vs 2+3+4+5, 1+2 vs 3+4+5 и т.п. В этом случае при вычислении средних значений предикторов многократно используются одни и те же данные. Не приводит ли это к сильному смещению оценок? Возможность использования полученных коэффициентов для построения модельных кривых выживаемости впечатляет. Это уже не вывеска, а именно доказательная медицина.

Никак не влияет (это стандартный подход, использующийся уже лет 30). Это же так или иначе не количественная переменная. Тем более, что при построении модели используются иные правила, чем при тестировании гипотез.
DrgLena
"Все не так уж просто"
Безусловно, не просто!!! Как и любой прогноз в медицине. Ведь мы его проводим не для того, чтобы он непременно был реализован по нашим моделям, а для предотвращения нежелательного прогноза. Т.е. найти значимые факторы и воздействовать на них. Да, возможно это можно назвать упражнениями, но когда в базе данных более 3,5 тыс наблюдений (101 больной наблюдается более 20 лет), можно создать обучающую выборку из 917 больных и помоделировать. Конечно, помоделировать с целью оценить различные подходы к лечению, с учетом известных или новых факторов риска.
Начать действительно нужно с предположения о форме функции выживаемости. В модуле таблицы выживаемости я это могу сделать, причем оценки будут зависеть от выбранного интервала, выбираю 6 мес. Предлагается сравнение с 4 видами распределения Exponential, Linear Hazard, Gompertz, Weibull. Параметры оценки для этих видов очень близки, соответственно р=0,87, р=0,86, р=0,90, р=0,97. Т.е. подходит любое, но мне ближе Weibull, выбираю и получаю таблицы выживания для интервалов по 6 мес.
Но в последующем, при создании модели никакие программы меня не спрашивают, что мне ближе. Т.е. вопросов больше, чем ответов.
Насчет плохих привычек, я вообще не поняла?., что с чем совмещали раньше. Грустно только, что прогнозы сбываются и в контрольной выборке.
Игорь
Цитата(DrgLena @ 1.12.2008 - 02:09) *
Предлагается сравнение с 4 видами распределения Exponential, Linear Hazard, Gompertz, Weibull. Параметры оценки для этих видов очень близки, соответственно р=0,87, р=0,86, р=0,90, р=0,97. Т.е. подходит любое, но мне ближе Weibull, выбираю и получаю таблицы выживания для интервалов по 6 мес.

Параметры оценки - это, видимо, значения критерия Акаике? Тогда брать нужно не любое распределение, а Linear Hazard как доставляющее минимум AIC. 0,86 и 0,97 - это весьма различные значения AIC.
плав
Цитата(DrgLena @ 1.12.2008 - 02:09) *
"Насчет плохих привычек, я вообще не поняла?., что с чем совмещали раньше. Грустно только, что прогнозы сбываются и в контрольной выборке.

Это я имел ввиду, что модель пропорционального риска не предназначена для оценки функции выживаемости. Она получает коэффициенты, повышающие или понижающие риск, а затем используется эмпирическая фнукция выживаемости Каплана-Мейера, которая и меняется в соответствии с коэффициентами модели пропорционального риска. Оценка функции выживаемости - это задача AFTM (той самой модели Вейбулла), однако она должна иметь определенный теоретический вид. Соответственно, писать, что "функцию выживаемости оценивали по модели Кокса" - неправильно, ибо она ее не оценивает. Макисмум, что можно написать - "функцию выживаемости анализировали при помощи коррекции эмпирической функции выживаемости (КМ) коэффициентами модели пропорционального риска".
Что же касается численности, то сколько бы ни было вначале, важно на основании какого количества пациентов проводится расчет эмпирической функции в правом углу графика. Если, скажем, было 2000 человек, но 1990 умерли в первый год, а оставшиеся 10 медленно вымирали следующие 5 лет, то считать эмпирическую функцию выживаемости адекватной больше, чем через год после начала исследования нельзя.
С AFTM все проще. Поскольку для оценки параметров используется весь массив данных, то фнукция выживаемости справедлива для всего диапазона данных (надо только подбирать распределения, для примера выше это явно не экспонента и не вейбулл, скорее распределение Гомперца - оно позволяет моделировать эффект выздоровления).
Вообщем все, что я хотел сказать, это то, что модель Кокса должна использоваться для того, для чего она была разработана - анализ и сравнение факторов риска, а не для того, для чего она не разрабатывалась (изучение функции выживаемости).
DrgLena
Я не стала бы возражать уважаемому модератору, но у меня на столе лежит первоисточник, причем на русском языке, крупного английского математика Д.Р. Кокса, который в соавторстве с Д. Оуксом в 1983 году написал эту книгу «Анализ данных типа времен жизни», у нас она вышла в 1988, и к этому времени на русском языке это уже была седьмая его книга. Цель, которой автор посвятил эту работу звучит так, ? изучить влияние различных факторов, которые в этой книге названы поясняющими переменными или ковариатами на продолжительность жизни. В 1972 году Кокс предложил математическую модель, «в рамках которой можно исследовать влияние ковариат на продолжительность жизни». Так написал сам автор метода. Почему же не исследовать. Большинство примеров и упражнения в этой книге - по расчету времени жизни. Так что цели определены.

Мне не ясно другое, какие параметры распределения я должна привести, чтобы показать, что я имею дело именно с распределением Вейбулла, чтобы не было вопросов. Значения лямбда и гамма или значение Shape ? форма и Scale - параметр масштаба? Визуально на приводимых графиках мои данные (та же выборка) согласуются с обоими этими распределениями. Хотя и с экспоненциальным тоже согласуется, но хуже. Возможно из-за большого числа наблюдений.
Поясните мне, пожалуйста, что такое задача AFTM? И что значит метод Вейбулла.
DrgLena
Ответ уже нашла
http://www.weibull.com/
плав
Цитата(DrgLena @ 2.12.2008 - 02:37) *
Я не стала бы возражать уважаемому модератору, но у меня на столе лежит первоисточник, причем на русском языке, крупного английского математика Д.Р. Кокса, который в соавторстве с Д. Оуксом в 1983 году написал эту книгу «Анализ данных типа времен жизни», у нас она вышла в 1988, и к этому времени на русском языке это уже была седьмая его книга. Цель, которой автор посвятил эту работу звучит так, ? изучить влияние различных факторов, которые в этой книге названы поясняющими переменными или ковариатами на продолжительность жизни. В 1972 году Кокс предложил математическую модель, «в рамках которой можно исследовать влияние ковариат на продолжительность жизни». Так написал сам автор метода. Почему же не исследовать. Большинство примеров и упражнения в этой книге - по расчету времени жизни. Так что цели определены.

Мне не ясно другое, какие параметры распределения я должна привести, чтобы показать, что я имею дело именно с распределением Вейбулла, чтобы не было вопросов. Значения лямбда и гамма или значение Shape ? форма и Scale - параметр масштаба? Визуально на приводимых графиках мои данные (та же выборка) согласуются с обоими этими распределениями. Хотя и с экспоненциальным тоже согласуется, но хуже. Возможно из-за большого числа наблюдений.
Поясните мне, пожалуйста, что такое задача AFTM? И что значит метод Вейбулла.

Не хочется вступать в длительную дискуссию (например, какое слово переводчики переводили под слово "продолжительность жизни", если survival или hazard, то ситуация меняется кардинальным образом), напомню только вот что: в статье 1972 года Кокс предложил модель, которая была названа моделью пропорционального риска (генерализацию моделей распределения Вейбулла и Гомперца) и, одновременно, новый метод оценки модели под названием частичного правдоподобия (partial likelihood). В модели пропорционального риска риск (hazard) каждого человека определяется как часть общей опасности:
h_i(t)/h_j(t)=exp(b1*x_i-x_j)+...).
Как видно в этом уравнении базовый риск отсутствует. Он исчез при использовании модели пропорциональности риска (т.е. мы сравниваем не выживаемость, а отношения выживаемостей). Гениальность Кокса заключалась как раз в том, что он предложил метод (частичного правдоподобия), который позволял оценить регрессионные коэффициенты (b) не специфицируя фрму распределения функции опасности. Платой за использование этого метода стала некоторая потеря эффективности (при анализе коэффициентов - их стандартные ошибки чуть больше) и невозможность получить информацию о форме и характеристиках фнукции выживаемости из данных модели. Точно так же, как на основании отношения шансов невозможно восстановить ) без дополнительной информации) исходные частоты, так и на основании результатов модели Кокса невозможно оценить исходную функцию выживаемости S(t) (это, напомню, антилогарифм интеграла функции опасности от 0 до t). Настоятельно рекомендую просто разобраться в математике модели, тогда то, что я описываю станет понятным (кстати, просто попробуйте восстановить функцию h(t) на основании того, что представлено в распечатке модели и поймете, что там информации для этого нет). То, что написал Кокс абсолютно правильно, оценить влияние ковариант на функцию выживаемости (точнее опасность) можно, но восстановить саму функцию выживаемости - нет (а это в цитате и не утверждается). И я утверждал именно то же самое - модель Кокса предназначена для оценки факторов риска (т.е. сравнения функций выживаемости друг с другом, а не оценки ее значений).
Соответственно, оценивать эту функцию надо как-то по другому - и делается при помощи эмпирической функции выживаемости (точнее, опасности), которая строится по методу Каплана-Мейера. Здесь в теории все заканчивается хорошо, поскольку в теории у нас достаточно значений, чтобы точно определить форму эмпирической кривой. На практике это не так. Точность оценки эмпирической кривой в период времени t, очевидно, зависит от количества доживших до времени t (как и любой другой выборочный метод). Соответственно, если группа риска мала, то и оценка функции выживаемости будет подвержена достаточно большим выборочным колебаниям.
Вообще почти все статистические пакеты имеют в своем составе набор программ для оценки и простейшего сравнения фнукицй (кривых) выживаемости. Чаще всего функции оцениваются по методу Каплана-Мейера или методу таблиц дожития и сравниваются статистикой Вилкоксона или Пето (лог-ранг).
В моделях AFTM (accelerated failure time models) моделируется изменение функции опасности (выживаемости) под влиянием переменных
Формально выбор распределения делается на основе изучения эмпирической функции правдоподобия - если логарифм опасности (hazard) является константой, то соответствующее распределение - экспоненциальное, если линейно зависит от времени (a*t), то Гомперца, если имеет форму a*log(t), где t-время, то распределение Вейбулла. Надо помнить, что если истинное распределение - экспоненциальное, то оценка по моделям Вейбулла или Гомперца будет давать одинаковые кривые. Соответственно, задача аналитика выбрать адекватную функцию распределения и затем строить модель с использованием этой функции (приводятся графиики или используется стандратный тест соответствия теоретического и эмпирического распределений).
Уравнение AFTM чаще всего имеет следующий вид log(T_i)=a+b1*x1+b2*x2 +... \epsilon_i, где распределение \epsilon дает название модели (экспоненциальная, Вейбулла, Гомперца). Модели Вейбулла и экспоненциальная формально (экспоненциальная модель - это модель Вейбулла с параметром Scale=1) являются моделями пропорционального риска - после трансформации коэффициенты могут использоваться как отношения опасностей.
DrgLena
Плав, спасибо большое за внимание и терпение, с которым вам удается находить необходимые слова и деликатный тон общения с людьми разного уровня подготовки. Вы оказываете реальную помощь людям, которые самостоятельно пытаются разобраться в большом количестве информации в столь интересной области знаний.
Именно с формулой я и пытаюсь разобраться, вы пишете?
В модели пропорционального риска риск (hazard) каждого человека определяется как часть общей опасности:
h_i(t)/h_j(t)=exp(b1*x_i-x_j)+...).

Я же вижу в формулах из разных источников, которые я приводила, что риск для каждого человека, не часть общей опасности, а отношение его риска и базовому, т.е. к среднему в выборке по которой модель построена. И если умножить обе части на h_j(t), то это и будет его риск.
Эту ветку по кокс регрессии не я начала и интерес к ней скромный, мало кто использует этот метод анализа, но я благодаря вашим постам нашла в Statistica весьма полезный модуль, Process Analysis, с прекрасными графическими возможностями, получила и параметр формы и параметр масштаба, а также нашла лучший параметр положения (location), поскольку распределение Вейбулла ограничено слева.
Спасибо!!!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.