Допустимая доля цензурированных наблюдений в анализе выживаемости

Допустимая доля цензурированных наблюдений в анализе выживаемости, а что если 100%?

nokh Просмотр профиля	10.03.2008 - 07:36 Сообщение #1
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Идеальные данные для анализа выживаемости - когда точно известно сколько человек прожил, например, после операции и когда умер. В этом случае цензурированных наблюдений нет. Другой крайний случай - когда все наблюдения цензурированные и дальнейшая судьба пациентов неизвестна. Например один прожил больше года, другой - больше трех. В этом случае может оказаться, что больше года - это 5, а больше трех - это 4. Поэтому, насколько я понимаю, сравнить выживаемость в двух группах где все наблюдения цензурированные невозможно в принципе. А какова допустимая доля цензурированных наблюдений в выборке? Существуют ли какие-то обоснованные или негласные правила? Полазил в и-нете, заглянул в книжки - пока ответа не нашел, хотя везде рассматриваются примеры где полные данные заметно преобладают над цензурированными. Или может считать цензурированными только точно живых на момент анализа, а всех потерявшихся считать умершими в интервале между двумя осмотрами, как прочитал в одной статье?

DrgLena Просмотр профиля	12.03.2008 - 23:55 Сообщение #2
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Естественно, что анализ выживаемости не проводят, если никто не умер.. И его легко провести, если в конце исследования все умерли (complete). Но чаще всего проводят анализ не полных данных. На момент анализа у вас должны быть сведения о умерших - дата начала наблюдения и дата смерти, для больных о которых есть сведения, что они были живы на конкретную дату -дата начала наблюдения и дата цензурирования, т.е. сведения, что больной был жив к этой дате). Эти сведения должны относиться к выбранному вами интервалу, на которые вы разбиваете сроки наблюдения, а не ко времени проведения анализа. Поэтому ваше последнее предложение не верно, нельзя считать умершими или живыми тех, о ком нет сведений. Обычно анализ проводят многократно, после получения новых сведений о больных даты цензурирования обновляются в базе данных и жизненный статус корректируется. Самый старый анализ выживаемости - таблицы выживаемости. В Statistica таблица выглядит так, как я прилагаю. Ширина интервала - 24 месяца. В первом интервале 186 больных умерло, 420 точно не умершие. Прикрепленные файлы Life.htm ( 20,87 килобайт ) Кол-во скачиваний: 633

nokh Просмотр профиля	13.03.2008 - 00:51 Сообщение #3
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует . По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке?

DrgLena Просмотр профиля	13.03.2008 - 12:53 Сообщение #4
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Вы затронули очень важную тему в анализе данных. Часто на конференциях можно услышать совершенно различные оценки выживаемости больных с одной и той же патологией, поскольку каждый считает как умеет, кроме того хочет показать, что у него результат лучше, и это одна из проблем. Другая - нет возможности получить достоверную информацию о статусе больного. Приходится писать письма больным и получать порой весьма ожидаемый ответ ( не проживает). В примере, который я привела (n=1733), к сожалению, нет второй строки к названию колонок (недостаток Statistica) цензурировано 1193 (68,8%), не цензурировано 540 (31,2%), умерло 354. Можно было бы считать, что смертность на весь срок наблюдения 354/1733100=20%. Однако, множительные оценки учитывают отсутствие данных. И к средине 5 летнего интервала, как следует из представленной таблицы вероятность выживания 0,76, смертности 0,24. Число подверженных риску на определенном интервале вычисляется как разница числа наблюдаемых в предыдущем интервале минус половина не умерших. В новом файле на русском языке обведена эта колонка. Подробно про цензурирование ? Анализ данных типа времени жизни. Д.Р. Кокс, Д. Оукс. М. 1988 ? у меня на столе, в электронном виде не встречала. Я думаю, что на любом этапе наблюдения может быть проведен анализ выживаемости, даже если имеется большой процент не полных данных. На следующем этапе анализа могут появиться сведения о статусе больного. У меня тоже есть вопросы по этому методу анализа. Как правильно работать с хвостами распределения. Например, в первые месяцы после постановки диагноза или лечения сведений о статусе нет. Повторные осмотры примерно через пол года или письма начали писать через год или два. Кроме того есть данные очень отдаленных наблюдений, в данном примере более 30 лет, есть больные которые точно живы к середине интервала. Прикрепленные файлы* Life3.htm ( 328,97 килобайт ) Кол-во скачиваний: 899

DrgLena Просмотр профиля	13.03.2008 - 12:57 Сообщение #5
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Обведенная колонка у меня съехала, я хотела отметить число подверженных риску.

плав Просмотр профиля	13.03.2008 - 12:58 Сообщение #6
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(nokh @ 13.03.2008 - 00:51) Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует . По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке? Для того, чтобы ответить на конкретный и общий вопросы надо немного задуматься над принципом анализа выживаемости. В нем анализируются, грубо говоря, два компонента - количество наступивших исходов (т.е. умерших) и время наблюдения (за умершими и не умершими). Показатели смертности тогда являются просто отношением количества умерших к суммарному времени наблюдения. Соответственно, если у Вас много цензурированных наблюдений, то это не страшно, поскольку Вы увеличиваете знаменатель. В кардиологических исследованиях не редко цензурируются до 80-90% случаев и более. НО. Речь идет о цензурированных сулчаях, т.е. известно, что к моменту окончания исследования больной был жив или на третьем месяце наблюдения он погиб в автокатастрофе, а не от инфаркта. Проблема Ваших данных в том, что у Вас цензурированные данные двух типов - качественные (известно, что живы) и некачественные (неизвестно, что с ними). Соответственно, формально Вы их можете включать в исследование только с тем временем наблюдения, когда они _точно_ были живы. Если они потерялись сразу же после операции (т.е. их выписали, а далее судьба неизвестна - то такие наблюдения следует игнорировать. В принципе, при подобных потерях используется обычное правило определения репрезентативности используемой группы, когда данные еще считаются репрезентативными, если потерялось не более 30% наблюдений. Считать потерявшихся больных умершими нельзя, ибо какое время Вы им отведете? Момент последнего контакта - резко завысите смертность, какую-то еще дату - а почему именно ее? С другой стороны, честно говоря, мне не совсем понятны проблемы с нахождением пациентов. Для них известны адреса, по идее должны быть записаны телефоны. В конце концов, есть поликлиника по месту жительства. Поскольку я принимал участие и организовывал не одно исследование с длительным наблюдением могу сказать - данные получить сложно (особенно с прошлого года, когда адресные бюро стали отказывать в предоставлении данных о проживающих), но возможно. Просто для этого надо приложить значительные усилия, а на блюдечке с голубой каемочкой их никто не принесет - не Швеция. В крупных проектах налаживаются связи с Росстатом (региональным отделением) и договариваются о проверке базы данных сотрудниками Росстата (иным образом - запрос умер/жив) нельзя. Вместе с тем, пусть плохие данные остаются на совести исследователей. Я бы анализировал эти данные по факту - т.е. когда был последний контакт (перед потерей связи или окончанием исследования) или установлен факт смерти и отдельно привел статистику по потерянным пациентам. Это наиболее честный способ представления подобных данных.

плав Просмотр профиля	13.03.2008 - 13:24 Сообщение #7
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	To DrgLena Если известно, что человек был жив через три года после начала. то то, что с ним не контактировали в первый год - не проблема - важен момент последнего контакта. Если что-то измеряется, что могло произойти в первый год (нефатальный инфаркт), а контактов не было - надо просто проигнорировать первый год (т.е. отбросить все события в первый год - и призошедшие и потерянных) и описать это в работе.

DrgLena Просмотр профиля	13.03.2008 - 14:12 Сообщение #8
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Как именно игнориорвать мне и не ясно. Условие включения в анализ, или ограничения по длительности наблюдения, изменяют 5 летнюю выживаемость. Где то я когда - то читала как работать с длинными хвостами, чтобы получать более точные оценки, но не запомнила. Оба приведенных мной примера из реальной жизни (базы данных под рукой). Кого как исключить? Особенно это важно при сравнении двух методик лечения, которые оцениваются Каплан- Майеровскими кривыми. В одной группе есть, например один ответ в отдаленные сроки наблюдения, в другой - нет. Исключения или обрезание "хвостов" сильно влияют на результат сравнения.

DrgLena Просмотр профиля	13.03.2008 - 14:37 Сообщение #9
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Вот пример реальный, из той же базы данных, сравниваются два метода лечения (n=1502), другие не рассматриваются. Какой вывод можно сделать из представленных кривых? По критерию различия статистически значимы, на 5 лет это заметно, а на 10 лет? Прикрепленные файлы Variable.htm ( 31,51 килобайт ) Кол-во скачиваний: 599

DrgLena

13.03.2008 - 14:40

Сообщение #10

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573

График убежал, повторяю jpg

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

плав Просмотр профиля	13.03.2008 - 18:38 Сообщение #11
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(DrgLena @ 13.03.2008 - 14:37) Вот пример реальный, из той же базы данных, сравниваются два метода лечения (n=1502), другие не рассматриваются. Какой вывод можно сделать из представленных кривых? По критерию различия статистически значимы, на 5 лет это заметно, а на 10 лет? А анализ выживаемости не задается вопросом о различиях на определенных сроках - анализируется вся кривая выживаемости целиком. Соответственно из представленных кривых видно, что одна группа имела явно более высокую выживаемость в первые годы, а затем "нагнала" основную. Если есть желание сравнивать по периодам, то можно делать анализ таблиц дожития с расчетом на каждом периоде различий между группами по Мантелю-Ханзелю. Кстати метод Каплана-Мейера просто описательный. На него навешивают тесты типа Пето или Вилкоксона, у которых уже есть ряд предположений о характере данных. В принципе сравнение предполагает "равномерное" вымирание. Если это не так, то для сравнения в рамках моделей надо использовать Кокса с временными переменными (time-dependent variables)

nokh Просмотр профиля	13.03.2008 - 22:55 Сообщение #12
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Спасибо! На свои вопросы я ответы получил. Выходит, что важна не доля полных исходов (смертей), а их общее количество, которое должно быть достаточным для анализа (вероятно, где то от нескольких десятков и более). Допущения о времени смерти потерявшегося пациента - чистые фантазии, которые никак нельзя обработать статистически. Данные, которые я собирался анализировать в имеющемся виде для анализа не годятся, т.к. абсолютное число подтвержденных смертей очень мало.

ВалНест Просмотр профиля	1.06.2008 - 08:48 Сообщение #13
Группа: Пользователи Сообщений: 13 Регистрация: 1.06.2008 Пользователь №: 5074	Уважаемый ПЛАВ! У меня проблемы при сравнении наблюдаемой и скорректированной выживаемостей онкобольных. Меня удивляет то, что если онкобольной умирает от сопутствующего заболевания, усугубленного специфическим лечением, показатель эффективности лечения (скорректированный) улучшается. Оценивать наблюдаемую выживаемость при оценке эффективности лечения тоже некорректно. Как тогда поступать? Кто нибудь серьезно задумался над этой проблемой? Спасибо за внимание!

ВалНест Просмотр профиля	1.06.2008 - 09:10 Сообщение #14
Группа: Пользователи Сообщений: 13 Регистрация: 1.06.2008 Пользователь №: 5074	Цитата(nokh @ 13.03.2008 - 01:51) Спасибо за внимание к моей проблеме. С анализом выживаемости знаком, но проводил его всего дважды. В первом случае выживали мушки дрозофилы и данные были на 100% полные. Во втором случае выживали онкологические больные и данные содержали 3-5% цензурированных наблюдений. Все прекрасно считалось и сравнивалось. Сейчас столкнулся с ситуацией, когда 3-5% умерло, процентов 15 живы, а большинство потерялись. Далеко не во во всех городах существует раковый регистр и полноценные базы данных. В данной больнице сведения о смерти пациентов выцарапывают кто как может: кто письма шлет, кто через спецслужбы действует . По-хорошему, конечно, всех потерявшихся нужно считать цензурированными - и тогда, действительно, что это за данные, когда почти все живы? С другой стороны хорошо понятно, куда могли потеряться онкобольные через год-два после операции , но не ясно как грамотно эту информацию обработать. Считать их цензурированными - нечего анализировать, считать умершими - скорее да, но велика степень неопределенности. Где-то читал что всех потерявшихся можно считать умершими в интервале между двумя осмотрами (на первый пришел, на второй - нет) и заносить в актуарные таблицы, но сомневаюсь что это корректно. Кто плотно занимался выживаемостью, подскажите! Это про конктретные данные. Но также остался открытым более общий вопрос: как много может быть цензурированных наблюдений в выборке? Уважаемый коллега! Я понял, что опыт оценки выживаемости у Вас больше, чем у меня. Если есть возможность, подскажите, раковые регистры не могли бы использовать информацию из соответствующих служб о смерти и причине смерти. Кто-то справку о смерти выдает? Но меня волнует проблема цензурирования с другой стороны. Онкобольной умер от инсульта. Он цензурируется. Скорректированная выживаемость улучшается. Но разве инсульт нельзя рассматривать как осложнение противоопухолевой терапии? Чем больше больных погибнет о коморбидной патологии, тем лучше будет эффективность лечения онкопатологии. По наблюдаемой выживаемости тоже некорректно оценивать эффективность лечения. Некоторые смерти действительно нужно цензурировать. Например, возрастающие в частоте суициды. Как поступать при оценке эффективности лечения? Кто-то об этом думал?

ВалНест Просмотр профиля	1.06.2008 - 09:16 Сообщение #15
Группа: Пользователи Сообщений: 13 Регистрация: 1.06.2008 Пользователь №: 5074	Речь идет о цензурированных сулчаях, т.е. известно, что к моменту окончания исследования больной был жив или на третьем месяце наблюдения он погиб в автокатастрофе, а не от инфаркта. Проблема Ваших данных в том, что у Вас цензурированные данные двух типов - качественные (известно, что живы) и некачественные (неизвестно, что с ними). А я опять о своих регистрах! Раковые регистры - это государственное дело. Почему они не могут получать информацию о смерти больных из органов, которые выдают справки о смерти с указанием причин смерти? Тогда проблема "некачественных" данных будет решена! Это делается?

« Предыдущая тема · Медицинская статистика · Следующая тема »