Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V  < 1 2 3 4 >  
Добавить ответ в эту темуОткрыть тему
> Допустимая доля цензурированных наблюдений в анализе выживаемости, а что если 100%?
плав
сообщение 21.11.2008 - 23:13
Сообщение #31





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 17.11.2008 - 18:28) *
Большое спасибо, пока все получилось красиво. Но я не вводил в модель взаимодействия, т.к. программа не позволяет сделать это через кнопочный интерфейс. (1) Можно ли самостоятельно закодировать каким-либо образом колонку для взаимодействия? И еще прочитал здесь ( http://faculty.chass.ncsu.edu/garson/PA765...hazardratiostat ), что отношение рисков Hazard ratio называют также отношением шансов Odds ratio. (2) Так ли это, т.е. означает ли exp(Beta)=2, что шанс (как отношение вероятности события к его альтернативе) смерти ко времени t+1 увеличивается в 2 раза? Или это терминологическое сходство c обычным отношением шансов?

Закодировать можно, на самом деле это простое произведение, т.е. если v1 (0,1) и v2 (0,1), то
v1*v2 = v3
0 0 0
0 1 0
1 0 0
1 1 1
На самом деле отношение опасностей действительно часто называют отношением шансов, поскольку это отношение вероятности умереть в интервале к вероятности его прожить. Не совсем правильно, но в первом приближении так делать можно. Но вот отношение не для времени, а для уровней факторов риска. Особенность модели Кокса как раз в том, что ничего про кривую выживаемости она сказать не может. Так что HR - это для отношений шансов смерти при уровне фактора х в сравнении с уровнем фактора х+1 в один и тот же момент времени t (допущение модели, что HR не меняется на протяжении всего срока исследования).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 22.11.2008 - 18:05
Сообщение #32





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Спасибо. Получается, что если переменная бинарная, то HR описывает риск при переходе из одной категории в другую, а если переменная имеет больше градаций (например, упорядоченные категории или измерения) - то риск при переходе в отличающуюся на единицу категорию. Но тогда величина HR для таких предикторов должна быть априори меньше по сравнению с HR для альтернативных предикторов?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 23.11.2008 - 00:56
Сообщение #33





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, если предиктор бинарный, то экспоненциальный коэффициент показывает во сколько раз возрастает риск при наличии фактора риска (код признака 1), относительно альтернативы (0). А вот если переменная имеет больше градаций, например, локализация опухоли или ее клеточный тип, то можно сначала выяснить, как они упорядочены используя построение кривых выживаемости К-М. Это дает возможность упорядочить градации от менее к более опасным. После этого вы можете получить HR для второй градации относительно первой, третьей относительно второй и т.д. Т.е. риск не будет возрастать одинаково при переходе от одной категории к другой, как для количественной переменной, например для выстояния опухоли или возраста больного. Некоторые программы (Statistica) работают только с количественными переменными, т.е. переменная с упорядоченными категориями будет восприниматься как количественная и риск будет возрастать одинаково при переходе на каждую более высокую категорию по сравнению с предыдущей.
SPSS предоставляет различные возможности для работы с категориальными переменными (сontrast, reference category). В ссылке, которую вы привели это описано.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.11.2008 - 19:21
Сообщение #34





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Спасибо за разъяснения. Выходит что если предикторы представлены данными разного типа, то использовать величину HR для оценки их прогностической ценности нельзя. А вот этот момент не понял:
Цитата(DrgLena @ 23.11.2008 - 02:56) *
...После этого вы можете получить HR для второй градации относительно первой, третьей относительно второй и т.д.

Как вы это проделываете? (1) Выдергиваете интересующие категории из всего массива предикторов и строите для них отдельные регресии чтобы в этом разобраться или (2) разбиваете все сложные предикторы на бинарные и включаете в модель Кокса одновременно? Если (2), то модель получется очень сложной, а если (1), то предикторы не будут adjusted друг на друга confused.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 27.11.2008 - 22:17
Сообщение #35





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 27.11.2008 - 19:21) *
1) Спасибо за разъяснения. Выходит что если предикторы представлены данными разного типа, то использовать величину HR для оценки их прогностической ценности нельзя. А вот этот момент не понял:

2) Как вы это проделываете? (1) Выдергиваете интересующие категории из всего массива предикторов и строите для них отдельные регресии чтобы в этом разобраться или (2) разбиваете все сложные предикторы на бинарные и включаете в модель Кокса одновременно? Если (2), то модель получется очень сложной, а если (1), то предикторы не будут adjusted друг на друга confused.gif

1) Почему нельзя использовать? Так же как в логистической регрессии используете для количественных стандартизованные HR (т.е. HR при изменении значения на 1 SD (exp(\beta*SD)), так разные показатели можно сравнивать друг с другом (для бинарных, SD, очевидно, будет равно \sqrt(р*(1-р)))
2) А чего плохого в большом количестве бинарных предикторов? Модель действительно строится для большого количества бинарных предикторов (кстати, SAS это делает автоматом при использовании идентификатора CLASS, Stata при помощи приставки xi, а R просто автоматически конвертирует факторы (т.е. качественные переменные)). Так что проблем нет, в конечной модели, которая представляется в статью большая часть предикторов, которые были в модели опускаются и приводятся HR только для важнейших с подписью в заголовке, что все откорректировано на "пол, возраст и уровень ХС"
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 28.11.2008 - 03:30
Сообщение #36





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



«Как вы это проделываете?»
Да также как и все, кроме тех, кто стандартизирует HR. Мне не удалось найти ни одной публикации, где бы были представлены стандартизироавнные HR.
Кокс регрессия анализирует влияние фактора против альтернативы (отсутствие фактора), для бинарной переменной это понятно. Например мужской пол относительно женского при УМ HR=1,15 ( «м» versus «ж»)
Если у нас номинальная переменная имеет, например 5 градаций (клеточный тип УМ ), и вы хотите проанализировать, какие из них более благоприятные (веретеноклеточный А и АБ), а какие более зловредные (Б, смешанные и эпителиоидные). Кривые К-М это показывают. Поэтому, я либо могу объединить Б и неверетеноклеточные и оценить их относительно альтернативы (веретеноклеточный А и АБ), т е анализировать бинарную переменную, либо выбрать любую градацию этой переменной и альтернативу ей. Например, эпителиоидные по сравнению с любыми другими, или конкретно с А. Если в модель включены количественные переменные, например возраст при постановке диагноза, то его вклад в выживаемость тоже может быть значимым. Причем, все публикации по УМ дают для возраста примерно одинаковое значение HR=1,03, для выстояния опухоли также примерно одинаковые значения 1,05. И мы уже обсудили, что это значит. Но HR для веретеноклеточного АБ по сравнению с А =1,7, а эпителиоидный (versus А) =2,77. Т.е. модель дает мне возможность оценить независимое влияние каждой переменной на выживаемость, а не сравнивать разные переменные по степени вклада между собой. Мне не нужно сравнивать, что хуже быть мужчиной или женщиной, но с опухолью на 3 мм выше. А если в модель входит метод лечения например химия, хирургия и их сочетание, то вы сами выбираете альтернативу, например хирургия относительно сочетания или химия относительно сочетания.
Понять, зачем стандартизировать HR , я так и не смогла. Вот, если бы у нас были только количественные предикторы, то мы бы стандартизировали эти переменные и с ними работали.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 28.11.2008 - 10:29
Сообщение #37





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 28.11.2008 - 03:30) *
«Как вы это проделываете?»
Да также как и все, кроме тех, кто стандартизирует HR. Мне не удалось найти ни одной публикации, где бы были представлены стандартизироавнные HR.
...
Понять, зачем стандартизировать HR , я так и не смогла. Вот, если бы у нас были только количественные предикторы, то мы бы стандартизировали эти переменные и с ними работали.

Очень просто - для того, чтобы сравнивать силу действия факторов риска. Представьте себе, что у Вас два фактора риска - курение (HR=2.4) и уровень АД (HR=1.06). Какой из этих факторов сильнее? Курение? (HR больше). Нет. Артериальное давление.
Очевидно, что HR рассчитывает рост риска при изменении фактора риска на одну единицу. Соответственно в примере выше сравнивается переход между категориями (курит-не курит) и ростом АД на 1 мм.рт.ст. Несравнивнимые показатели.
Что же делать? Используется стандартизованное распределение, которое не имеет размерности. Стандартизованное распределение (классический пример - стандартизованное нормальное N(0,1)) измеряет все в долях стандартного отклонения. Поскольку мы уходим от несравнимы единиц, теперь HR можно сравнивать друг с другом (можно спорить, что стандартизация по SD не очень хороша, можно использовать стандартизацию по IQR). Однако путем простого фокуса - рассчета HR не на единицу, а на стандартное отклонение получаем в случае курения (предположим, курит 50%) получаем HR=1.55, а для артериального давления (SD=20) HR=3.21. Соответственно, значимость АД, как фактора риска, в данной популяции значительно выше.
(на самом деле часто используются именно стандартизованные HR, просто это отмечается мелким шрифтом в примечании к таблице, типа HR рассчитаны на 1 SD)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 28.11.2008 - 14:27
Сообщение #38





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Мы очевидно для разных целей используем кокс регрессию. Мне не нужно сравнивать факторы между собой, мне нужно построить функцию выживания в зависимости от значения, например этих двух факторов - курение и АД. Понятно, что у курильщиков риск в 2,5 раза выше, чем у не курильщиков, а также повышение на 1 (n+1) АД повышает риск на 6% относительно n. А ваши стандартизированные HR мне такой информации не дают. Вопрос в другом, относительно какого значения АД, начинается отсчет повышение риска? Например, оба не курят, у одного верхнее давление 100, у другого 105, будет ли у второго риск выше на 30% выше, чем у первого. Вот тут наконец мы и приходим к формуле кокс регрессии и объясняем, что такое «базовый риск» h0(t), Боровиков написал, что это значение функции отказа при нулевом значении всех предикторов. Очевидно, он взял эту фразу из документации к программа Statistica. Он только не уточнил, что это средние стандартизированные значения. Т.о. по средним значениям строится функция отказов. Тогда, при переходе на реальные данные среднее давление в выборке по которой строилась модель , например, 155, тогда повышение давления до 160 повышает риск на 30% по сравнению с 155.
Именно поэтому после процедуры кокс регрессии программы, например SPSS или Statistica выдают средние значения предикторов в обучающей выборке. И из этих средних значений во многих публикациях делают бинарные переменные. Возраст >63 лет, высота опухоли >7,2 мм ? это фактор риска, альтернатива ? меньше этих значений. Насколько я поняла, мы оцениваем риск каждого больного относительно этого базового риска. При этом, я привожу кривую базового риска и на этом же графике для конкретного больного.
Но ?.получить ручками из реальных коэффициентов (не exp) я не смогла. Если можно, покажите, как их использовать для ответа на вопрос какова вероятность 5 летнего выживания при давлении 160 у курильщика. Или на более понятной реальной задаче. в пришпиленном файле

Прикрепленные файлы
Прикрепленный файл  va.ppt ( 564,5 килобайт ) Кол-во скачиваний: 502
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 28.11.2008 - 17:54
Сообщение #39





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 28.11.2008 - 14:27) *
Мы очевидно для разных целей используем кокс регрессию. Мне не нужно сравнивать факторы между собой, мне нужно построить функцию выживания в зависимости от значения, например этих двух факторов - курение и АД. Понятно, что у курильщиков риск в 2,5 раза выше, чем у не курильщиков, а также повышение на 1 (n+1) АД повышает риск на 6% относительно n. А ваши стандартизированные HR мне такой информации не дают. Вопрос в другом, относительно какого значения АД, начинается отсчет повышение риска? Например, оба не курят, у одного верхнее давление 100, у другого 105, будет ли у второго риск выше на 30% выше, чем у первого. Вот тут наконец мы и приходим к формуле кокс регрессии и объясняем, что такое «базовый риск» h0(t), Боровиков написал, что это значение функции отказа при нулевом значении всех предикторов. Очевидно, он взял эту фразу из документации к программа Statistica. Он только не уточнил, что это средние стандартизированные значения. Т.о. по средним значениям строится функция отказов. Тогда, при переходе на реальные данные среднее давление в выборке по которой строилась модель , например, 155, тогда повышение давления до 160 повышает риск на 30% по сравнению с 155.
Именно поэтому после процедуры кокс регрессии программы, например SPSS или Statistica выдают средние значения предикторов в обучающей выборке. И из этих средних значений во многих публикациях делают бинарные переменные. Возраст >63 лет, высота опухоли >7,2 мм ? это фактор риска, альтернатива ? меньше этих значений. Насколько я поняла, мы оцениваем риск каждого больного относительно этого базового риска. При этом, я привожу кривую базового риска и на этом же графике для конкретного больного.
Но ?.получить ручками из реальных коэффициентов (не exp) я не смогла. Если можно, покажите, как их использовать для ответа на вопрос какова вероятность 5 летнего выживания при давлении 160 у курильщика. Или на более понятной реальной задаче. в пришпиленном файле

Если ответить коротко - никак. Регрессия по Коксу как раз была разработана для тех случаев, когда нет представления о форме функции выживаемости. Иными словами при анализе модели пропорционального риска кривая выживаемости из рассмотрения удаляется и рассматриваются только ее изменения при разном уровне предикторов. Иными словами, модель была разработана как раз для сравнения факторов риска и оценки их влияния на эмпирическую фнукцию выживания. Соответственно, что делают большинство людей (и программ). Они оценивают эмпирическую функцию выживаемости (т.е. это будет функция для средних значений предикторов), а затем модифицируют ее на основе полученных значений HR. Соответственно, единственный способ получния вероятности выживания пациента - построение (откорректированной) кривой выживаемости (на основе эмпирической) и затем анализ полученного графика. Иными лсоавми, работаем так же, как и кривой Каплана-Мейера (собственно, она и используется для оценки эмпирической функции). Соответственно, можно анализировать только данные за период наблюдения (если смертность меньше 50%, продолжительность жизни уже не оценить).
В реальности если надо анализировать не значимость факторов риска, а выживаемость, то надо использовать не модель пропорционального риска, а параметрические модели (AFTM - accelaretd failure-time model) такие, как модель Вейбулла - придется делать предположения о форме распределения времен дожития. Там - по параметрам модели - уже можно оценивать и вероятность дожития до определенного периода, и продолжительность жизни и т.д.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 29.11.2008 - 04:11
Сообщение #40





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, мне наконец удалось, посчитать руками, помогла документация к MedCalc. Я думаю, что если базовая функция построена на 917 наблюдениях, она дает представление о форме распределения интенсивности отказов.
Из MedCalc:
Finally, the program lists the baseline cumulative hazard H0(t), with the cumulative hazard and survival at mean of all covariates in the model.
The baseline cumulative hazard can be used to calculate the survival probability S(t) for any case at time t:
S(t)=exp (-H0(t)*PI)
PI=x1*b1+x2*b2?..

Фактически, программа MedCalc выдает h0(t) для каждого времени наблюдения, для которого есть данные в выборке, а PI (его так и называбют прогностический индекс)
мы легко считаем, используя обычные коэффициенты b. Я просто запуталась с терминологией, поскольку в формулу расчета вероятности выживания S(t) входит H0 - hazard !! У Боровикова одинаковые обозначения H(t).

Однако, программа Statistica, хотя и не выдает значения H0(t), но позволяет получить не только график фазовой функции, но и ввести значения предикторов любого больного и получить его график, что и прилагаю.

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 30.11.2008 - 23:23
Сообщение #41





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Спасибо за ответы и интересную дискуссию. Использовать много альтернативных переменных не позволяет объем выборки. Как это оценить количественно я не знаю, но исключительно интуитивно полагаю, что для 100 человек больше 3-5 предикторов рассматривать одновременно не следует. Также мне пока не ясно как влияет на модель многократная дихотомизация одной переменной типа вместо 1, 2, 3, 4, 5 - 1 vs 2+3+4+5, 1+2 vs 3+4+5 и т.п. В этом случае при вычислении средних значений предикторов многократно используются одни и те же данные. Не приводит ли это к сильному смещению оценок? Возможность использования полученных коэффициентов для построения модельных кривых выживаемости впечатляет. Это уже не вывеска, а именно доказательная медицина.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 1.12.2008 - 00:53
Сообщение #42





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 29.11.2008 - 04:11) *
Да, мне наконец удалось, посчитать руками, помогла документация к MedCalc. Я думаю, что если базовая функция построена на 917 наблюдениях, она дает представление о форме распределения интенсивности отказов.
Из MedCalc:
Finally, the program lists the baseline cumulative hazard H0(t), with the cumulative hazard and survival at mean of all covariates in the model.
The baseline cumulative hazard can be used to calculate the survival probability S(t) for any case at time t:
S(t)=exp (-H0(t)*PI)
PI=x1*b1+x2*b2?..

Фактически, программа MedCalc выдает h0(t) для каждого времени наблюдения, для которого есть данные в выборке, а PI (его так и называбют прогностический индекс)
мы легко считаем, используя обычные коэффициенты b. Я просто запуталась с терминологией, поскольку в формулу расчета вероятности выживания S(t) входит H0 - hazard !! У Боровикова одинаковые обозначения H(t).

Однако, программа Statistica, хотя и не выдает значения H0(t), но позволяет получить не только график фазовой функции, но и ввести значения предикторов любого больного и получить его график, что и прилагаю.

Все не так уж просто. Подчеркиваю, H0(t) - это эмипирическая функция выживаемости, а, значит, ее точность падает слево направо. 917 человек вначале, а во второй половине сколько? (кстати, эти упражениния не имеют отношения к модели пропорционального риска, попытка совместить ее с привычкой, оставшейся от исторически более ранних AFTM). Так что представление все равно будет ограничено. Хотите анализировать выживаемость - делайте предположение о форме функции выживаемости.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 1.12.2008 - 00:56
Сообщение #43





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(nokh @ 30.11.2008 - 23:23) *
Спасибо за ответы и интересную дискуссию. Использовать много альтернативных переменных не позволяет объем выборки. Как это оценить количественно я не знаю, но исключительно интуитивно полагаю, что для 100 человек больше 3-5 предикторов рассматривать одновременно не следует. Также мне пока не ясно как влияет на модель многократная дихотомизация одной переменной типа вместо 1, 2, 3, 4, 5 - 1 vs 2+3+4+5, 1+2 vs 3+4+5 и т.п. В этом случае при вычислении средних значений предикторов многократно используются одни и те же данные. Не приводит ли это к сильному смещению оценок? Возможность использования полученных коэффициентов для построения модельных кривых выживаемости впечатляет. Это уже не вывеска, а именно доказательная медицина.

Никак не влияет (это стандартный подход, использующийся уже лет 30). Это же так или иначе не количественная переменная. Тем более, что при построении модели используются иные правила, чем при тестировании гипотез.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 1.12.2008 - 02:09
Сообщение #44





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



"Все не так уж просто"
Безусловно, не просто!!! Как и любой прогноз в медицине. Ведь мы его проводим не для того, чтобы он непременно был реализован по нашим моделям, а для предотвращения нежелательного прогноза. Т.е. найти значимые факторы и воздействовать на них. Да, возможно это можно назвать упражнениями, но когда в базе данных более 3,5 тыс наблюдений (101 больной наблюдается более 20 лет), можно создать обучающую выборку из 917 больных и помоделировать. Конечно, помоделировать с целью оценить различные подходы к лечению, с учетом известных или новых факторов риска.
Начать действительно нужно с предположения о форме функции выживаемости. В модуле таблицы выживаемости я это могу сделать, причем оценки будут зависеть от выбранного интервала, выбираю 6 мес. Предлагается сравнение с 4 видами распределения Exponential, Linear Hazard, Gompertz, Weibull. Параметры оценки для этих видов очень близки, соответственно р=0,87, р=0,86, р=0,90, р=0,97. Т.е. подходит любое, но мне ближе Weibull, выбираю и получаю таблицы выживания для интервалов по 6 мес.
Но в последующем, при создании модели никакие программы меня не спрашивают, что мне ближе. Т.е. вопросов больше, чем ответов.
Насчет плохих привычек, я вообще не поняла?., что с чем совмещали раньше. Грустно только, что прогнозы сбываются и в контрольной выборке.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.12.2008 - 18:37
Сообщение #45





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 1.12.2008 - 02:09) *
Предлагается сравнение с 4 видами распределения Exponential, Linear Hazard, Gompertz, Weibull. Параметры оценки для этих видов очень близки, соответственно р=0,87, р=0,86, р=0,90, р=0,97. Т.е. подходит любое, но мне ближе Weibull, выбираю и получаю таблицы выживания для интервалов по 6 мес.

Параметры оценки - это, видимо, значения критерия Акаике? Тогда брать нужно не любое распределение, а Linear Hazard как доставляющее минимум AIC. 0,86 и 0,97 - это весьма различные значения AIC.

Сообщение отредактировал Игорь - 1.12.2008 - 18:38


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V  < 1 2 3 4 >
Добавить ответ в эту темуОткрыть тему