Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V  < 1 2 3 4 >  
Добавить ответ в эту темуОткрыть тему
> Логистическая регрессия?
p2004r
сообщение 13.11.2011 - 17:04
Сообщение #16





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699




Посмотрим что увидела оптимальная модель
Код
mosaicplot(table(result[,1],data$рецидив.до.года, result[,5]))


вертикальная ось показывает разбиение по признаку "рецидив до года"

горизонтальная ось показывает разбиение по числу мелких мтс

внутри каждое сочетание разбито по числу крупных мтс

суть модели более чем визуализирована smile.gif
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.11.2011 - 18:05
Сообщение #17





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Поскольку у крупных опухолей всего два уровня (есть-нет) построим графическое представление лучшей модели прямо на графике (число малых опухолей vs рецидив)

сначала склеим таблицу данных с нормальными именами (что то predict.glm() обиделась на имена со спецсимволами)
Код
model.data<-data.frame("i1"=result[,1],"i5"=result[,5],"рецидив.до.года"=data$рецидив.до.года)
model <- glm(рецидив.до.года~ i1+i5, data=model,data, family=binomial)


нанесем на график линии предсказания модели

Код
plot(model.data$i1,
       model.data$рецидив.до.года)

lines(seq(0,5, length.out=40),
       predict(model,data.frame(i1=seq(0,5, length.out=40),
                                   i5=1),
                 type="response"))

lines(seq(0,5, length.out=40),
       predict(model,data.frame(i1=seq(0,5, length.out=40),
                                   i5=0),
                  type="response"),
       col="red")


PS ну и наоборот построим тоже smile.gif

Код
> plot(model.data$i5,model.data$рецидив.до.года)
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=0),type="response"))
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=1),type="response"))
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=2),type="response"))
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=3),type="response"))
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=4),type="response"))
> lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=5),type="response"))


тут очевидно чем больше тем хуже frown.gif

на формулировку http://forum.disser.ru/index.php?showtopic...ost&p=12211 ответ получен?

наверное можно пройти границами (в разумных пределах) по "сроку" и получить такие модели для других сроков?

Сообщение отредактировал p2004r - 6.12.2011 - 14:39
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.11.2011 - 18:27
Сообщение #18





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



нет ли опечатки?

Код
> table(data$срок, data$рецидив.до.года)
    
      0  1
  1   0  3
  3   0 12
  6   1 17
  9   0 18
  12  0 16
  15  7  0
  18  5  0
  21  4  0
  24  4  0
  27  2  0
  30  3  0
  36  1  0


что то 6й уровень подозрительный?

Сообщение отредактировал p2004r - 13.11.2011 - 18:28


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 15.11.2011 - 00:37
Сообщение #19





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Поскольку дискуссия с автором поста пока не получается и, даже диалога с p2004r нет, а данные выложены, можно предложить и другое решение задачи.
В анализе могут участвовать две переменные ? число МТС и величина максимального МТС, это моя клиническая гипотеза, что прежде всего величина максимального МТС будет играть роль, по аналогии с тем, что опухоли с большей проминенцией имеют худшие прогнозы.

Гипотеза 1 автора поста о влиянии числа МТС статистически не подтвердилась, если она относилась именно к числу МТС 2-3, как высказывал автор поста, а в качестве отклика брать число ранних рецидивов. Для рецидива до года для числа МТС более трех OR=1,8 (95% ДИ 0,7 ? 4,6). Даже если брать только 2 рецидива, против >2-х то тоже не будет статистически значимой сопряженности с ранними рецидивами. И в логистической регрессии, если использовать количество МТС как единственную количественную переменную, то коэффициент будет не значим.

А вторая гипотеза о влиянии размера МТС верна, но она должна быть сформулирована иначе. Тут можно сделать такой вывод, если размер одного из МТС 3 и более см , то это является фактором риска раннего рецидива (до года). OR=8,4 (95% ДИ 2,5- 27,6). И судя по представленным данным это вполне доказанный факт. В логистической регрессии в двумя переменными, число МТС (>3-х) также не значимый фактор, OR=1,9 (0,7÷5,4), а размер любого МТМ >3 см значимый фактор OR=8,6 (2,5 ÷-29,3) в модели прогнозирования ранних рецидивов.

Если сделать количественную переменную - величина максимального МТС и использовать ее и число МТС до операции, то логистическая модель с двумя такими предикторами будет статистически значима (Chi2( 2)=24,318 p=,00001) и оба коэффициента имеют значимую оценку. Для расчетной вероятности площадь ROC=0,78; для точки разделения >0,73 чувствительность составляет 70%, специфичность - 78%.
Чудес не бывает, чем больше размер МТС и их число, тем вероятнее рецидив. Можем посчитать и для конкретного больного, например ?25 максимальный размер МТС 2 см и их число 2, расчетная вероятность раннего рецидива составляет только 0,12, а для ?35 величина макс МТС 5 см и их число 5, вероятность рецидива 0,93.

Можно использовать и данные о времени наступления рецидива, для его оценки также по этим двум переменным ? число МТС и размер максимального.
По линейной модели для б-го ?25 ожидаемое время рецидива через 23,8 (20,5-27,1) мес. ( наблюдаемое время рецидива 24 мес), а для ?35 имеющего 5 мтс и макс размер 5 см время безрецидивного течения составит только 3,6 (1,4-5,8) мес. (наблюдаемое время рецидива 3 мес).

Влияние этих двух показателей на время без рецидивного течения можно показать и кокс регрессионной моделью. Для макс размера HR=2,0 (p=0,000000), для кол-ва МТС HR=1,32 (p=0,0016. Кривая К-М для средних ковариат, выглядит, как на рис., который позволяет визуально оценить вероятность без рецидивного течения. Подставив значения двух ковариат, можно получить кривые К-М для каждого больного.

И, наконец, можно представить доказательства первоначальной клинический идеи, если использовать для анализа время без рецидивного течения и проанализировать его при определенных условиях, а их два для двух переменных, т.е. 4 группы сравнения. 00 ? число МТС 2 или 3 и размер максимального МТС 2 или 3 см. Тогда, см. рисунок, для таких больных статистически значимо больше длительность безрецидивного течения, чем у больных с нарушением этих условий в сторону увеличения указанных границ по любому из двух признаков.

Сообщение отредактировал DrgLena - 15.11.2011 - 00:39
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mamalita
сообщение 16.11.2011 - 08:44
Сообщение #20





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366




Поскольку дискуссия с автором поста пока не получается и, даже диалога с p2004r нет, а данные выложены, можно предложить и другое решение задачи.

Приношу свои извинения за неучастие в дискуссии, т.к. пыталась разобраться с ответом р2004r. Сразу скажу не получилось. Преобразованные данные размеров по-моему все равно не могут участвовать в логит-регрссии.

В анализе могут участвовать две переменные ? число МТС и величина максимального МТС, это моя клиническая гипотеза, что прежде всего величина максимального МТС будет играть роль, по аналогии с тем, что опухоли с большей проминенцией имеют худшие прогнозы.

Гипотеза 1 автора поста о влиянии числа МТС статистически не подтвердилась, если она относилась именно к числу МТС 2-3, как высказывал автор поста, а в качестве отклика брать число ранних рецидивов. Для рецидива до года для числа МТС более трех OR=1,8 (95% ДИ 0,7 ? 4,6). Даже если брать только 2 рецидива, против >2-х то тоже не будет статистически значимой сопряженности с ранними рецидивами. И в логистической регрессии, если использовать количество МТС как единственную количественную переменную, то коэффициент будет не значим.

На мой взгляд гипотеза не подтверждается потому что должно быть именно сочетание 2-3 очага размером 2-3см. Мне Ваша мысль понятна, особенно заманчив вариант с 4 группами сравнения, но наличие МТС числом 5 по 1 см тоже является группой риска, 3 метастаза размеры которых 1;1;3 тоже будет входить в группу риска. Вот в чем у меня проблема. Но сделать 1 группу нам наиболее подходящих 2-3 очага размером 2-3 см и 2 группа - все остальные будет несколько вызывающе (или нет).

А вторая гипотеза о влиянии размера МТС верна, но она должна быть сформулирована иначе. Тут можно сделать такой вывод, если размер одного из МТС 3 и более см , то это является фактором риска раннего рецидива (до года). OR=8,4 (95% ДИ 2,5- 27,6). И судя по представленным данным это вполне доказанный факт. В логистической регрессии в двумя переменными, число МТС (>3-х) также не значимый фактор, OR=1,9 (0,7÷5,4), а размер любого МТМ >3 см значимый фактор OR=8,6 (2,5 ÷-29,3) в модели прогнозирования ранних рецидивов.

Если сделать количественную переменную - величина максимального МТС и использовать ее и число МТС до операции, то логистическая модель с двумя такими предикторами будет статистически значима (Chi2( 2)=24,318 p=,00001) и оба коэффициента имеют значимую оценку. Для расчетной вероятности площадь ROC=0,78; для точки разделения >0,73 чувствительность составляет 70%, специфичность - 78%.
Чудес не бывает, чем больше размер МТС и их число, тем вероятнее рецидив. Можем посчитать и для конкретного больного, например ?25 максимальный размер МТС 2 см и их число 2, расчетная вероятность раннего рецидива составляет только 0,12, а для ?35 величина макс МТС 5 см и их число 5, вероятность рецидива 0,93.

Можно использовать и данные о времени наступления рецидива, для его оценки также по этим двум переменным ? число МТС и размер максимального.
По линейной модели для б-го ?25 ожидаемое время рецидива через 23,8 (20,5-27,1) мес. ( наблюдаемое время рецидива 24 мес), а для ?35 имеющего 5 мтс и макс размер 5 см время безрецидивного течения составит только 3,6 (1,4-5,8) мес. (наблюдаемое время рецидива 3 мес).

Как это рассчитать? На основании кокс регрессионной модели. Если да то формула такая: h0(t)*exp(b1 z1+...+bm zm), тогда вопрос как найти h0. Спасибо.


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mamalita
сообщение 16.11.2011 - 08:58
Сообщение #21





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366




Спасибо за быстрый подробный ответ и помощь. Ноя как мартышка с очками не пойму как применить, как мартышка с очками. По выводам я поняла что чаще всего возникают мтс при крупных очагах, но по поводу новых переменных - их опять 5 штук, как их включать в логит регрессию?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 10:53
Сообщение #22





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Нет, вы поняли не правильно.

Хотя я много чего наворотила, начните вникать с простых вещей, которые вам понятны. OR можно руками посчитать, а кокс регрессию оставьте на закуску, хотя на форуме она уже обсуждалась и ответ на ваш вопрос есть.

Я использую для расчета времени наступления рецидива в линейной модели и в кокс регрессионной две переменные - размер максамального (нужно сделать эту переменную) и число МТС. Имея модель можно ответить на любой вопрос по сочетанию этих признаков, если конечно анализ модели вас устроит. Все результаты, которые я привожу получены по вашим данным. Поскольку у вас три переменных отклика, то и предлагаемые методы различны.

В рамках форума вы получаетет только направление, одно из них предлагал Игорь, логистическую регрессию, только в качествер размера я взяла максимальный для каждого больного, а количество МТСу вас есть. Я тоже не все поняла у р2004r, но какие то полезные вещи по работе с R я уже разобрала.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 11:24
Сообщение #23





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(mamalita @ 16.11.2011 - 07:58) *
Спасибо за быстрый подробный ответ и помощь. Ноя как мартышка с очками не пойму как применить, как мартышка с очками.


Эпиграф: " -- Доктор меня все игнорируют. -- Следующий!"



мда smile.gif для того что бы понять надо задавать содержательные вопросы, хотя бы --- "ткнем пальцем сюда, что это?" Для удобства я специально разбил весь ответ на мелкие части, давайте идти от части к части. Я постараюсь отвечать на вопросы.

PS Дело в том что мне например так и не понятно правильно ли Вами агрегирована переменная "до года". Или там ошибка, или смысл переменной не тот о котором я смог догадаться.

PPS Переменная "срок" однозначно зависит только от маленьких и больших мтс (на это намекает даже плотность распределения размеров мтс). Зависимость явно количественная (могу соответствующий бублеплот предъявить).

Маленькие мтс это от 0.5 -- 1

Большие мтс это (после проведенного выше анализа пробного разбиения) 3.5 -- 5

В терминах вероятность логистическая регрессия может ответить о любом граничном сроке достижим он или нет при данном сочетании "число маленьких --- число больших". Ну и как влияет сочетание большие -- маленькие мтс в целом.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 13:29
Сообщение #24





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(p2004r @ 16.11.2011 - 12:24) *
PPS Переменная "срок" однозначно зависит только от маленьких и больших мтс (на это намекает даже плотность распределения размеров мтс). Зависимость явно количественная (могу соответствующий бублеплот предъявить).

Маленькие мтс это от 0.5 -- 1

Ну нет больных с такими размерами МТС, они у вас существуют только в воображении, вернее в теоретическом распределении, а потому не могут влиять на срок наступления МТС. Есть один больной с макс размером 1,5, что по вашей группировке не является маленьким МТС. У всех остальных МТС 2 и более.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 13:37
Сообщение #25





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(p2004r @ 16.11.2011 - 11:24) *
PS Дело в том что мне например так и не понятно правильно ли Вами агрегирована переменная "до года". Или там ошибка, или смысл переменной не тот о котором я смог догадаться.

Смысл переменной вы, действительно, не поняли. Есть время наступления новых МТС после вмешательства, срок в месяцах, и если этот срок до года,то в бинарной переменной стоит соответствующая метка "1". Так, что ошибки нет, у б-го МТС через 3 мес, а потому "1"
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 14:04
Сообщение #26





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 12:29) *
Ну нет больных с такими размерами МТС, они у вас существуют только в воображении, вернее в теоретическом распределении, а потому не могут влиять на срок наступления МТС. Есть один больной с макс размером 1,5, что по вашей группировке не является маленьким МТС. У всех остальных МТС 2 и более.


что значит "нет размера"?!

в таблице данных есть список показателей мтс1 мтс2 мтс3 мтс4 мтс5 мтс6

Код
> head(data[,4:9])
  мтс1 мтс2 мтс3 мтс4 мтс5 мтс6
1  1.0  1.0    1    1    4    0
2  0.5  0.5    1    1    4    0
3  1.0  1.0    5    0    0    0
4  1.0  5.0    0    0    0    0
5  1.0  5.0    0    0    0    0
6  1.0  1.0    2    5    0    0


Как я понимаю в них лежат размеры отдельных мтс каждого рассматриваемого случая, размеры колеблются от 0.5 до 5. "0" почему то выбран как признак отсутствия.

Я что то не так понял?

Топикстартер жалуется на проблему "как засунуть в регрессию переменное число показателей". По моему мнению мой способ работает.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 14:12
Сообщение #27





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Больной, имеющий 0,5 имеет и 4 (вторая строчка)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 14:14
Сообщение #28





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 12:37) *
Смысл переменной вы, действительно, не поняли. Есть время наступления новых МТС после вмешательства, срок в месяцах, и если этот срок до года,то в бинарной переменной стоит соответствующая метка "1". Так, что ошибки нет, у б-го МТС через 3 мес, а потому "1"


у 6го _уровня_

группируя обе переменных "срок" и "рецидив.до.года" мы видим что "срок" имеет уровни 1 3 6 9 12 15 18 21 24 27 30 36

а "рецидив.до.года" только 0 и 1

но на уровне 6 переменной "срок" мы видим один случай с уровнем 0 переменной "рецидив.до.года"

мне кажется это странным.

Сообщение отредактировал p2004r - 16.11.2011 - 14:21


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 14:20
Сообщение #29





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 13:12) *
Больной, имеющий 0,5 имеет и 4 (вторая строчка)


да, конечно. Этот список переменных "мтс" (а именно "0.5 0.5 1 1 4 0") у него заменен на "4 0 0 1 0" соответствующим интервалам группировки 0.5-1, 1-2, 2-3, 3-4, 4-5.

именно это та трансформация данных которая позволяет перейти к фиксированному числу переменных.

Сообщение отредактировал p2004r - 16.11.2011 - 17:54


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mamalita
сообщение 16.11.2011 - 18:06
Сообщение #30





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366



Цитата(p2004r @ 16.11.2011 - 15:20) *
да, конечно. Этот список переменных "мтс" (а именно "0.5 0.5 1 1 4 0") у него заменен на "4 0 0 1 0" соответствующим интервалам группировки 0.5-1, 1-2, 2-3, 3-4, 4-5.

именно это та трансформация данных которая позволяет перейти к фиксированному числу переменных.

- Как позволяет? Я бы задала конкретные вопросы, но мне нужно время, чтобы вникнуть и сформулировать их, а пока я смутно представляю как новые данные отражают мои данные. Хотя интуитивно чувствую что это наиболее правильный подход. По поводу переменных исходов: - все правильно: рецидив(есть нет) и срок рецидива(в месяцах), просто 6 строка попали цензуированные данные, рецидива не было а пациент выпал из виду, поэтому в столбце рецидивы до года на 6 месяцах 0. Честно говоря, я думала делать так: включать все размеры метастазов в предикторы, просто там где их нет (т.е. 3 метастаза а логит регрессия на 6 переменных) будет 0 и если потом считать для каждого конкретного случая подставлять в формулу 0 и определять вероятность того или иного исхода. Но это видимо совсем не правильно.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V  < 1 2 3 4 >
Добавить ответ в эту темуОткрыть тему