Логистическая регрессия? |
Здравствуйте, гость ( Вход | Регистрация )
Логистическая регрессия? |
13.11.2011 - 17:04
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Посмотрим что увидела оптимальная модель Код mosaicplot(table(result[,1],data$рецидив.до.года, result[,5])) вертикальная ось показывает разбиение по признаку "рецидив до года" горизонтальная ось показывает разбиение по числу мелких мтс внутри каждое сочетание разбито по числу крупных мтс суть модели более чем визуализирована |
|
13.11.2011 - 18:05
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Поскольку у крупных опухолей всего два уровня (есть-нет) построим графическое представление лучшей модели прямо на графике (число малых опухолей vs рецидив)
сначала склеим таблицу данных с нормальными именами (что то predict.glm() обиделась на имена со спецсимволами) Код model.data<-data.frame("i1"=result[,1],"i5"=result[,5],"рецидив.до.года"=data$рецидив.до.года) model <- glm(рецидив.до.года~ i1+i5, data=model,data, family=binomial) нанесем на график линии предсказания модели Код plot(model.data$i1, model.data$рецидив.до.года) lines(seq(0,5, length.out=40), predict(model,data.frame(i1=seq(0,5, length.out=40), i5=1), type="response")) lines(seq(0,5, length.out=40), predict(model,data.frame(i1=seq(0,5, length.out=40), i5=0), type="response"), col="red") PS ну и наоборот построим тоже Код > plot(model.data$i5,model.data$рецидив.до.года) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=0),type="response")) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=1),type="response")) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=2),type="response")) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=3),type="response")) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=4),type="response")) > lines(seq(0,1, length.out=40), predict(model,data.frame(i5=seq(0,1, length.out=40), i1=5),type="response")) тут очевидно чем больше тем хуже на формулировку http://forum.disser.ru/index.php?showtopic...ost&p=12211 ответ получен? наверное можно пройти границами (в разумных пределах) по "сроку" и получить такие модели для других сроков? Сообщение отредактировал p2004r - 6.12.2011 - 14:39 |
|
13.11.2011 - 18:27
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
нет ли опечатки?
Код > table(data$срок, data$рецидив.до.года) 0 1 1 0 3 3 0 12 6 1 17 9 0 18 12 0 16 15 7 0 18 5 0 21 4 0 24 4 0 27 2 0 30 3 0 36 1 0 что то 6й уровень подозрительный? Сообщение отредактировал p2004r - 13.11.2011 - 18:28 |
|
15.11.2011 - 00:37
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Поскольку дискуссия с автором поста пока не получается и, даже диалога с p2004r нет, а данные выложены, можно предложить и другое решение задачи.
В анализе могут участвовать две переменные ? число МТС и величина максимального МТС, это моя клиническая гипотеза, что прежде всего величина максимального МТС будет играть роль, по аналогии с тем, что опухоли с большей проминенцией имеют худшие прогнозы. Гипотеза 1 автора поста о влиянии числа МТС статистически не подтвердилась, если она относилась именно к числу МТС 2-3, как высказывал автор поста, а в качестве отклика брать число ранних рецидивов. Для рецидива до года для числа МТС более трех OR=1,8 (95% ДИ 0,7 ? 4,6). Даже если брать только 2 рецидива, против >2-х то тоже не будет статистически значимой сопряженности с ранними рецидивами. И в логистической регрессии, если использовать количество МТС как единственную количественную переменную, то коэффициент будет не значим. А вторая гипотеза о влиянии размера МТС верна, но она должна быть сформулирована иначе. Тут можно сделать такой вывод, если размер одного из МТС 3 и более см , то это является фактором риска раннего рецидива (до года). OR=8,4 (95% ДИ 2,5- 27,6). И судя по представленным данным это вполне доказанный факт. В логистической регрессии в двумя переменными, число МТС (>3-х) также не значимый фактор, OR=1,9 (0,7÷5,4), а размер любого МТМ >3 см значимый фактор OR=8,6 (2,5 ÷-29,3) в модели прогнозирования ранних рецидивов. Если сделать количественную переменную - величина максимального МТС и использовать ее и число МТС до операции, то логистическая модель с двумя такими предикторами будет статистически значима (Chi2( 2)=24,318 p=,00001) и оба коэффициента имеют значимую оценку. Для расчетной вероятности площадь ROC=0,78; для точки разделения >0,73 чувствительность составляет 70%, специфичность - 78%. Чудес не бывает, чем больше размер МТС и их число, тем вероятнее рецидив. Можем посчитать и для конкретного больного, например ?25 максимальный размер МТС 2 см и их число 2, расчетная вероятность раннего рецидива составляет только 0,12, а для ?35 величина макс МТС 5 см и их число 5, вероятность рецидива 0,93. Можно использовать и данные о времени наступления рецидива, для его оценки также по этим двум переменным ? число МТС и размер максимального. По линейной модели для б-го ?25 ожидаемое время рецидива через 23,8 (20,5-27,1) мес. ( наблюдаемое время рецидива 24 мес), а для ?35 имеющего 5 мтс и макс размер 5 см время безрецидивного течения составит только 3,6 (1,4-5,8) мес. (наблюдаемое время рецидива 3 мес). Влияние этих двух показателей на время без рецидивного течения можно показать и кокс регрессионной моделью. Для макс размера HR=2,0 (p=0,000000), для кол-ва МТС HR=1,32 (p=0,0016. Кривая К-М для средних ковариат, выглядит, как на рис., который позволяет визуально оценить вероятность без рецидивного течения. Подставив значения двух ковариат, можно получить кривые К-М для каждого больного. И, наконец, можно представить доказательства первоначальной клинический идеи, если использовать для анализа время без рецидивного течения и проанализировать его при определенных условиях, а их два для двух переменных, т.е. 4 группы сравнения. 00 ? число МТС 2 или 3 и размер максимального МТС 2 или 3 см. Тогда, см. рисунок, для таких больных статистически значимо больше длительность безрецидивного течения, чем у больных с нарушением этих условий в сторону увеличения указанных границ по любому из двух признаков. Сообщение отредактировал DrgLena - 15.11.2011 - 00:39 |
|
16.11.2011 - 08:44
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 7.04.2010 Пользователь №: 15366 |
Поскольку дискуссия с автором поста пока не получается и, даже диалога с p2004r нет, а данные выложены, можно предложить и другое решение задачи. Приношу свои извинения за неучастие в дискуссии, т.к. пыталась разобраться с ответом р2004r. Сразу скажу не получилось. Преобразованные данные размеров по-моему все равно не могут участвовать в логит-регрссии. В анализе могут участвовать две переменные ? число МТС и величина максимального МТС, это моя клиническая гипотеза, что прежде всего величина максимального МТС будет играть роль, по аналогии с тем, что опухоли с большей проминенцией имеют худшие прогнозы. Гипотеза 1 автора поста о влиянии числа МТС статистически не подтвердилась, если она относилась именно к числу МТС 2-3, как высказывал автор поста, а в качестве отклика брать число ранних рецидивов. Для рецидива до года для числа МТС более трех OR=1,8 (95% ДИ 0,7 ? 4,6). Даже если брать только 2 рецидива, против >2-х то тоже не будет статистически значимой сопряженности с ранними рецидивами. И в логистической регрессии, если использовать количество МТС как единственную количественную переменную, то коэффициент будет не значим. На мой взгляд гипотеза не подтверждается потому что должно быть именно сочетание 2-3 очага размером 2-3см. Мне Ваша мысль понятна, особенно заманчив вариант с 4 группами сравнения, но наличие МТС числом 5 по 1 см тоже является группой риска, 3 метастаза размеры которых 1;1;3 тоже будет входить в группу риска. Вот в чем у меня проблема. Но сделать 1 группу нам наиболее подходящих 2-3 очага размером 2-3 см и 2 группа - все остальные будет несколько вызывающе (или нет). А вторая гипотеза о влиянии размера МТС верна, но она должна быть сформулирована иначе. Тут можно сделать такой вывод, если размер одного из МТС 3 и более см , то это является фактором риска раннего рецидива (до года). OR=8,4 (95% ДИ 2,5- 27,6). И судя по представленным данным это вполне доказанный факт. В логистической регрессии в двумя переменными, число МТС (>3-х) также не значимый фактор, OR=1,9 (0,7÷5,4), а размер любого МТМ >3 см значимый фактор OR=8,6 (2,5 ÷-29,3) в модели прогнозирования ранних рецидивов. Если сделать количественную переменную - величина максимального МТС и использовать ее и число МТС до операции, то логистическая модель с двумя такими предикторами будет статистически значима (Chi2( 2)=24,318 p=,00001) и оба коэффициента имеют значимую оценку. Для расчетной вероятности площадь ROC=0,78; для точки разделения >0,73 чувствительность составляет 70%, специфичность - 78%. Чудес не бывает, чем больше размер МТС и их число, тем вероятнее рецидив. Можем посчитать и для конкретного больного, например ?25 максимальный размер МТС 2 см и их число 2, расчетная вероятность раннего рецидива составляет только 0,12, а для ?35 величина макс МТС 5 см и их число 5, вероятность рецидива 0,93. Можно использовать и данные о времени наступления рецидива, для его оценки также по этим двум переменным ? число МТС и размер максимального. По линейной модели для б-го ?25 ожидаемое время рецидива через 23,8 (20,5-27,1) мес. ( наблюдаемое время рецидива 24 мес), а для ?35 имеющего 5 мтс и макс размер 5 см время безрецидивного течения составит только 3,6 (1,4-5,8) мес. (наблюдаемое время рецидива 3 мес). Как это рассчитать? На основании кокс регрессионной модели. Если да то формула такая: h0(t)*exp(b1 z1+...+bm zm), тогда вопрос как найти h0. Спасибо. |
|
16.11.2011 - 08:58
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 7.04.2010 Пользователь №: 15366 |
Спасибо за быстрый подробный ответ и помощь. Ноя как мартышка с очками не пойму как применить, как мартышка с очками. По выводам я поняла что чаще всего возникают мтс при крупных очагах, но по поводу новых переменных - их опять 5 штук, как их включать в логит регрессию? |
|
16.11.2011 - 10:53
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Нет, вы поняли не правильно.
Хотя я много чего наворотила, начните вникать с простых вещей, которые вам понятны. OR можно руками посчитать, а кокс регрессию оставьте на закуску, хотя на форуме она уже обсуждалась и ответ на ваш вопрос есть. Я использую для расчета времени наступления рецидива в линейной модели и в кокс регрессионной две переменные - размер максамального (нужно сделать эту переменную) и число МТС. Имея модель можно ответить на любой вопрос по сочетанию этих признаков, если конечно анализ модели вас устроит. Все результаты, которые я привожу получены по вашим данным. Поскольку у вас три переменных отклика, то и предлагаемые методы различны. В рамках форума вы получаетет только направление, одно из них предлагал Игорь, логистическую регрессию, только в качествер размера я взяла максимальный для каждого больного, а количество МТСу вас есть. Я тоже не все поняла у р2004r, но какие то полезные вещи по работе с R я уже разобрала. |
|
16.11.2011 - 11:24
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо за быстрый подробный ответ и помощь. Ноя как мартышка с очками не пойму как применить, как мартышка с очками. Эпиграф: " -- Доктор меня все игнорируют. -- Следующий!" мда для того что бы понять надо задавать содержательные вопросы, хотя бы --- "ткнем пальцем сюда, что это?" Для удобства я специально разбил весь ответ на мелкие части, давайте идти от части к части. Я постараюсь отвечать на вопросы. PS Дело в том что мне например так и не понятно правильно ли Вами агрегирована переменная "до года". Или там ошибка, или смысл переменной не тот о котором я смог догадаться. PPS Переменная "срок" однозначно зависит только от маленьких и больших мтс (на это намекает даже плотность распределения размеров мтс). Зависимость явно количественная (могу соответствующий бублеплот предъявить). Маленькие мтс это от 0.5 -- 1 Большие мтс это (после проведенного выше анализа пробного разбиения) 3.5 -- 5 В терминах вероятность логистическая регрессия может ответить о любом граничном сроке достижим он или нет при данном сочетании "число маленьких --- число больших". Ну и как влияет сочетание большие -- маленькие мтс в целом. |
|
16.11.2011 - 13:29
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
PPS Переменная "срок" однозначно зависит только от маленьких и больших мтс (на это намекает даже плотность распределения размеров мтс). Зависимость явно количественная (могу соответствующий бублеплот предъявить). Маленькие мтс это от 0.5 -- 1 Ну нет больных с такими размерами МТС, они у вас существуют только в воображении, вернее в теоретическом распределении, а потому не могут влиять на срок наступления МТС. Есть один больной с макс размером 1,5, что по вашей группировке не является маленьким МТС. У всех остальных МТС 2 и более. |
|
16.11.2011 - 13:37
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
PS Дело в том что мне например так и не понятно правильно ли Вами агрегирована переменная "до года". Или там ошибка, или смысл переменной не тот о котором я смог догадаться. Смысл переменной вы, действительно, не поняли. Есть время наступления новых МТС после вмешательства, срок в месяцах, и если этот срок до года,то в бинарной переменной стоит соответствующая метка "1". Так, что ошибки нет, у б-го МТС через 3 мес, а потому "1" |
|
16.11.2011 - 14:04
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Ну нет больных с такими размерами МТС, они у вас существуют только в воображении, вернее в теоретическом распределении, а потому не могут влиять на срок наступления МТС. Есть один больной с макс размером 1,5, что по вашей группировке не является маленьким МТС. У всех остальных МТС 2 и более. что значит "нет размера"?! в таблице данных есть список показателей мтс1 мтс2 мтс3 мтс4 мтс5 мтс6 Код > head(data[,4:9]) мтс1 мтс2 мтс3 мтс4 мтс5 мтс6 1 1.0 1.0 1 1 4 0 2 0.5 0.5 1 1 4 0 3 1.0 1.0 5 0 0 0 4 1.0 5.0 0 0 0 0 5 1.0 5.0 0 0 0 0 6 1.0 1.0 2 5 0 0 Как я понимаю в них лежат размеры отдельных мтс каждого рассматриваемого случая, размеры колеблются от 0.5 до 5. "0" почему то выбран как признак отсутствия. Я что то не так понял? Топикстартер жалуется на проблему "как засунуть в регрессию переменное число показателей". По моему мнению мой способ работает. |
|
16.11.2011 - 14:12
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Больной, имеющий 0,5 имеет и 4 (вторая строчка)
|
|
16.11.2011 - 14:14
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Смысл переменной вы, действительно, не поняли. Есть время наступления новых МТС после вмешательства, срок в месяцах, и если этот срок до года,то в бинарной переменной стоит соответствующая метка "1". Так, что ошибки нет, у б-го МТС через 3 мес, а потому "1" у 6го _уровня_ группируя обе переменных "срок" и "рецидив.до.года" мы видим что "срок" имеет уровни 1 3 6 9 12 15 18 21 24 27 30 36 а "рецидив.до.года" только 0 и 1 но на уровне 6 переменной "срок" мы видим один случай с уровнем 0 переменной "рецидив.до.года" мне кажется это странным. Сообщение отредактировал p2004r - 16.11.2011 - 14:21 |
|
16.11.2011 - 14:20
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Больной, имеющий 0,5 имеет и 4 (вторая строчка) да, конечно. Этот список переменных "мтс" (а именно "0.5 0.5 1 1 4 0") у него заменен на "4 0 0 1 0" соответствующим интервалам группировки 0.5-1, 1-2, 2-3, 3-4, 4-5. именно это та трансформация данных которая позволяет перейти к фиксированному числу переменных. Сообщение отредактировал p2004r - 16.11.2011 - 17:54 |
|
16.11.2011 - 18:06
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 7.04.2010 Пользователь №: 15366 |
да, конечно. Этот список переменных "мтс" (а именно "0.5 0.5 1 1 4 0") у него заменен на "4 0 0 1 0" соответствующим интервалам группировки 0.5-1, 1-2, 2-3, 3-4, 4-5. именно это та трансформация данных которая позволяет перейти к фиксированному числу переменных. - Как позволяет? Я бы задала конкретные вопросы, но мне нужно время, чтобы вникнуть и сформулировать их, а пока я смутно представляю как новые данные отражают мои данные. Хотя интуитивно чувствую что это наиболее правильный подход. По поводу переменных исходов: - все правильно: рецидив(есть нет) и срок рецидива(в месяцах), просто 6 строка попали цензуированные данные, рецидива не было а пациент выпал из виду, поэтому в столбце рецидивы до года на 6 месяцах 0. Честно говоря, я думала делать так: включать все размеры метастазов в предикторы, просто там где их нет (т.е. 3 метастаза а логит регрессия на 6 переменных) будет 0 и если потом считать для каждого конкретного случая подставлять в формулу 0 и определять вероятность того или иного исхода. Но это видимо совсем не правильно. |
|