Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Логистическая регрессия?
mamalita
сообщение 9.11.2011 - 11:07
Сообщение #1





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366



Добрый день! Прошу помощи в анализе данных. Мы имеем 100 человека больных с метастазами в печени, лечили их хирургическим путем и наблюдали их в течение 6 лет и диагностировали у них новые метастазы и рецидивы. Суть работы заключается в том, чтобы доказать, что реже всего на 1 и 2 годах наблюдения новые МТС возникают у пациентов с количеством МТС 2-3 (у нас были варианты количества от 2-6), и размер их должен быть 2-3 см. То есть кривая частоты прогресии имеет форму колокола обращенного вершиной вниз - 1 см - часто возникает прогрессия, больше 3 - тоже. Наиболее оптимальным является размер очага для хирургического лечения 2-3 см. Вопрос как представить эти данные и их анализировать: средний и суммарный размер не учитывают разницы: то ли у больного было 3 очага по 2 см то ли 1 и 6 см что совсем не благоприятно. Если брать каждый метастаз как отдельную переменную то у разных людей будет разное количество переменных (от 2 до 6штук), но этот вариант наиболее приемлем в соответствии с поставленной задачей. Теперь вопрос каким методом воспользоваться, чтобы доказать что идеальным для лечения является количество МТС 2-3 при размере 2-3см. Еще момент : размер МТС имеет мини манимальное округление до 0, 5 разброс от 1 до 6 см (т.е. всего 12 значений). Может быть их можно как-то объединить и логически видоизменить? Я уже просто голову сломала. Очень нужен свежий взгляд. Спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
4 страниц V  < 1 2 3 4 >  
Открыть тему
Ответов (30 - 44)
p2004r
сообщение 16.11.2011 - 18:34
Сообщение #31





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



да правильно, просто включать нельзя по тому что порядок перечисления "мтс?" случаен и никакой (ко)вариации при такой записи в данных не сохраняется...

я подписался на данную тему по емайл, поэтому думайте, я не пропущу Ваш вопрос

PS Про выпавшего пациента понятно. Жалко что я сам не догадался frown.gif. Всё же лучше в таких случаях ставить NA (или другое обозначение пропущенного - отсутствующего значения).

Сообщение отредактировал p2004r - 16.11.2011 - 18:39


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 19:22
Сообщение #32





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(p2004r @ 16.11.2011 - 15:04) *
Топикстартер жалуется на проблему "как засунуть в регрессию переменное число показателей". По моему мнению мой способ работает.

Важно ведь не как засунуть, а что будет на выходе.
Покажите, пожалуйста как работает ваш способ, например, на тех же больных, которых привела я под номером 25 и 35. Покажите, 1) чему равна вероятность рецидива до года, 2) приведите рассчетное время рецидивирования в мес. А потом перейдем к кокс регрессии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 20:08
Сообщение #33





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 18:22) *
Важно ведь не как засунуть, а что будет на выходе.
Покажите, пожалуйста как работает ваш способ, например, на тех же больных, которых привела я под номером 25 и 35. Покажите, 1) чему равна вероятность рецидива до года, 2) приведите рассчетное время рецидивирования в мес. А потом перейдем к кокс регрессии.


Сначала хотелось бы заметить что точность подгонки модели для данных участвовавших в оной крайне подозрительный показатель. Модель выбрана мной по критерию AIC а не минимуму вариации не объясняемой моделью. Только такая модель имеет прогностическую силу.

Как Вы наверное заметили у меня посчитана модель варианта 1

для первоначального разбиения на интервалы группировки результат вот такой

Код
> data.frame(predict(model, type="response"),data$рецидив.до.года)
   predict.model..type....response.. data.рецидив.до.года
1                          0.9753424                    1
2                          0.9753424                    1
3                          0.9471832                    1
4                          0.8419639                    1
5                          0.8419639                    1
6                          0.9471832                    1
7                          0.9471832                    1
8                          0.9753424                    1
9                          0.9215760                    1
10                         0.9753424                    1
11                         0.9837041                    1
12                         0.9837041                    1
13                         0.9471832                    1
14                         0.7773354                    1
15                         0.9753424                    1
16                         0.8419639                    1
17                         0.9471832                    1
18                         0.8419639                    1
19                         0.8419639                    1
20                         0.7773354                    1
21                         0.9215760                    1
22                         0.7773354                    1
23                         0.7773354                    1
24                         0.9837041                    0
25                         0.5091129                    1
26                         0.9753424                    1
27                         0.8419639                    1
28                         0.7773354                    1
29                         0.5091129                    1
30                         0.9837041                    1
31                         0.9215760                    1
32                         0.9837041                    1
33                         0.2355390                    1
34                         0.5091129                    1
35                         0.8419639                    1
36                         0.5091129                    1
37                         0.5091129                    1
38                         0.5091129                    1
39                         0.7773354                    1
40                         0.9837041                    1
41                         0.9753424                    1
42                         0.8419639                    1
43                         0.8419639                    1
44                         0.8419639                    1
45                         0.9471832                    1
46                         0.7773354                    1
47                         0.9471832                    1
48                         0.9471832                    1
49                         0.9471832                    1
50                         0.7773354                    1
51                         0.7773354                    1
52                         0.8419639                    1
53                         0.8419639                    1
54                         0.8419639                    1
55                         0.8419639                    1
56                         0.5091129                    1
57                         0.7773354                    1
58                         0.9471832                    1
59                         0.7773354                    1
60                         0.5091129                    1
61                         0.5091129                    1
62                         0.5091129                    1
63                         0.5091129                    1
64                         0.5091129                    1
65                         0.7773354                    1
66                         0.5091129                    1
67                         0.7773354                    1
68                         0.6128158                    0
69                         0.6128158                    0
70                         0.5091129                    0
71                         0.7773354                    0
72                         0.7773354                    0
73                         0.7773354                    0
74                         0.9215760                    0
75                         0.6128158                    0
76                         0.7773354                    0
77                         0.7773354                    0
78                         0.7773354                    0
79                         0.5091129                    0
80                         0.2355390                    0
81                         0.2355390                    0
82                         0.5091129                    0
83                         0.5091129                    0
84                         0.2355390                    0
85                         0.2355390                    0
86                         0.2355390                    0
87                         0.2355390                    0
88                         0.2355390                    0
89                         0.2355390                    0
90                         0.2355390                    0
91                         0.2355390                    0
92                         0.2355390                    0
93                         0.2355390                    0


PS вот как связана переменная "срок" с предсказанной вероятностью рецидива (присоединяю еще один рисунок)

Сообщение отредактировал p2004r - 16.11.2011 - 20:56
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 20:55
Сообщение #34





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, я тоже посчитала вероятности по вашим коэффициентам, тем, что я привожу ниже, и хочу сравнить по площади ROC вашу и свою модель, где я использовала число и размер макс МТС
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7664 1.1000 -0.697 0.485961
result1 1.2934 0.3929 3.292 0.000994 ***
result2 -0.4517 0.3396 -1.330 0.183483
result3 0.2313 0.4565 0.507 0.612424
result4 0.1051 0.8383 0.125 0.900231
result5 1.4076 0.8880 1.585 0.112934

Не могу перевести в табличную форму приведенные вами вероятности.

Сообщение отредактировал DrgLena - 16.11.2011 - 20:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 21:07
Сообщение #35





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 19:55) *
Спасибо, я тоже посчитала вероятности по вашим коэффициентам, тем, что я привожу ниже, и хочу сравнить по площади ROC вашу и свою модель, где я использовала число и размер макс МТС
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7664 1.1000 -0.697 0.485961
result1 1.2934 0.3929 3.292 0.000994 ***
result2 -0.4517 0.3396 -1.330 0.183483
result3 0.2313 0.4565 0.507 0.612424
result4 0.1051 0.8383 0.125 0.900231
result5 1.4076 0.8880 1.585 0.112934


если удалить result[2-4] то result5 скорее всего станет достоверным, последующее добавление result2 значимо модель не улучшает, да и AIC минимален на модели из result1 и result2.

PS а параметр максимальный размер, хороший показатель и он явно добавляет информации в мою модель

PPS как вариант я скорее всего смогу учесть максимальный размер перейдя с расчета hist() на density()

PPPS Присоединяю файл с вероятностями

Сообщение отредактировал p2004r - 16.11.2011 - 21:11
Прикрепленные файлы
Прикрепленный файл  predict.csv.gz ( 348 байт ) Кол-во скачиваний: 661
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 21:19
Сообщение #36





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 19:55) *
Не могу перевести в табличную форму приведенные вами вероятности.


Вот файл.
Прикрепленные файлы
Прикрепленный файл  predict.csv.gz ( 348 байт ) Кол-во скачиваний: 647
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 21:40
Сообщение #37





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, я уже перевела и скопировала ваши вероятности. Для посчитанных мною по вашим коэффициентам, приведенным выше, значение площади ROC максимально=0,85, по приведенным вами вероятностям, чуть ниже 0,83. А по моей модели учитывающей только число и макс размер 0,79. Статистически площади на различаются. Т.о. вы своим подходом используете несколько больше информации заложенной в данных. Вот только как получить используемую вами трансформацию данных, хотелось бы посмотреть ссылки на литературу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.11.2011 - 21:53
Сообщение #38





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 16.11.2011 - 20:40) *
Спасибо, я уже перевела и скопировала ваши вероятности. Для посчитанных мною по вашим коэффициентам, приведенным выше, значение площади ROC максимально=0,85, по приведенным вами вероятностям, чуть ниже 0,83. А по моей модели учитывающей только число и макс размер 0,79. Статистически площади на различаются. Т.о. вы своим подходом используете несколько больше информации заложенной в данных. Вот только как получить используемую вами трансформацию данных, хотелось бы посмотреть ссылки на литературу.


Это фактически просто гистограмма, я даже как то затрудняюсь так сразу вспомнить кто первый предложил интервальный вариационный ряд (наверное это больше исторический вопрос smile.gif.

Применить интервальный вариационный ряд для каждого из многомерных случаев в выборке с целью избавится от переменного числа дескрипторов придумал лично, никуда не заглядывая. (параллельно правда думал над конкурсом яндекса, там похожая проблема всплывает).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 16.11.2011 - 22:41
Сообщение #39





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Спасибо, р2004r, я поняла, для меня это новая мысль, есть стимул продолжить продвигаться в R !!!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 17.11.2011 - 19:46
Сообщение #40





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.11.2011 - 20:45
Сообщение #41





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 17.11.2011 - 18:46) *
Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования.


Трактуется только оптимальная модель. В её составе интерцепт, число самых малых и число самых больших.

В целом влияние число опухолей различных размеров интерпретировать можно на вот таком бублеплоте.

вот его основа, пространство принципиальных компонент без извлечения средних и шкалирования. фактически те же данные только повернута система координат.
Код
> result.pca<-prcomp(result, scale.=FALSE, center=FALSE)
> plot(result.pca)
> biplot(result.pca)
> biplot(result.pca, choices=3:2)


крутить 3д график в форуме неудобно ограничимся серией бублеплотов (для сокращения размеров кода объявим функцию)

размер кружков это "срок", их заливка признак нулевого числа в интервале группировки номер которого написан в заглавии картинки

Код
> plot.res.n <- function (res.n) {
+   plot(result.pca$x[,3],
+        result.pca$x[,2],
+        bg=c("grey50","white")[as.factor(result[,res.n]==0)],
+        pch=21,
+        cex=seq(1,3, length.out=12)[as.factor(data$срок)], main=res.n)}
> plot.res.n(1)
> plot.res.n(2)
> plot.res.n(3)
> plot.res.n(4)
> plot.res.n(5)


с градиентом размеров кружком совпадают 1,5 и 4й интервал группировки размеров опухоли. Причем 5 работает и в направлении суммарного размера опухоли (первая компонента судя по всему его пытается восстановить).

2й интервал группировки работает против градиента "срок". 3й я бы сказал ортогонален градиенту "срок".

Как то так.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение


Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение


Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.11.2011 - 20:52
Сообщение #42





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 17.11.2011 - 18:46) *
Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования.


собственно вот это неплохо иллюстрирует "отрицательность"

Код
> mosaicplot(table(result[,2],data$срок))
> mosaicplot(table(result[,1],data$срок))


Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.11.2011 - 21:38
Сообщение #43





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 17.11.2011 - 18:46) *
Должна же быть клиническая логика любого моделирования.


1. Я бы не переносил так просто коэффициенты модели на причинно следственные связи.

2. Мы наблюдаем агрегированные данные. На самом деле все эти мтс возникали не одновременно. Я бы предположил что есть различные варианты (или/и стадии) развития процесса.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.11.2011 - 00:58
Сообщение #44





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, но ведь анализ данных для того и делается, чтобы в данном случае ответить на очень важный вопрос, при каких исходных данный оправдано оперативное лечение МТС, а когда оно приносит только лишние страдания больному. Очевидно год без рецидивного течения для таких больных ? это успешный исход. Что есть у врача ? число и размеры. В вашей модели величина МТС в 1 и 1,5 см находятся в разных категориях и имеют противоположное влияние на исход, хотя точность измерения и округления не могут провести тут точную границу. Ни один клиницист с этим не согласится. Для данного примера результат работы с агрегированными данными, на мой взгляд, не привел к ответу на вопрос о влиянии числа и размера, но продемонстрирована техника исполнения.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 18.11.2011 - 10:53
Сообщение #45





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(DrgLena @ 18.11.2011 - 00:58) *
Да, но ведь анализ данных для того и делается, чтобы в данном случае ответить на очень важный вопрос, при каких исходных данный оправдано оперативное лечение МТС, а когда оно приносит только лишние страдания больному. Очевидно год без рецидивного течения для таких больных ? это успешный исход. Что есть у врача ? число и размеры. В вашей модели величина МТС в 1 и 1,5 см находятся в разных категориях и имеют противоположное влияние на исход, хотя точность измерения и округления не могут провести тут точную границу. Ни один клиницист с этим не согласится. Для данного примера результат работы с агрегированными данными, на мой взгляд, не привел к ответу на вопрос о влиянии числа и размера, но продемонстрирована техника исполнения.



1. я напомню об одной фразе из своих сообщений "Допустим что мы выбрали группировку 0.5-1, 1-2, 2-3, 3-4, 4-5".

2. кроме того я _настойчиво_ (не менее трех раз smile.gif ) упоминаю об использовании вместо hist() функции density(,n = ...) которая возвращает

Код
x: the ?n? coordinates of the points where the density is
          estimated.

       y: the estimated density values.  These will be non-negative,
          but can be zero.

      bw: the bandwidth used.

       n: the sample size after elimination of missing values.


собственно использовать y*n по x мне видится предпочтительной техникой агрегации данных для выбора интервалов группировки.

Делать полное исследование? smile.gif Все же думаю надо дождаться Автора эксперимента :-|


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V  < 1 2 3 4 >
Добавить ответ в эту темуОткрыть тему