![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 7.04.2010 Пользователь №: 15366 ![]() |
Добрый день! Прошу помощи в анализе данных. Мы имеем 100 человека больных с метастазами в печени, лечили их хирургическим путем и наблюдали их в течение 6 лет и диагностировали у них новые метастазы и рецидивы. Суть работы заключается в том, чтобы доказать, что реже всего на 1 и 2 годах наблюдения новые МТС возникают у пациентов с количеством МТС 2-3 (у нас были варианты количества от 2-6), и размер их должен быть 2-3 см. То есть кривая частоты прогресии имеет форму колокола обращенного вершиной вниз - 1 см - часто возникает прогрессия, больше 3 - тоже. Наиболее оптимальным является размер очага для хирургического лечения 2-3 см. Вопрос как представить эти данные и их анализировать: средний и суммарный размер не учитывают разницы: то ли у больного было 3 очага по 2 см то ли 1 и 6 см что совсем не благоприятно. Если брать каждый метастаз как отдельную переменную то у разных людей будет разное количество переменных (от 2 до 6штук), но этот вариант наиболее приемлем в соответствии с поставленной задачей. Теперь вопрос каким методом воспользоваться, чтобы доказать что идеальным для лечения является количество МТС 2-3 при размере 2-3см. Еще момент : размер МТС имеет мини манимальное округление до 0, 5 разброс от 1 до 6 см (т.е. всего 12 значений). Может быть их можно как-то объединить и логически видоизменить? Я уже просто голову сломала. Очень нужен свежий взгляд. Спасибо
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#31
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
да правильно, просто включать нельзя по тому что порядок перечисления "мтс?" случаен и никакой (ко)вариации при такой записи в данных не сохраняется...
я подписался на данную тему по емайл, поэтому думайте, я не пропущу Ваш вопрос PS Про выпавшего пациента понятно. Жалко что я сам не догадался ![]() Сообщение отредактировал p2004r - 16.11.2011 - 18:39 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Топикстартер жалуется на проблему "как засунуть в регрессию переменное число показателей". По моему мнению мой способ работает. Важно ведь не как засунуть, а что будет на выходе. Покажите, пожалуйста как работает ваш способ, например, на тех же больных, которых привела я под номером 25 и 35. Покажите, 1) чему равна вероятность рецидива до года, 2) приведите рассчетное время рецидивирования в мес. А потом перейдем к кокс регрессии. |
|
![]() |
![]() |
![]()
Сообщение
#33
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Важно ведь не как засунуть, а что будет на выходе. Покажите, пожалуйста как работает ваш способ, например, на тех же больных, которых привела я под номером 25 и 35. Покажите, 1) чему равна вероятность рецидива до года, 2) приведите рассчетное время рецидивирования в мес. А потом перейдем к кокс регрессии. Сначала хотелось бы заметить что точность подгонки модели для данных участвовавших в оной крайне подозрительный показатель. Модель выбрана мной по критерию AIC а не минимуму вариации не объясняемой моделью. Только такая модель имеет прогностическую силу. Как Вы наверное заметили у меня посчитана модель варианта 1 для первоначального разбиения на интервалы группировки результат вот такой Код > data.frame(predict(model, type="response"),data$рецидив.до.года) predict.model..type....response.. data.рецидив.до.года 1 0.9753424 1 2 0.9753424 1 3 0.9471832 1 4 0.8419639 1 5 0.8419639 1 6 0.9471832 1 7 0.9471832 1 8 0.9753424 1 9 0.9215760 1 10 0.9753424 1 11 0.9837041 1 12 0.9837041 1 13 0.9471832 1 14 0.7773354 1 15 0.9753424 1 16 0.8419639 1 17 0.9471832 1 18 0.8419639 1 19 0.8419639 1 20 0.7773354 1 21 0.9215760 1 22 0.7773354 1 23 0.7773354 1 24 0.9837041 0 25 0.5091129 1 26 0.9753424 1 27 0.8419639 1 28 0.7773354 1 29 0.5091129 1 30 0.9837041 1 31 0.9215760 1 32 0.9837041 1 33 0.2355390 1 34 0.5091129 1 35 0.8419639 1 36 0.5091129 1 37 0.5091129 1 38 0.5091129 1 39 0.7773354 1 40 0.9837041 1 41 0.9753424 1 42 0.8419639 1 43 0.8419639 1 44 0.8419639 1 45 0.9471832 1 46 0.7773354 1 47 0.9471832 1 48 0.9471832 1 49 0.9471832 1 50 0.7773354 1 51 0.7773354 1 52 0.8419639 1 53 0.8419639 1 54 0.8419639 1 55 0.8419639 1 56 0.5091129 1 57 0.7773354 1 58 0.9471832 1 59 0.7773354 1 60 0.5091129 1 61 0.5091129 1 62 0.5091129 1 63 0.5091129 1 64 0.5091129 1 65 0.7773354 1 66 0.5091129 1 67 0.7773354 1 68 0.6128158 0 69 0.6128158 0 70 0.5091129 0 71 0.7773354 0 72 0.7773354 0 73 0.7773354 0 74 0.9215760 0 75 0.6128158 0 76 0.7773354 0 77 0.7773354 0 78 0.7773354 0 79 0.5091129 0 80 0.2355390 0 81 0.2355390 0 82 0.5091129 0 83 0.5091129 0 84 0.2355390 0 85 0.2355390 0 86 0.2355390 0 87 0.2355390 0 88 0.2355390 0 89 0.2355390 0 90 0.2355390 0 91 0.2355390 0 92 0.2355390 0 93 0.2355390 0 PS вот как связана переменная "срок" с предсказанной вероятностью рецидива (присоединяю еще один рисунок) Сообщение отредактировал p2004r - 16.11.2011 - 20:56 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Спасибо, я тоже посчитала вероятности по вашим коэффициентам, тем, что я привожу ниже, и хочу сравнить по площади ROC вашу и свою модель, где я использовала число и размер макс МТС
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.7664 1.1000 -0.697 0.485961 result1 1.2934 0.3929 3.292 0.000994 *** result2 -0.4517 0.3396 -1.330 0.183483 result3 0.2313 0.4565 0.507 0.612424 result4 0.1051 0.8383 0.125 0.900231 result5 1.4076 0.8880 1.585 0.112934 Не могу перевести в табличную форму приведенные вами вероятности. Сообщение отредактировал DrgLena - 16.11.2011 - 20:59 |
|
![]() |
![]() |
![]()
Сообщение
#35
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Спасибо, я тоже посчитала вероятности по вашим коэффициентам, тем, что я привожу ниже, и хочу сравнить по площади ROC вашу и свою модель, где я использовала число и размер макс МТС Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.7664 1.1000 -0.697 0.485961 result1 1.2934 0.3929 3.292 0.000994 *** result2 -0.4517 0.3396 -1.330 0.183483 result3 0.2313 0.4565 0.507 0.612424 result4 0.1051 0.8383 0.125 0.900231 result5 1.4076 0.8880 1.585 0.112934 если удалить result[2-4] то result5 скорее всего станет достоверным, последующее добавление result2 значимо модель не улучшает, да и AIC минимален на модели из result1 и result2. PS а параметр максимальный размер, хороший показатель и он явно добавляет информации в мою модель PPS как вариант я скорее всего смогу учесть максимальный размер перейдя с расчета hist() на density() PPPS Присоединяю файл с вероятностями Сообщение отредактировал p2004r - 16.11.2011 - 21:11
Прикрепленные файлы
![]() |
|
![]() |
![]() |
![]()
Сообщение
#36
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Не могу перевести в табличную форму приведенные вами вероятности. Вот файл.
Прикрепленные файлы
![]() |
|
![]() |
![]() |
![]()
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Спасибо, я уже перевела и скопировала ваши вероятности. Для посчитанных мною по вашим коэффициентам, приведенным выше, значение площади ROC максимально=0,85, по приведенным вами вероятностям, чуть ниже 0,83. А по моей модели учитывающей только число и макс размер 0,79. Статистически площади на различаются. Т.о. вы своим подходом используете несколько больше информации заложенной в данных. Вот только как получить используемую вами трансформацию данных, хотелось бы посмотреть ссылки на литературу.
|
|
![]() |
![]() |
![]()
Сообщение
#38
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Спасибо, я уже перевела и скопировала ваши вероятности. Для посчитанных мною по вашим коэффициентам, приведенным выше, значение площади ROC максимально=0,85, по приведенным вами вероятностям, чуть ниже 0,83. А по моей модели учитывающей только число и макс размер 0,79. Статистически площади на различаются. Т.о. вы своим подходом используете несколько больше информации заложенной в данных. Вот только как получить используемую вами трансформацию данных, хотелось бы посмотреть ссылки на литературу. Это фактически просто гистограмма, я даже как то затрудняюсь так сразу вспомнить кто первый предложил интервальный вариационный ряд (наверное это больше исторический вопрос ![]() Применить интервальный вариационный ряд для каждого из многомерных случаев в выборке с целью избавится от переменного числа дескрипторов придумал лично, никуда не заглядывая. (параллельно правда думал над конкурсом яндекса, там похожая проблема всплывает). ![]() |
|
![]() |
![]() |
![]()
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Спасибо, р2004r, я поняла, для меня это новая мысль, есть стимул продолжить продвигаться в R !!!
|
|
![]() |
![]() |
![]()
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования.
|
|
![]() |
![]() |
![]()
Сообщение
#41
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования. Трактуется только оптимальная модель. В её составе интерцепт, число самых малых и число самых больших. В целом влияние число опухолей различных размеров интерпретировать можно на вот таком бублеплоте. вот его основа, пространство принципиальных компонент без извлечения средних и шкалирования. фактически те же данные только повернута система координат. Код > result.pca<-prcomp(result, scale.=FALSE, center=FALSE) > plot(result.pca) > biplot(result.pca) > biplot(result.pca, choices=3:2) крутить 3д график в форуме неудобно ограничимся серией бублеплотов (для сокращения размеров кода объявим функцию) размер кружков это "срок", их заливка признак нулевого числа в интервале группировки номер которого написан в заглавии картинки Код > plot.res.n <- function (res.n) { + plot(result.pca$x[,3], + result.pca$x[,2], + bg=c("grey50","white")[as.factor(result[,res.n]==0)], + pch=21, + cex=seq(1,3, length.out=12)[as.factor(data$срок)], main=res.n)} > plot.res.n(1) > plot.res.n(2) > plot.res.n(3) > plot.res.n(4) > plot.res.n(5) с градиентом размеров кружком совпадают 1,5 и 4й интервал группировки размеров опухоли. Причем 5 работает и в направлении суммарного размера опухоли (первая компонента судя по всему его пытается восстановить). 2й интервал группировки работает против градиента "срок". 3й я бы сказал ортогонален градиенту "срок". Как то так. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#42
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Что то, все же, настораживает в этом подходе. Как трактовать отрицательное значение коэффициента при второй категории размера. И отношение шансов и стандартизированное отношение шансов для второй категории меньше единицы. Т.е. чем больше таких размеров, тем меньше вероятность рецидива, т.е лучше для прогноза? Должна же быть клиническая логика любого моделирования. собственно вот это неплохо иллюстрирует "отрицательность" Код > mosaicplot(table(result[,2],data$срок)) > mosaicplot(table(result[,1],data$срок)) ![]() |
|
![]() |
![]() |
![]()
Сообщение
#43
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Должна же быть клиническая логика любого моделирования. 1. Я бы не переносил так просто коэффициенты модели на причинно следственные связи. 2. Мы наблюдаем агрегированные данные. На самом деле все эти мтс возникали не одновременно. Я бы предположил что есть различные варианты (или/и стадии) развития процесса. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, но ведь анализ данных для того и делается, чтобы в данном случае ответить на очень важный вопрос, при каких исходных данный оправдано оперативное лечение МТС, а когда оно приносит только лишние страдания больному. Очевидно год без рецидивного течения для таких больных ? это успешный исход. Что есть у врача ? число и размеры. В вашей модели величина МТС в 1 и 1,5 см находятся в разных категориях и имеют противоположное влияние на исход, хотя точность измерения и округления не могут провести тут точную границу. Ни один клиницист с этим не согласится. Для данного примера результат работы с агрегированными данными, на мой взгляд, не привел к ответу на вопрос о влиянии числа и размера, но продемонстрирована техника исполнения.
|
|
![]() |
![]() |
![]()
Сообщение
#45
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Да, но ведь анализ данных для того и делается, чтобы в данном случае ответить на очень важный вопрос, при каких исходных данный оправдано оперативное лечение МТС, а когда оно приносит только лишние страдания больному. Очевидно год без рецидивного течения для таких больных ? это успешный исход. Что есть у врача ? число и размеры. В вашей модели величина МТС в 1 и 1,5 см находятся в разных категориях и имеют противоположное влияние на исход, хотя точность измерения и округления не могут провести тут точную границу. Ни один клиницист с этим не согласится. Для данного примера результат работы с агрегированными данными, на мой взгляд, не привел к ответу на вопрос о влиянии числа и размера, но продемонстрирована техника исполнения. 1. я напомню об одной фразе из своих сообщений "Допустим что мы выбрали группировку 0.5-1, 1-2, 2-3, 3-4, 4-5". 2. кроме того я _настойчиво_ (не менее трех раз ![]() Код x: the ?n? coordinates of the points where the density is estimated. y: the estimated density values. These will be non-negative, but can be zero. bw: the bandwidth used. n: the sample size after elimination of missing values. собственно использовать y*n по x мне видится предпочтительной техникой агрегации данных для выбора интервалов группировки. Делать полное исследование? ![]() ![]() |
|
![]() |
![]() |
![]() ![]() |