Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Логистическая регрессия?
mamalita
сообщение 9.11.2011 - 11:07
Сообщение #1





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366



Добрый день! Прошу помощи в анализе данных. Мы имеем 100 человека больных с метастазами в печени, лечили их хирургическим путем и наблюдали их в течение 6 лет и диагностировали у них новые метастазы и рецидивы. Суть работы заключается в том, чтобы доказать, что реже всего на 1 и 2 годах наблюдения новые МТС возникают у пациентов с количеством МТС 2-3 (у нас были варианты количества от 2-6), и размер их должен быть 2-3 см. То есть кривая частоты прогресии имеет форму колокола обращенного вершиной вниз - 1 см - часто возникает прогрессия, больше 3 - тоже. Наиболее оптимальным является размер очага для хирургического лечения 2-3 см. Вопрос как представить эти данные и их анализировать: средний и суммарный размер не учитывают разницы: то ли у больного было 3 очага по 2 см то ли 1 и 6 см что совсем не благоприятно. Если брать каждый метастаз как отдельную переменную то у разных людей будет разное количество переменных (от 2 до 6штук), но этот вариант наиболее приемлем в соответствии с поставленной задачей. Теперь вопрос каким методом воспользоваться, чтобы доказать что идеальным для лечения является количество МТС 2-3 при размере 2-3см. Еще момент : размер МТС имеет мини манимальное округление до 0, 5 разброс от 1 до 6 см (т.е. всего 12 значений). Может быть их можно как-то объединить и логически видоизменить? Я уже просто голову сломала. Очень нужен свежий взгляд. Спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
mamalita
сообщение 13.11.2011 - 11:34
Сообщение #2





Группа: Пользователи
Сообщений: 49
Регистрация: 7.04.2010
Пользователь №: 15366



приложенные данные
Прикрепленные файлы
Прикрепленный файл  кол_во_размер_рецидив.rar ( 5,19 килобайт ) Кол-во скачиваний: 528
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.11.2011 - 11:56
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(mamalita @ 13.11.2011 - 10:34) *
приложенные данные


часть 1 smile.gif Импорт данных


сохраняем файл экселя как csv выбирая разделителем полей ";" ввиду печальной особенности русского экселя представлять десятичную точку как ","

директория в которую мы сохранили файл с данными будет нашей рабочей директорией (в линуксе достаточно стоя в ней запустить R в виндовсе возможно надо её отметить из меню оболочки), или надо указать полный путь к имени файла.

после это импортируем в эксель файл функцией read.csv2() и сразу смотрим все ли пошло нормально с помощью функции str()

Код
> str(read.csv2("кол-во-размер-рецидив.csv"))
'data.frame':    93 obs. of  13 variables:
$ номер           : int  43 91 3 4 10 34 35 39 42 93 ...
$ кол.во          : int  5 5 3 2 2 4 5 6 6 6 ...
$ средний.размер  : num  1.6 1.4 2.33 3 3 2.25 2 1.17 1.5 1.25 ...
$ мтс1            : num  1 0.5 1 1 1 1 0.5 1 1 0.5 ...
$ мтс2            : num  1 0.5 1 5 5 1 1 1 1 1 ...
$ мтс3            : num  1 1 5 0 0 2 1.5 1 1 1 ...
$ мтс4            : num  1 1 0 0 0 5 2 1 2 1 ...
$ мтс5            : num  4 4 0 0 0 0 5 1.5 2 4 ...
$ мтс6            : num  0 0 0 0 0 0 0 1.5 2 0 ...
$ суммарный.размер: num  8 7 7 6 6 9 10 7 9 7.5 ...
$ рецидив         : int  1 1 1 1 1 1 1 1 1 1 ...
$ срок            : int  1 1 1 3 3 3 3 3 3 3 ...
$ рецидив.до.года : int  1 1 1 1 1 1 1 1 1 1 ...
>


как видим всё в порядке и мы можем смело сохранять данные для последующей обработки

Код
> data <- read.csv2("кол-во-размер-рецидив.csv")
>


ЗЫ ну а посмотреть на первые несколько строчек что у нас в data можно с помощью функции head()

Код
> head(data)
  номер кол.во средний.размер мтс1 мтс2 мтс3 мтс4 мтс5 мтс6 суммарный.размер
1    43      5           1.60  1.0  1.0    1    1    4    0                8
2    91      5           1.40  0.5  0.5    1    1    4    0                7
3     3      3           2.33  1.0  1.0    5    0    0    0                7
4     4      2           3.00  1.0  5.0    0    0    0    0                6
5    10      2           3.00  1.0  5.0    0    0    0    0                6
6    34      4           2.25  1.0  1.0    2    5    0    0                9
  рецидив срок рецидив.до.года
1       1    1               1
2       1    1               1
3       1    1               1
4       1    3               1
5       1    3               1
6       1    3               1


Сообщение отредактировал p2004r - 13.11.2011 - 12:24


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 13.11.2011 - 13:16
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



часть 2 Выбираем интервал группировки

Нас интересует как распределены размеры "мтс"

Код
> names(data)
[1] "номер"            "кол.во"           "средний.размер"   "мтс1"            
[5] "мтс2"             "мтс3"             "мтс4"             "мтс5"            
[9] "мтс6"             "суммарный.размер" "рецидив"          "срок"            
[13] "рецидив.до.года"



это переменные с 4 по 9, у них отсутствующие значения закодированы нолем (а надо NA)

выкусываем часть таблицы данных, заменяем 0 на NA:

Код
> # прицеливаемся :)
> head(data[,4:9])
  мтс1 мтс2 мтс3 мтс4 мтс5 мтс6
1  1.0  1.0    1    1    4    0
2  0.5  0.5    1    1    4    0
3  1.0  1.0    5    0    0    0
4  1.0  5.0    0    0    0    0
5  1.0  5.0    0    0    0    0
6  1.0  1.0    2    5    0    0
> mts<-as.vector(data[,4:9])
> # заменяем 0 на NA
> mts[mts==0]<-NA


и склеиваем в одну переменную:

1й способ
Код
c(mts[,1],mts[,2],mts[,3],mts[,4],mts[,5],mts[,6])


2й способ
Код
mts.new<-as.matrix(mts)
dim(mts.new)<-6*93
mts.new<-as.vector(mts.new)


Очистка от NA производится функцией na.omit()

Строим плотность распределения размера мтс

Код
> plot(density(na.omit(mts.new)))
>


Ну и голую гистограмму для сравнения

Код
> hist(na.omit(mts.new))
>


Теперь для способа с гистограммой надо выбрать интервалы группировки
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- mamalita   Логистическая регрессия?   9.11.2011 - 11:07
- - p2004r   Цитата(mamalita @ 9.11.2011 - 10:07)...   9.11.2011 - 11:55
- - mamalita   Познания у меня не очень глубокие, поэтому не совс...   10.11.2011 - 12:35
|- - p2004r   Цитата(mamalita @ 10.11.2011 - 11:35...   10.11.2011 - 22:56
- - Игорь   Цитата(mamalita @ 9.11.2011 - 11:07)...   10.11.2011 - 15:50
- - mamalita   В том то и проблема - какой размер брать. Когда у ...   10.11.2011 - 20:40
- - DrgLena   Трудность понятна, есть не просто число, но и разм...   10.11.2011 - 22:49
- - mamalita   Цитата(DrgLena @ 10.11.2011 - 23:49)...   13.11.2011 - 11:29
|- - p2004r   Цитата(mamalita @ 13.11.2011 - 10:29...   13.11.2011 - 11:42
- - mamalita   приложенные данные   13.11.2011 - 11:34
|- - p2004r   Цитата(mamalita @ 13.11.2011 - 10:34...   13.11.2011 - 11:56
|- - p2004r   часть 2 Выбираем интервал группировки Нас интерес...   13.11.2011 - 13:16
|- - p2004r   часть 3 Применяем интервал группировки Допустим ч...   13.11.2011 - 14:14
|- - p2004r   Проведем разведочный анализ лично я предпочитаю с...   13.11.2011 - 15:21
|- - p2004r   Построим полную модель различий Код> summary...   13.11.2011 - 16:31
|- - p2004r   Посмотрим что увидела оптимальная модель Кодmosaic...   13.11.2011 - 17:04
|- - p2004r   Поскольку у крупных опухолей всего два уровня (ест...   13.11.2011 - 18:05
- - p2004r   нет ли опечатки? Код> table(data$сро...   13.11.2011 - 18:27
|- - mamalita   Спасибо за быстрый подробный ответ и помощь. Ноя к...   16.11.2011 - 08:58
|- - p2004r   Цитата(mamalita @ 16.11.2011 - 07:58...   16.11.2011 - 11:24
- - DrgLena   Поскольку дискуссия с автором поста пока не получа...   15.11.2011 - 00:37
|- - mamalita   Поскольку дискуссия с автором поста пока не получа...   16.11.2011 - 08:44
- - DrgLena   Нет, вы поняли не правильно. Хотя я много чего н...   16.11.2011 - 10:53
- - DrgLena   Цитата(p2004r @ 16.11.2011 - 12:24) ...   16.11.2011 - 13:29
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 12:29)...   16.11.2011 - 14:04
- - DrgLena   Цитата(p2004r @ 16.11.2011 - 11:24) ...   16.11.2011 - 13:37
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 12:37)...   16.11.2011 - 14:14
- - DrgLena   Больной, имеющий 0,5 имеет и 4 (вторая строчка)   16.11.2011 - 14:12
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 13:12)...   16.11.2011 - 14:20
- - mamalita   Цитата(p2004r @ 16.11.2011 - 15:20) ...   16.11.2011 - 18:06
|- - p2004r   да правильно, просто включать нельзя по тому что п...   16.11.2011 - 18:34
- - DrgLena   Цитата(p2004r @ 16.11.2011 - 15:04) ...   16.11.2011 - 19:22
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 18:22)...   16.11.2011 - 20:08
- - DrgLena   Спасибо, я тоже посчитала вероятности по вашим коэ...   16.11.2011 - 20:55
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 19:55)...   16.11.2011 - 21:07
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 19:55)...   16.11.2011 - 21:19
- - DrgLena   Спасибо, я уже перевела и скопировала ваши вероятн...   16.11.2011 - 21:40
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 20:40)...   16.11.2011 - 21:53
|- - p2004r   Цитата(DrgLena @ 16.11.2011 - 21:40)...   18.12.2011 - 17:16
- - DrgLena   Спасибо, р2004r, я поняла, для меня это новая мысл...   16.11.2011 - 22:41
- - DrgLena   Что то, все же, настораживает в этом подходе. Как ...   17.11.2011 - 19:46
|- - p2004r   Цитата(DrgLena @ 17.11.2011 - 18:46)...   17.11.2011 - 20:45
|- - p2004r   Цитата(DrgLena @ 17.11.2011 - 18:46)...   17.11.2011 - 20:52
|- - p2004r   Цитата(DrgLena @ 17.11.2011 - 18:46)...   17.11.2011 - 21:38
|- - DrgLena   Да, но ведь анализ данных для того и делается, что...   18.11.2011 - 00:58
|- - p2004r   Цитата(DrgLena @ 18.11.2011 - 00:58)...   18.11.2011 - 10:53
- - DrgLena   p2004r, вы продемонстрировали, что моделирование -...   18.11.2011 - 11:56
- - mamalita   Медленно но верно тем самым и занимаюсь. Мне нужно...   25.11.2011 - 11:16
- - mamalita   Начала с самого начала и сразу проблема: при откры...   5.12.2011 - 12:47
|- - p2004r   Цитата(mamalita @ 5.12.2011 - 12:47)...   5.12.2011 - 13:21
- - mamalita   Все делаю как написано программа отвечает : не мог...   6.12.2011 - 13:38
|- - p2004r   Цитата(mamalita @ 6.12.2011 - 13:38)...   6.12.2011 - 14:30
- - mamalita   [quote name='p2004r' date='6.12.2011 -...   8.12.2011 - 19:58
|- - p2004r   Цитата(mamalita @ 8.12.2011 - 19:58)...   8.12.2011 - 21:35
- - mamalita   > data <- read.csv2("кол-во-размер-реци...   11.12.2011 - 21:22
|- - p2004r   Цитата(mamalita @ 11.12.2011 - 21:22...   12.12.2011 - 00:42
- - mamalita   Спасибо, данные ввелись. Вопрос 1. вместо имен пер...   13.12.2011 - 10:34
- - p2004r   Цитата(mamalita @ 13.12.2011 - 10:34...   13.12.2011 - 10:50


Добавить ответ в эту темуОткрыть тему