Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Генотип, ко-факторы, исход, как анализировать?
don
сообщение 15.06.2014 - 14:09
Сообщение #1





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Здравствуйте, коллеги! Прошу помощи в анализе данных.
Задача исследования - оценить связь между генотипом (15 SNP), "промежуточным фенотипом" (параметры биохимии, иммунологии и др.), исходом (ЗНО есть/нет).
Существующий сервис "SNPstats" (http://bioinfo.iconcologia.net/SNPstats_web) выдает отношения шансов, "adjustet by фактор1+фактор2+...", используется при этом "logistic regression models" (то есть, логит-регрессию?). Хотелось бы поточнее узнать, что значит "adjusted by".
Кроме того, в данной програме остается "за кадром", какой из факторов является ведущим.
Возможно, есть какие то альтернативные методы анализа, позволяющие оценить вклад конкретных факторов?
Посоветуйте, пожалуйста. Заранее благодарен.

И есть ещё один вопрос:
По разным SNP имеется разное количество генотипированных, как и разное количество известных значений по каждому из "промежуточных фенотипов" и исходов.
То есть, грубо говоря, выборки по каждому из SNP перекрываются только отчасти. Нужно ли в этом случае рассматривать проблему множественных сравнений?
Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
don
сообщение 25.09.2014 - 09:47
Сообщение #2





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Добрый день, коллеги!
Изучение вопроса привело меня к необходимости использовать random forests, а именно - модификацию, доступную в пакете party для R (cforest), где для построения леса используются "безошибочные" деревья, т.к. в этом случае адекватно оценивается важность переменных и нет преференций для количественных данных (как в "стандартном" random forests)[Strobl, 2007]. Кроме того, необходимо вычислять "кондиционную" значимость, которая адекватнее в случае коррелированных переменных [Strobl, 2009]. И тут возникает следующее препятствие: missing values, которые в моих данных для некоторых параметров составляют более 50%. Однако, и на этот счет у той же "тёти" Strobl нашлось решение [Hapfelmeier, 2013].
На данном этапе моего "мастерства" в R хватает только на импорт таблицы, вычисления значимости переменных и построения гистограммы значимости:

read.table("gen2.txt", h=T)->gen2
set.seed(100)
cfresults<-cforest(cr~.,data=gen2,controls=cforest_unbiased(mtry=10,ntree=100))
varimp(cfresults)->vi1
par(las=2)
barplot(sort(vi1),main="Variable importance",space=0.5,cex.names=0.6)

Прошу помощи у бывалых:
1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему.
2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их?

Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу.
Также прилагается Hapfelmeier, 2013

Сообщение отредактировал don - 25.09.2014 - 09:51
Прикрепленные файлы
Прикрепленный файл  Hapfelmeier_2013.pdf ( 368,37 килобайт ) Кол-во скачиваний: 447
Прикрепленный файл  gen2.txt ( 32,9 килобайт ) Кол-во скачиваний: 525
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.10.2014 - 22:36
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(don @ 25.09.2014 - 09:47) *
Прошу помощи у бывалых:
1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему.
2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их?

Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу.
Также прилагается Hapfelmeier, 2013


1) Воспользоваться любым методом импутации данных

А для отбора значимых предикторов можно использовать library(Boruta), на этом форуме уже есть пример её использования. Метод ищет значимые, а не просто имеющие большое значение с точки зрения рандомфореста предикторы.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- don   Генотип, ко-факторы, исход   15.06.2014 - 14:09
- - TheThing   1) Что означает adjusted..Вы включаете в модель од...   15.06.2014 - 15:15
- - p2004r   Если данных достаточное количество, то стоило бы п...   16.06.2014 - 00:05
- - don   Благодарю, коллеги, за ответы. Буду разбираться...   17.06.2014 - 09:09
- - don   Добрый день, коллеги! Изучение вопроса привело...   25.09.2014 - 09:47
|- - p2004r   Цитата(don @ 25.09.2014 - 09:47) Про...   23.10.2014 - 22:36
|- - don   Цитата(p2004r @ 24.10.2014 - 01:36) ...   28.10.2014 - 10:06
|- - p2004r   Цитата(don @ 28.10.2014 - 10:06) Бла...   28.10.2014 - 18:13
- - anserovtv   Попробуйте прочитать о важности переменных здесь ...   28.09.2014 - 19:41
- - anserovtv   Коды, генерируемые программой, можно преобразовать...   28.09.2014 - 19:44
|- - don   anserovtv Большое Вам спасибо за первую ссылочку (...   29.09.2014 - 14:00
|- - TheThing   Цитата(don @ 29.09.2014 - 14:00) ans...   29.09.2014 - 15:07
|- - don   Цитата(TheThing @ 29.09.2014 - 18:07...   29.09.2014 - 21:09
||- - TheThing   Цитата(don @ 29.09.2014 - 21:09) Про...   29.09.2014 - 21:41
||- - don   Цитата(TheThing @ 30.09.2014 - 00:41...   30.09.2014 - 06:55
||- - TheThing   Цитата(don @ 30.09.2014 - 06:55) Пре...   30.09.2014 - 08:54
||- - don   Цитата(TheThing @ 30.09.2014 - 11:54...   30.09.2014 - 10:34
||- - TheThing   Цитата(don @ 30.09.2014 - 10:34) А е...   30.09.2014 - 14:07
||- - don   Цитата(TheThing @ 30.09.2014 - 17:07...   28.10.2014 - 12:33
|- - don   Доброго времени суток! Возникло ещё несколько ...   28.10.2014 - 09:54
- - p2004r   Вот тут приатачен файл с примером анализа пакетом ...   28.10.2014 - 18:20


Добавить ответ в эту темуОткрыть тему