Генотип, ко-факторы, исход - Форум врачей-аспирантов

Генотип, ко-факторы, исход, как анализировать?

don Просмотр профиля	15.06.2014 - 14:09 Сообщение #1
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	Здравствуйте, коллеги! Прошу помощи в анализе данных. Задача исследования - оценить связь между генотипом (15 SNP), "промежуточным фенотипом" (параметры биохимии, иммунологии и др.), исходом (ЗНО есть/нет). Существующий сервис "SNPstats" (http://bioinfo.iconcologia.net/SNPstats_web) выдает отношения шансов, "adjustet by фактор1+фактор2+...", используется при этом "logistic regression models" (то есть, логит-регрессию?). Хотелось бы поточнее узнать, что значит "adjusted by". Кроме того, в данной програме остается "за кадром", какой из факторов является ведущим. Возможно, есть какие то альтернативные методы анализа, позволяющие оценить вклад конкретных факторов? Посоветуйте, пожалуйста. Заранее благодарен. И есть ещё один вопрос: По разным SNP имеется разное количество генотипированных, как и разное количество известных значений по каждому из "промежуточных фенотипов" и исходов. То есть, грубо говоря, выборки по каждому из SNP перекрываются только отчасти. Нужно ли в этом случае рассматривать проблему множественных сравнений? Спасибо!

Ответов

don Просмотр профиля	25.09.2014 - 09:47 Сообщение #2
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	Добрый день, коллеги! Изучение вопроса привело меня к необходимости использовать random forests, а именно - модификацию, доступную в пакете party для R (cforest), где для построения леса используются "безошибочные" деревья, т.к. в этом случае адекватно оценивается важность переменных и нет преференций для количественных данных (как в "стандартном" random forests)[Strobl, 2007]. Кроме того, необходимо вычислять "кондиционную" значимость, которая адекватнее в случае коррелированных переменных [Strobl, 2009]. И тут возникает следующее препятствие: missing values, которые в моих данных для некоторых параметров составляют более 50%. Однако, и на этот счет у той же "тёти" Strobl нашлось решение [Hapfelmeier, 2013]. На данном этапе моего "мастерства" в R хватает только на импорт таблицы, вычисления значимости переменных и построения гистограммы значимости: read.table("gen2.txt", h=T)->gen2 set.seed(100) cfresults<-cforest(cr~.,data=gen2,controls=cforest_unbiased(mtry=10,ntree=100)) varimp(cfresults)->vi1 par(las=2) barplot(sort(vi1),main="Variable importance",space=0.5,cex.names=0.6) Прошу помощи у бывалых: 1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему. 2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их? Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу. Также прилагается Hapfelmeier, 2013 Сообщение отредактировал don - 25.09.2014 - 09:51 Прикрепленные файлы Hapfelmeier_2013.pdf ( 368,37 килобайт ) Кол-во скачиваний: 463 gen2.txt ( 32,9 килобайт ) Кол-во скачиваний: 535

p2004r Просмотр профиля	23.10.2014 - 22:36 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(don @ 25.09.2014 - 09:47) Прошу помощи у бывалых: 1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему. 2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их? Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу. Также прилагается Hapfelmeier, 2013 1) Воспользоваться любым методом импутации данных А для отбора значимых предикторов можно использовать library(Boruta), на этом форуме уже есть пример её использования. Метод ищет значимые, а не просто имеющие большое значение с точки зрения рандомфореста предикторы. http://r-statistics.livejournal.com/

don Просмотр профиля	28.10.2014 - 10:06 Сообщение #4
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	Цитата(p2004r @ 24.10.2014 - 01:36) 1) Воспользоваться любым методом импутации данных Благодарю за ответ! Объясню ситуацию: 1) Доступное количество наблюдений по снипам и статусу case/control = 430 2) Доступное количество наблюдений по параметрам х1, х2, х3 = 250, 200, 180 То есть, если использовать методы импутации, получится что половина (в лучшем случае) данных окажется импутированной. Позвольте вопрос: правомерно ли брать в анализ переменную, в которой половина данных импутирована?

Сообщений в этой теме

don Генотип, ко-факторы, исход 15.06.2014 - 14:09

TheThing 1) Что означает adjusted..Вы включаете в модель од... 15.06.2014 - 15:15

p2004r Если данных достаточное количество, то стоило бы п... 16.06.2014 - 00:05

don Благодарю, коллеги, за ответы. Буду разбираться... 17.06.2014 - 09:09

don Добрый день, коллеги! Изучение вопроса привело... 25.09.2014 - 09:47

p2004r Цитата(don @ 25.09.2014 - 09:47) Про... 23.10.2014 - 22:36

don Цитата(p2004r @ 24.10.2014 - 01:36) ... 28.10.2014 - 10:06

p2004r Цитата(don @ 28.10.2014 - 10:06) Бла... 28.10.2014 - 18:13

anserovtv Попробуйте прочитать о важности переменных здесь ... 28.09.2014 - 19:41

anserovtv Коды, генерируемые программой, можно преобразовать... 28.09.2014 - 19:44

don anserovtv Большое Вам спасибо за первую ссылочку (... 29.09.2014 - 14:00

TheThing Цитата(don @ 29.09.2014 - 14:00) ans... 29.09.2014 - 15:07

don Цитата(TheThing @ 29.09.2014 - 18:07... 29.09.2014 - 21:09

TheThing Цитата(don @ 29.09.2014 - 21:09) Про... 29.09.2014 - 21:41

don Цитата(TheThing @ 30.09.2014 - 00:41... 30.09.2014 - 06:55

TheThing Цитата(don @ 30.09.2014 - 06:55) Пре... 30.09.2014 - 08:54

don Цитата(TheThing @ 30.09.2014 - 11:54... 30.09.2014 - 10:34

TheThing Цитата(don @ 30.09.2014 - 10:34) А е... 30.09.2014 - 14:07

don Цитата(TheThing @ 30.09.2014 - 17:07... 28.10.2014 - 12:33

don Доброго времени суток! Возникло ещё несколько ... 28.10.2014 - 09:54

p2004r Вот тут приатачен файл с примером анализа пакетом ... 28.10.2014 - 18:20

« Предыдущая тема · Медицинская статистика · Следующая тема »