Здравствуйте, гость ( Вход | Регистрация )
18.02.2015 - 15:08
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 18.02.2015 Пользователь №: 27040 |
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? |
|
|
![]() |
![]() |
![]() |
18.02.2015 - 15:42
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Здравствуйте! Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно) 1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"? 2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель. Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена". На этом пути есть в принципе и возможность все гены одновременно предсказать, использовав "многометочную классификацию" (multi-label classification, она по идее должна учитывать в прогнозе взаимодействие генов-меток)... увы таких пакетов довольно мало library(rFerns) Код A decision vector. Must a factor of the same length as nrow(X) for ordinary many-label classification, or a logical matrix with each column corresponding to a class for multi-label classification. ... например задать бинарные переменные в виде статинов и генов. ![]() |
|
|
![]() |
![]() |
Alianna Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип 18.02.2015 - 15:08
nokh Цитата(Alianna @ 18.02.2015 - 17:08)... 18.02.2015 - 19:28
Alianna Цитата(nokh @ 18.02.2015 - 22:28) У ... 19.02.2015 - 07:29
anserovtv Скорее всего, Вам нужно использовать специализиров... 19.02.2015 - 08:22
p2004r Цитата(Alianna @ 19.02.2015 - 07:39)... 19.02.2015 - 12:27
nokh Всяк сверчок знай свой шесток! А то огребёшь... 22.02.2015 - 13:44
p2004r Да, PLS хорошо подходит. Реализация http://cran.r-... 22.02.2015 - 20:57
DoctorStat Цитата(Alianna @ 18.02.2015 - 15:08)... 22.02.2015 - 16:17
nokh Цитата(DoctorStat @ 22.02.2015 - 18... 22.02.2015 - 18:21
DoctorStat Цитата(nokh @ 22.02.2015 - 18:21) и ... 22.02.2015 - 21:07
anserovtv Обнаружил в интернете работу, очень близкую по тем... 22.02.2015 - 22:27![]() ![]() |