![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 18.02.2015 Пользователь №: 27040 ![]() |
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? ![]() |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Здравствуйте! Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно) 1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"? 2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель. Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена". На этом пути есть в принципе и возможность все гены одновременно предсказать, использовав "многометочную классификацию" (multi-label classification, она по идее должна учитывать в прогнозе взаимодействие генов-меток)... увы таких пакетов довольно мало library(rFerns) Код A decision vector. Must a factor of the same length as nrow(X) for ordinary many-label classification, or a logical matrix with each column corresponding to a class for multi-label classification. ... например задать бинарные переменные в виде статинов и генов. ![]() |
|
![]() |
![]() |
![]() ![]() |