Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип, (Инфаркт миокарда и атеросклероз)
Alianna
сообщение 18.02.2015 - 15:08
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 18.02.2015
Пользователь №: 27040



Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 18.02.2015 - 15:42
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Alianna @ 18.02.2015 - 15:08) *
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно)


1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"?

2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель.

Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена". На этом пути есть в принципе и возможность все гены одновременно предсказать, использовав "многометочную классификацию" (multi-label classification, она по идее должна учитывать в прогнозе взаимодействие генов-меток)... увы таких пакетов довольно мало

library(rFerns)

Код
A decision vector. Must a factor of the same length as nrow(X) for ordinary
many-label classification, or a logical matrix with each column corresponding
to a class for multi-label classification.


... например задать бинарные переменные в виде статинов и генов.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему