Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип, (Инфаркт миокарда и атеросклероз)
Alianna
сообщение 18.02.2015 - 15:08
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 18.02.2015
Пользователь №: 27040



Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 19.02.2015 - 12:27
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Alianna @ 19.02.2015 - 07:39) *
Не совсем поняла. Между этими параметрами нет никакой причинно-следственной связи

Вот это уже неверный подход. Предсказывать гены не имеет смысла, их нужно просто прогенотипировать.

Вот примерно это мы и сделали. Но хотелось бы понять, правильно ли выбран метод линейной регрессии и какие альтернативы. Желательно все же применительно к пакету Statistica, это уже довольно хорошо изученная программа с (насколько я могу судить) широкими возможностями.

Большинство генов в моем случае -- не бинарные переменные, а имеют 3 и даже более значений в том-то и проблема.


1) Раз уверены в отсутствии влияния "статинов" на данные, тогда исключайте этот параметр из данных.

2) Если вы так всё знаете "о подходах", то зачем спрашиваете? Тут вряд ли кто то будет соревноваться с вами в "филологической статистике" приводя аргументы "из области здравого смысла" и "кажущегося значения слов".

3) Что вы сделали пока что знаете только вы. Никакой информации что за дизайна модели фитились и на каких данных нет. Поэтому сказать есть ли место линейной регрессии в вашем исследовании нельзя. Что касается "шашечек" -- посмотрите внимательно в свою Статистику, туда давно интегрирован R. Если не хватает знаний и некогда их получать (или они кажутся лишними для современного ученого), то наймите специалиста по названным вам методам.

4) Вы видите проблемы не там где они есть на самом деле. И совсем не читаете что вам подсказывают, rFerns как раз такие данные классифицирует (он находит зависимости связанные именно с набором меток у варианты выборки).

Цитата(Alianna @ 19.02.2015 - 07:29) *
Я надеялась, что получу здесь помощь, а не упреки в бездеятельности.


Вам названы http://en.wikipedia.org/wiki/Multi-label_classification и комплиментарный этой задаче http://cran.r-project.org/web/packages/rFerns/rFerns.pdf .

Решение задачи редукции числа предикторов в моделе до статистически значимых http://cran.r-project.org/web/packages/AUCRF/AUCRF.pdf и http://cran.r-project.org/web/packages/Boruta/Boruta.pdf и было предложено решать её для статагрегатов генотипа полученных тривиальным PCA (после преобразования шкал в бинарные).

Вместо того что бы спрашивать по существу, вы даете оценки ответивших вам. smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему