Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип, (Инфаркт миокарда и атеросклероз)
Alianna
сообщение 18.02.2015 - 15:08
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 18.02.2015
Пользователь №: 27040



Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Alianna
сообщение 19.02.2015 - 07:29
Сообщение #2





Группа: Пользователи
Сообщений: 4
Регистрация: 18.02.2015
Пользователь №: 27040



Цитата(nokh @ 18.02.2015 - 22:28) *
У вас неправильный подход к решению научной проблемы. Начинать нужно не с форумов, а со штудирования статей в своей области. Если таковых мало - расширять область поиска на смежные области. Уверен, что если бы вы просмотрели/пролистали 10-15 хороших статей, у вас уже была бы пара-тройка вариантов ответов на свой вопрос. А по 50 статьям можно составить вполне чёткую картину: какие методы используются и в каких пакетах. Уверен, что среди таких пакетов нет Statistica 10. Поскольку все такие методы далеко не простые и требуют определённого опыта - далее логично просить помощи на форумах.
PS Вообще-то, это вам должен был объяснить ваш руководитель.
PSS Ну и вообще, такая работа проводится обычно до сбора материала - чтобы потом не сокрушаться об упущенных тонкостях и потраченных средствах.


Теперь поясню по порядку.
Сначала про сбор материала. Согласна. Но я выполняю работу на уже собранном материале, который под меня адаптировать изначально никак не могли. Это клинические анализы в больнице, им моя НР сначала была до лампочки (зато теперь некоторые молодые оттуда диссеры по ней собираются защищать).
Статьи штудировались, но, видимо, не те, потому что методики я все же не нашла.
Статистику 10 использует весь институт, на базе которого выполнялась работа. Ни о чем другом там толком не слышали (или просто в один голос рекомендуют названный пакет). Многие считают всю жизнь через простейшие методы. Что еще более удивительно, ВСЕ НИИ рядом были обойдены (даже математический), и НИКТО не дал ответа на вопрос. Никто не знал, как анализировать эту базу именно для наших целей. Так что работа проделана была, и немалая. Но разве нужно описывать всю предысторию? Я надеялась, что получу здесь помощь, а не упреки в бездеятельности.

Цитата(p2004r @ 18.02.2015 - 18:42) *
1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"?


Не совсем поняла. Между этими параметрами нет никакой причинно-следственной связи

Цитата
Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена".

Вот это уже неверный подход. Предсказывать гены не имеет смысла, их нужно просто прогенотипировать.

Цитата
2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель.

Вот примерно это мы и сделали. Но хотелось бы понять, правильно ли выбран метод линейной регрессии и какие альтернативы. Желательно все же применительно к пакету Statistica, это уже довольно хорошо изученная программа с (насколько я могу судить) широкими возможностями.

Цитата
... например задать бинарные переменные в виде статинов и генов.

Большинство генов в моем случае -- не бинарные переменные, а имеют 3 и даже более значений в том-то и проблема.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему