Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Анализ выборки по 5 показателям (развитие работы), Отражение зависимости по метаболическим картам.
DreamPower
сообщение 30.06.2013 - 17:37
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 30.06.2013
Пользователь №: 24969



Добрый день, гости и участники форума. Переходя на второй курс, взял себе тему для курсовой по онкогенным генетическим маркерам. В этом году защитил статью на конференции анализ (N=350) по 2 генетическим маркерам, которые измерялись однократно, один из них измеряется в баллах, от 0 до 8, а для второго такой шкалы еще нет и он измеряется в процентах, от 0 до 100. Кроме того, была составлена генетическая карта в достаточно удобном ПО http://cmap.ihmc.us/ (мб кто-нибудь знает получше из бесплатного?) с целью объяснить их взаимодействия. В той работе выявлена в целом слабая отрицательная корреляция между этими маркерами, но попробовав воспользоваться шкалой зарубежных ученых, мы с моим научным руководителем по тем группам, которые там выделялись, взаимосвязи между ними не выявили.
Моя долгосрочная цель - составить такую шкалу для этого маркера, который измеряется в процентах, как прогностическую, так и предиктивную.
Для еще расширил генетическую карту, и посмотрел, что еще косвенно влияют 3 маркера. Один из них также измерется в процентах от 0 до 100, другой измеряется от 0 до 3, третий - от 0 до 8. Дали доступ к совокупной таблице из 5 параметров (N=350).
Конечно, на эти маркеры влияют не только эти гены, но хотелось бы рассмотреть частоту, величину их зависимости по разным группам, если их сравнивать по 2-3-4 группы в разных вариациях, может, обнаружится какая-то зависимость, что и хочу в данной работе проследить, добиться более клинически и научно важных результатов, какими бы методами.
Самый шик, наверно, рассмотреть из сразу по 5 параметрам, но в виду различной шкалы я думаю, это будет несколько затруднено.
Тогда пользовался софтом MedCalc, но
а) Там были некоторые существенные для меня ограничения в построении графика
б) Истек пробный период:)

Перечитал ваш форум, скачал себе R + как GUI к нему RKWard, для меня критерием было наличие таблиц, и удобный вызов графиков итд. Кроме того, как мне показалось, он больше похож на интерфейс medcalc, чем остальные, чем он мне и нравился.

Еще в своей работе использовал хи-квадрат, на этом тогда время для изучения методов статистики, закончилось, но мне тогда знакомый советовал посчитать еще методом регрессии, вопрос, как его грамотно использовать, ведь их там несколько видов.
В своей работе скорее всего буду считать, что есть один главный маркер, который мне нужно изучить, и есть зависимые, вопрос, правильно ли это со статистической точки зрения, если я предполагаю, что между ними есть метаболическая связь? Или нужно считать, что все независимые, а потом как-то можно, математическим методами вычислить их зависимость друг от друга?
Заранее спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
TheThing
сообщение 1.07.2013 - 18:41
Сообщение #2





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Попробуйте еще посмотреть метод случайного леса (random forest), он часто применяется для оценки уровня экспрессии генетических маркеров. Можно глянуть здесь http://www.youtube.com/watch?v=IO7F1-PlKNM это 5 серийная презентация с примерами использования генетических данных. Random Forest позволит Вам ранжировать предикторы в зависимости от их значимости и способности прогнозировать интересующую Вас величину. Если работаете в R - то пакет random forest. Также можно почитать вот эту статью http://www.biomedcentral.com/1471-2105/8/25 в ней детально разбирается, почему лучше не использовать величины важности предикторов, которые предлагает пакет random forest по-умолчанию (те, которые разработаны Лео Брайнманом, создателем алгоритма случайного леса), предлагаются альтернативные варианты, примеры как раз на генетических данных, автору можно доверять, Caroline Strobl всю жизнь посвятила лишь random forest smile.gif

Также, посетите сайт http://bioconductor.org/ там собраны презентации с докладов по обработке генетической информации, отсортированные по годам. С презентаций можно почерпнуть много полезного с примерами в R. Кроме того, там очень часто "зависает" Robert Gentleman - один из создателей языка R, поэтому какие-то новые способы и методы обработки генетической информации всегда можно узнать от него.

Обратите внимание на различные методы классификационных деревеьв (AdaBoost и др) в общем - они считаются самым мощным инструментом в генетических исследованиях на современном этапе, где обычно количество предикторов значительно превыщает количество наблюдений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему