Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Анализ выборки по 5 показателям (развитие работы)
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
DreamPower
Добрый день, гости и участники форума. Переходя на второй курс, взял себе тему для курсовой по онкогенным генетическим маркерам. В этом году защитил статью на конференции анализ (N=350) по 2 генетическим маркерам, которые измерялись однократно, один из них измеряется в баллах, от 0 до 8, а для второго такой шкалы еще нет и он измеряется в процентах, от 0 до 100. Кроме того, была составлена генетическая карта в достаточно удобном ПО http://cmap.ihmc.us/ (мб кто-нибудь знает получше из бесплатного?) с целью объяснить их взаимодействия. В той работе выявлена в целом слабая отрицательная корреляция между этими маркерами, но попробовав воспользоваться шкалой зарубежных ученых, мы с моим научным руководителем по тем группам, которые там выделялись, взаимосвязи между ними не выявили.
Моя долгосрочная цель - составить такую шкалу для этого маркера, который измеряется в процентах, как прогностическую, так и предиктивную.
Для еще расширил генетическую карту, и посмотрел, что еще косвенно влияют 3 маркера. Один из них также измерется в процентах от 0 до 100, другой измеряется от 0 до 3, третий - от 0 до 8. Дали доступ к совокупной таблице из 5 параметров (N=350).
Конечно, на эти маркеры влияют не только эти гены, но хотелось бы рассмотреть частоту, величину их зависимости по разным группам, если их сравнивать по 2-3-4 группы в разных вариациях, может, обнаружится какая-то зависимость, что и хочу в данной работе проследить, добиться более клинически и научно важных результатов, какими бы методами.
Самый шик, наверно, рассмотреть из сразу по 5 параметрам, но в виду различной шкалы я думаю, это будет несколько затруднено.
Тогда пользовался софтом MedCalc, но
а) Там были некоторые существенные для меня ограничения в построении графика
б) Истек пробный период:)

Перечитал ваш форум, скачал себе R + как GUI к нему RKWard, для меня критерием было наличие таблиц, и удобный вызов графиков итд. Кроме того, как мне показалось, он больше похож на интерфейс medcalc, чем остальные, чем он мне и нравился.

Еще в своей работе использовал хи-квадрат, на этом тогда время для изучения методов статистики, закончилось, но мне тогда знакомый советовал посчитать еще методом регрессии, вопрос, как его грамотно использовать, ведь их там несколько видов.
В своей работе скорее всего буду считать, что есть один главный маркер, который мне нужно изучить, и есть зависимые, вопрос, правильно ли это со статистической точки зрения, если я предполагаю, что между ними есть метаболическая связь? Или нужно считать, что все независимые, а потом как-то можно, математическим методами вычислить их зависимость друг от друга?
Заранее спасибо.
TheThing
Цитата(DreamPower @ 30.06.2013 - 17:37) *
В своей работе скорее всего буду считать, что есть один главный маркер, который мне нужно изучить, и есть зависимые, вопрос, правильно ли это со статистической точки зрения, если я предполагаю, что между ними есть метаболическая связь? Или нужно считать, что все независимые, а потом как-то можно, математическим методами вычислить их зависимость друг от друга?
Заранее спасибо.


Здравствуйте!

Статистика не сможет дать Вам ответа на вопрос "правильно ли я это делаю", она лишь отвечает на четко поставленный вопрос с определенной вероятностью. Если Вы изучаете любое онко-заболевание, то главного маркера здесь нет, поскольку это мультифакторное (полигенное) заболевание. Каждый из генетических маркеров обладает слабым эффектом, но именно совокупное влияние многих факторов обуславливает риск развития заболевания и Ваша (и наша) задача - это обнаружить эту совокупность. По своей природе гены могут представлять как независимые (маргинальные) эффекты, так и взаимодействовать с другими генами (эпистаз), поэтому просто считать, что все они независимые - это неправильно. Чтобы попробовать Вам как-то помочь, хотелось бы узнать, что за генетические маркеры Вы изучали и как изучали? это уровень экспрессии генов или полиморфизмы одиночиных нуклеотидов? Для одной и другой категории разработаны методы стат. анализа. И каким способом вам удалось установить, что один маркер главный, а остальные "косвенно" связаны с ним, если Вы использовали, как я понял, только корреляционный анализ и хи-квадрат?



DreamPower
Спасибо за быстрый и развернутый ответ!
Цитата(TheThing @ 1.07.2013 - 03:53) *
По своей природе гены могут представлять как независимые (маргинальные) эффекты, так и взаимодействовать с другими генами (эпистаз), поэтому просто считать, что все они независимые - это неправильно. Чтобы попробовать Вам как-то помочь, хотелось бы узнать, что за генетические маркеры Вы изучали и как изучали? это уровень экспрессии генов или полиморфизмы одиночиных нуклеотидов? Для одной и другой категории разработаны методы стат. анализа.

Все маркеры были измерены ИГХ методом, по следующим критериям:

Her-2 - тот маркер, который от 0 до 3,
"В отличие от большинства анализов IHC, определение HER-2 статуса носит более количественный, чем качественный характер, поскольку HER2 экспрессирован во всех грудных эпителиальных клетках. Чтобы предоставить значимую интерпретацию HER-2 иммуноокрашивания, необходимо установить отношение между количеством HER-2 рецепторов на клеточной поверхности и размещением и интенсивностью иммуноокраски. Стандартизировананная IHC процедура и система подсчета результатов включает в себя следующие оценки: 0 ? клетки, содержащие <20000 рецепторов без окрашивания, 1+ ? клетки, содержащие приблизительно 100 000 рецепторов которые показывают частичную закраску мембраны и <10% клеток, которые имеют полную окраску мембраны.
2+ ? клетки, содержащие приблизительно 500 000 рецепторов, >10% из клеток показывают легкую или умеренную, полную окраску мембраны
3+ - клетки, содержащие приблизительно 500 000 рецепторов, >10% из клеток показывают сильную, полную окраску мембраны"

PR и ER - те, что от 0 до 8 - "оценены по шкале Allred, где присутствует шкала интенсивности окраски (0 ? отсутствует, 1 ? слабая, 2 ? умеренная, 3 - сильная) и по шкале количества позитивных клеток (0 ? отсутствуют, 1 ? 0-1% клеток, 2 ? 2-10% клеток, 3 ? 11-33% клеток, 4 ? 34-66% клеток, 5 ? 67?100% клеток). Далее значения шкал интенсивности и количества позитивных клеток складываются, если полученное значение лежит в области от 0 до 2, то биоптат обладает отрицательным прогестероновым статусом, в области от 3 до 8 ? обладает положительным статусом"

Еще 2 маркера - 2 ядерных белка, Ki-67 и еще один, считается доля клеток с сильной интенсивностью окраски, записывается в процентах от общего числа клеток.
Цитата(TheThing @ 1.07.2013 - 03:53) *
И каким способом вам удалось установить, что один маркер главный, а остальные "косвенно" связаны с ним, если Вы использовали, как я понял, только корреляционный анализ и хи-квадрат?

У меня есть еще один источник информации о взаимосвязи рецепторов - метаболические карты, правда, количество промежуточных генов, которые нужно активировать и то, что на них могут повлиять другие гены, заставляет усомниться, что можно провести прямую причинно-следственную связь между повышением экспрессией одного и повышением\понижением экспрессии другого. То что один маркер главный, а остальные - зависимые, это конечно, утрирование, но между ними есть сложная сеть взаимодействий, вопрос сформулирую так: как проверить свою гипотезу, что если один рецептор главный, а остальные - "косвенно" влияют на него, попробовать ранжировать их, определить средний процентный вклад в этот главный рецептор, определить, с какой вероятностью не влияет, то есть где-то "затухает" по дороге сигнал или его что-то ингибирует?
Скорее всего буду вычленять более мелкие группы допустим ER+ и ER- и сравнивать их по остальным показателям между собой, потом ER+ PR+ и ER+ PR- итд. Может быть, что-то еще и не вписывающиеся в мои карты найду.
TheThing
Попробуйте еще посмотреть метод случайного леса (random forest), он часто применяется для оценки уровня экспрессии генетических маркеров. Можно глянуть здесь http://www.youtube.com/watch?v=IO7F1-PlKNM это 5 серийная презентация с примерами использования генетических данных. Random Forest позволит Вам ранжировать предикторы в зависимости от их значимости и способности прогнозировать интересующую Вас величину. Если работаете в R - то пакет random forest. Также можно почитать вот эту статью http://www.biomedcentral.com/1471-2105/8/25 в ней детально разбирается, почему лучше не использовать величины важности предикторов, которые предлагает пакет random forest по-умолчанию (те, которые разработаны Лео Брайнманом, создателем алгоритма случайного леса), предлагаются альтернативные варианты, примеры как раз на генетических данных, автору можно доверять, Caroline Strobl всю жизнь посвятила лишь random forest smile.gif

Также, посетите сайт http://bioconductor.org/ там собраны презентации с докладов по обработке генетической информации, отсортированные по годам. С презентаций можно почерпнуть много полезного с примерами в R. Кроме того, там очень часто "зависает" Robert Gentleman - один из создателей языка R, поэтому какие-то новые способы и методы обработки генетической информации всегда можно узнать от него.

Обратите внимание на различные методы классификационных деревеьв (AdaBoost и др) в общем - они считаются самым мощным инструментом в генетических исследованиях на современном этапе, где обычно количество предикторов значительно превыщает количество наблюдений.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.