Автор: Camel1000 17.09.2019 - 16:41
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!
Автор: leo_biostat 17.09.2019 - 16:51
Цитата(Camel1000 @ 17.09.2019 - 16:41)
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!
! Если считаете цель своего исследования очень важной, то можете выслать в наш НЦ БИОСТАТИСТИКА свою базу данных и её описанием,
и мы оперативно и бесплатно сделаем Вам статистический анализ этой базы. И объясним Вам полученные результаты.
Автор: Camel1000 17.09.2019 - 16:56
Цитата(leo_biostat @ 17.09.2019 - 16:51)
! Если считаете цель своего исследования очень важной, то можете выслать в наш НЦ БИОСТАТИСТИКА свою базу данных и её описанием,
и мы оперативно и бесплатно сделаем Вам статистический анализ этой базы. И объясним Вам полученные результаты.
Спасибо, но данные не целиком мои, а большой группы, в которой не все согласны на это. Хотелось бы самому разобраться. Достаточно просто примерный путь указать, что здесь будет осмысленнее.
Автор: nokh 17.09.2019 - 21:57
Цитата(Camel1000 @ 17.09.2019 - 18:41)
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!
Задача не столько из области биостатистики, сколько биоинформатики, где такие исследования уже рутина. Алгоритм в общих чертах такой.
1) Препроцессинг. Обычно такие данные получают в ходе исследований на микрочипах (microarray). При этом результаты оценки флуоресценции на разных чипах могут заметно отличаться в результате небиологических причин. Поэтому сначала проводят так называемую нормализацию результатов измерений для устранения этой технической изменчивости. Способов много, один из лучших - квантильная нормализация, но всё время появляется что-то новее и лучше. Далее данные преобразуют, чаще всего используют логарифмирование по основанию 2. Наконец, если для некоторых образцов имелись результаты нескольких измерений - их усредняют (среднее или медиана).
2) Отбор показателей (генов) для дифференциальной диагностики. Здесь используются разные фильтры из статистических и графических методов. Например, можно провести однофакторный дисперсионный анализ по каждому гену и рассчитать р-значение, а далее отсортировать гены в порядке увеличения р-значения. Тогда в топе окажутся лучшие кандидаты (с меньшим р). Для двух дифференцируемых групп применяют вулканные графики, где помимо р-значения отражены и различия в групповых средних. В результате получают список генов, причём он может быть как полным (например, несколько сотен генов, по которым обнаружены статистически значимые межгрупповые различия, обычно с учётом поправок на множественность сравнений), так и произвольно обрезанным исследователем (например, первые 100 или 200 генов) - встречал и так, и так.
3) Многомерный анализ данных списка пункта (2) для визуализации и/или интерпретации различий. Используют анализ главных компонент, дискриминантный анализ, метод опорных векторов, кластерный анализ с построением тепловых карт и т.д. Проводят интерпретацию обнаруженных генетических паттернов (если получается) и разрабатывают схемы дифференциальной диагностики на основе полученных сведений.
Существуют особенности обработки данных одноканальных и двухканальных микрочипов. Существует много свободного и коммерческого софта для анализа. Читайте современные статьи, чтобы ориентироваться в софте и деталях анализа, т.к. данные в книгах быстро устаревают. Я осваивал подобный анализ на пакетах для среды R. Только у нас флуоресценция изменялась не в зависимости от экспрессии, а в зависимости от силы иммуноферментного связывания (метод иммуносигнатуры). Статью прикрепил, может будет полезна, т.к. все этапы расписаны достаточно подробно.