Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Анализ большого числа признаков

Автор: Camel1000 17.09.2019 - 16:41

Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!

Автор: leo_biostat 17.09.2019 - 16:51

Цитата(Camel1000 @ 17.09.2019 - 16:41) *
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!


hi.gif! Если считаете цель своего исследования очень важной, то можете выслать в наш НЦ БИОСТАТИСТИКА свою базу данных и её описанием,
и мы оперативно и бесплатно сделаем Вам статистический анализ этой базы. И объясним Вам полученные результаты.

Автор: Camel1000 17.09.2019 - 16:56

Цитата(leo_biostat @ 17.09.2019 - 16:51) *
hi.gif! Если считаете цель своего исследования очень важной, то можете выслать в наш НЦ БИОСТАТИСТИКА свою базу данных и её описанием,
и мы оперативно и бесплатно сделаем Вам статистический анализ этой базы. И объясним Вам полученные результаты.

Спасибо, но данные не целиком мои, а большой группы, в которой не все согласны на это. Хотелось бы самому разобраться. Достаточно просто примерный путь указать, что здесь будет осмысленнее.

Автор: nokh 17.09.2019 - 21:57

Цитата(Camel1000 @ 17.09.2019 - 18:41) *
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!

Задача не столько из области биостатистики, сколько биоинформатики, где такие исследования уже рутина. Алгоритм в общих чертах такой.

1) Препроцессинг. Обычно такие данные получают в ходе исследований на микрочипах (microarray). При этом результаты оценки флуоресценции на разных чипах могут заметно отличаться в результате небиологических причин. Поэтому сначала проводят так называемую нормализацию результатов измерений для устранения этой технической изменчивости. Способов много, один из лучших - квантильная нормализация, но всё время появляется что-то новее и лучше. Далее данные преобразуют, чаще всего используют логарифмирование по основанию 2. Наконец, если для некоторых образцов имелись результаты нескольких измерений - их усредняют (среднее или медиана).

2) Отбор показателей (генов) для дифференциальной диагностики. Здесь используются разные фильтры из статистических и графических методов. Например, можно провести однофакторный дисперсионный анализ по каждому гену и рассчитать р-значение, а далее отсортировать гены в порядке увеличения р-значения. Тогда в топе окажутся лучшие кандидаты (с меньшим р). Для двух дифференцируемых групп применяют вулканные графики, где помимо р-значения отражены и различия в групповых средних. В результате получают список генов, причём он может быть как полным (например, несколько сотен генов, по которым обнаружены статистически значимые межгрупповые различия, обычно с учётом поправок на множественность сравнений), так и произвольно обрезанным исследователем (например, первые 100 или 200 генов) - встречал и так, и так.

3) Многомерный анализ данных списка пункта (2) для визуализации и/или интерпретации различий. Используют анализ главных компонент, дискриминантный анализ, метод опорных векторов, кластерный анализ с построением тепловых карт и т.д. Проводят интерпретацию обнаруженных генетических паттернов (если получается) и разрабатывают схемы дифференциальной диагностики на основе полученных сведений.

Существуют особенности обработки данных одноканальных и двухканальных микрочипов. Существует много свободного и коммерческого софта для анализа. Читайте современные статьи, чтобы ориентироваться в софте и деталях анализа, т.к. данные в книгах быстро устаревают. Я осваивал подобный анализ на пакетах для среды R. Только у нас флуоресценция изменялась не в зависимости от экспрессии, а в зависимости от силы иммуноферментного связывания (метод иммуносигнатуры). Статью прикрепил, может будет полезна, т.к. все этапы расписаны достаточно подробно.

 Филиппова_и_др._Метод_иммуносигнатуры_в_диагностике_аутистов_2019.pdf ( 599,64 килобайт ) : 233
 

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)