![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 3.02.2013 Пользователь №: 24599 ![]() |
Добрый день, прошу помощи коллективного разума.
При изучении дифференциальной экспрессии генов (то есть насколько отличается экспрессия какого-либо гена в разах в опыте и контроле) используется несколько методов расчета. Все они так или иначе используют корректировку значения p для множественных сравнений (FDR, False Discovery Rate). Часто для максимальной "жесткости" списка отобранных генов используют сразу несколько методик расчета. Все они выдают свое значение FDR для конкретного гена, причем значения эти обычно довольно сильно разные. Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p? Заранее спасибо, Андрей |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
...Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p? К сожалению похоже всё в эту сторону и движется: методов и софта уже столько, что никто не хочет разбираться неделями в том, а какой же подход лучше. Хочется "взять всё да и поделить". Хотя тоже думаю, что это некорректно: по сути в основе разных методов вычисления р лежат разные модели. Поэтому нужно искать лучшую модель и опираться на неё, но это зависит от целей работы. А иначе это получается типа как если мы при сравнении двух выборок будем использовать разные модели (варианты t-критерия и с десяток непараметрических тестов начиная с Манна-Уитни), получим дюжину р и усредним их гармонически для нахождения самого "правильного" или "окончательного" р-значения. Каждая модель в отдельности - конкретная модель, для которой хорошо известно что она оценивает, а вот среднее р-значений ничего оценивать не будет. Я бы пробовал так: 1) Если цель - выйти на топ нескольких самых сильных для диф. диагностики генов, для того чтобы потом разбираться в механизмах за что они отвечают, то можно усреднять не р-значения разных моделей, а ранги. Средние ранги для зависимых выборок используются, поэтому проблем с теорией не будет, а будет типа оценки согласия экспертов, где каждая модель в отдельности выступает в качестве эксперта. Т.е. нужно ранжировать гены в порядке увеличения р-значения по каждой модели, а далее найти средние ранги по всем моделям. Получится рейтинг убывающих по важности генов, более-менее инвариантный относительно используемой модели. Можно построить график осыпи и посмотреть: может естественным образом выделится несколько лидеров, а остальные попадут в осыпь. 2) Если цель - диф. диагностика на основе многомерного анализа, то с полученным списком тоже можно работать и далее: проводить многомерный анализ (PCA, SVM и т.п.). Когда я смотрел подобные статьи, то насколько помню авторы не сильно парились на тем, чтобы брать в многомерный анализ гены исключительно на основе статистической значимости: были такие, что брали просто круглое число генов, скажем лучшие 200 или 500. 3). По подходам 1-2 не построить вулканный график, хотя он помимо эстетической красоты очень эффективен для выбора нескольких самых лучших маркёров на основании как статистической значимости различий, так и величины эффекта. Поэтому если бы мне хотелось обязательно дать в работу такой график, то я бы выбрал 2 модели, включая ту, которая сейчас в моде. В биоинформатике всё очень быстро меняется, поэтому дал бы такую + самую обычную классику типа t-критерия для неравных дисперсий без поправок на множественность. В принципе топ генов всё равно должен быть похож. PS А вообще у меня сложилось мнение, что на результаты куда сильнее влияет препроцессинг, а не тонкости расчёта р-значений. |
|
![]() |
![]() |
![]() ![]() |