Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Harmonic mean p-value (HMP) как среднее для значений скорректированных p-value
Camel1000
сообщение 18.07.2023 - 14:07
Сообщение #1





Группа: Пользователи
Сообщений: 17
Регистрация: 3.02.2013
Пользователь №: 24599



Добрый день, прошу помощи коллективного разума.

При изучении дифференциальной экспрессии генов (то есть насколько отличается экспрессия какого-либо гена в разах в опыте и контроле) используется несколько методов расчета. Все они так или иначе используют корректировку значения p для множественных сравнений (FDR, False Discovery Rate). Часто для максимальной "жесткости" списка отобранных генов используют сразу несколько методик расчета. Все они выдают свое значение FDR для конкретного гена, причем значения эти обычно довольно сильно разные.
Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p?

Заранее спасибо,
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 19.07.2023 - 08:11
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Camel1000 @ 18.07.2023 - 14:07) *
Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно.
Думаю, что нет. Это методика для множественных сравнений эмпирических данных, а не статистических тестов. Нужно разбираться, почему результаты различаются - смотреть предпосылки применения методов и корректность их реализации. Эквивалентные методы статистической обработки не должны давать сильно различающиеся результаты. Для начала посмотреть анализ Бланда-Альтмана.
Цитата(Camel1000 @ 18.07.2023 - 14:07) *
Какие еще есть методы оценки комбинированного значения p?
Начиная с данной Вами ссылки, можно "раскрутить" много источников информации по корректировке p-значения для множественных сравнений.

Сообщение отредактировал Игорь - 20.07.2023 - 08:26


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.07.2023 - 17:54
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Camel1000 @ 18.07.2023 - 16:07) *
...Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p?

К сожалению похоже всё в эту сторону и движется: методов и софта уже столько, что никто не хочет разбираться неделями в том, а какой же подход лучше. Хочется "взять всё да и поделить". Хотя тоже думаю, что это некорректно: по сути в основе разных методов вычисления р лежат разные модели. Поэтому нужно искать лучшую модель и опираться на неё, но это зависит от целей работы. А иначе это получается типа как если мы при сравнении двух выборок будем использовать разные модели (варианты t-критерия и с десяток непараметрических тестов начиная с Манна-Уитни), получим дюжину р и усредним их гармонически для нахождения самого "правильного" или "окончательного" р-значения. Каждая модель в отдельности - конкретная модель, для которой хорошо известно что она оценивает, а вот среднее р-значений ничего оценивать не будет. Я бы пробовал так:

1) Если цель - выйти на топ нескольких самых сильных для диф. диагностики генов, для того чтобы потом разбираться в механизмах за что они отвечают, то можно усреднять не р-значения разных моделей, а ранги. Средние ранги для зависимых выборок используются, поэтому проблем с теорией не будет, а будет типа оценки согласия экспертов, где каждая модель в отдельности выступает в качестве эксперта. Т.е. нужно ранжировать гены в порядке увеличения р-значения по каждой модели, а далее найти средние ранги по всем моделям. Получится рейтинг убывающих по важности генов, более-менее инвариантный относительно используемой модели. Можно построить график осыпи и посмотреть: может естественным образом выделится несколько лидеров, а остальные попадут в осыпь.

2) Если цель - диф. диагностика на основе многомерного анализа, то с полученным списком тоже можно работать и далее: проводить многомерный анализ (PCA, SVM и т.п.). Когда я смотрел подобные статьи, то насколько помню авторы не сильно парились на тем, чтобы брать в многомерный анализ гены исключительно на основе статистической значимости: были такие, что брали просто круглое число генов, скажем лучшие 200 или 500.

3). По подходам 1-2 не построить вулканный график, хотя он помимо эстетической красоты очень эффективен для выбора нескольких самых лучших маркёров на основании как статистической значимости различий, так и величины эффекта. Поэтому если бы мне хотелось обязательно дать в работу такой график, то я бы выбрал 2 модели, включая ту, которая сейчас в моде. В биоинформатике всё очень быстро меняется, поэтому дал бы такую + самую обычную классику типа t-критерия для неравных дисперсий без поправок на множественность. В принципе топ генов всё равно должен быть похож.

PS А вообще у меня сложилось мнение, что на результаты куда сильнее влияет препроцессинг, а не тонкости расчёта р-значений.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 19.07.2023 - 22:30
Сообщение #4





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



FDR и HMP - два альтернативных метода контроля ошибки первого рода при множественных сравнениях. Использовать второе после первого - лютый зашквар. Вы б сначала определились с допущениями разных вариантов FDR, и выбрали тот, которому ваша вероятностная модель порождения данных соответствует лучше (вполне вероятно, что некоторые из выданных прогой "скорректирвоанных p" просто не подходят для Вашего случая). Или использовали это ваше HMP без FDR (правда, я не знаю как именно оно работает и для каких случаев лучше подходит - не читал, но одобряю smile.gif )

Но на самом деле идея устреднить p в подобном случае - это нечто новое для меня (и почти что похвальное), обычно контингент аналитиков такого рода (не считающих нужным утруждаться доскональным копанием в вопросах допущений используемых ими критериев и соответствия им своих экспериментальных данных) моментально хватает самое меленькое (или, в случае априорного желания, нулевую гипотезу принять, самое большое), и никогда и никому на свете не признается, что видел какие-то еще smile.gif Примечание: не считать рекомендацией к действиям!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему