Harmonic mean p-value (HMP) как среднее для значений скорректированных p-value - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Harmonic mean p-value (HMP) как среднее для значений скорректированных p-value

Camel1000 Просмотр профиля	18.07.2023 - 14:07 Сообщение #1
Группа: Пользователи Сообщений: 17 Регистрация: 3.02.2013 Пользователь №: 24599	Добрый день, прошу помощи коллективного разума. При изучении дифференциальной экспрессии генов (то есть насколько отличается экспрессия какого-либо гена в разах в опыте и контроле) используется несколько методов расчета. Все они так или иначе используют корректировку значения p для множественных сравнений (FDR, False Discovery Rate). Часто для максимальной "жесткости" списка отобранных генов используют сразу несколько методик расчета. Все они выдают свое значение FDR для конкретного гена, причем значения эти обычно довольно сильно разные. Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p? Заранее спасибо, Андрей

Игорь Просмотр профиля	19.07.2023 - 08:11 Сообщение #2
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Camel1000 @ 18.07.2023 - 14:07) Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Думаю, что нет. Это методика для множественных сравнений эмпирических данных, а не статистических тестов. Нужно разбираться, почему результаты различаются - смотреть предпосылки применения методов и корректность их реализации. Эквивалентные методы статистической обработки не должны давать сильно различающиеся результаты. Для начала посмотреть анализ Бланда-Альтмана. Цитата(Camel1000 @ 18.07.2023 - 14:07) Какие еще есть методы оценки комбинированного значения p? Начиная с данной Вами ссылки, можно "раскрутить" много источников информации по корректировке p-значения для множественных сравнений. Сообщение отредактировал Игорь - 20.07.2023 - 08:26 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	19.07.2023 - 17:54 Сообщение #3
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Camel1000 @ 18.07.2023 - 16:07) ...Вопрос: можно ли в такой ситуации для расчета объединенного среднего занчения FDR использовать расчет гармонического среднего значений АВК (https://en.wikipedia.org/wiki/Harmonic_mean_p-value), насколько это корректно. Какие еще есть методы оценки комбинированного значения p? К сожалению похоже всё в эту сторону и движется: методов и софта уже столько, что никто не хочет разбираться неделями в том, а какой же подход лучше. Хочется "взять всё да и поделить". Хотя тоже думаю, что это некорректно: по сути в основе разных методов вычисления р лежат разные модели. Поэтому нужно искать лучшую модель и опираться на неё, но это зависит от целей работы. А иначе это получается типа как если мы при сравнении двух выборок будем использовать разные модели (варианты t-критерия и с десяток непараметрических тестов начиная с Манна-Уитни), получим дюжину р и усредним их гармонически для нахождения самого "правильного" или "окончательного" р-значения. Каждая модель в отдельности - конкретная модель, для которой хорошо известно что она оценивает, а вот среднее р-значений ничего оценивать не будет. Я бы пробовал так: 1) Если цель - выйти на топ нескольких самых сильных для диф. диагностики генов, для того чтобы потом разбираться в механизмах за что они отвечают, то можно усреднять не р-значения разных моделей, а ранги. Средние ранги для зависимых выборок используются, поэтому проблем с теорией не будет, а будет типа оценки согласия экспертов, где каждая модель в отдельности выступает в качестве эксперта. Т.е. нужно ранжировать гены в порядке увеличения р-значения по каждой модели, а далее найти средние ранги по всем моделям. Получится рейтинг убывающих по важности генов, более-менее инвариантный относительно используемой модели. Можно построить график осыпи и посмотреть: может естественным образом выделится несколько лидеров, а остальные попадут в осыпь. 2) Если цель - диф. диагностика на основе многомерного анализа, то с полученным списком тоже можно работать и далее: проводить многомерный анализ (PCA, SVM и т.п.). Когда я смотрел подобные статьи, то насколько помню авторы не сильно парились на тем, чтобы брать в многомерный анализ гены исключительно на основе статистической значимости: были такие, что брали просто круглое число генов, скажем лучшие 200 или 500. 3). По подходам 1-2 не построить вулканный график, хотя он помимо эстетической красоты очень эффективен для выбора нескольких самых лучших маркёров на основании как статистической значимости различий, так и величины эффекта. Поэтому если бы мне хотелось обязательно дать в работу такой график, то я бы выбрал 2 модели, включая ту, которая сейчас в моде. В биоинформатике всё очень быстро меняется, поэтому дал бы такую + самую обычную классику типа t-критерия для неравных дисперсий без поправок на множественность. В принципе топ генов всё равно должен быть похож. PS А вообще у меня сложилось мнение, что на результаты куда сильнее влияет препроцессинг, а не тонкости расчёта р-значений.

ИНО Просмотр профиля	19.07.2023 - 22:30 Сообщение #4
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	FDR и HMP - два альтернативных метода контроля ошибки первого рода при множественных сравнениях. Использовать второе после первого - лютый зашквар. Вы б сначала определились с допущениями разных вариантов FDR, и выбрали тот, которому ваша вероятностная модель порождения данных соответствует лучше (вполне вероятно, что некоторые из выданных прогой "скорректирвоанных p" просто не подходят для Вашего случая). Или использовали это ваше HMP без FDR (правда, я не знаю как именно оно работает и для каких случаев лучше подходит - не читал, но одобряю ) Но на самом деле идея устреднить p в подобном случае - это нечто новое для меня (и почти что похвальное), обычно контингент аналитиков такого рода (не считающих нужным утруждаться доскональным копанием в вопросах допущений используемых ими критериев и соответствия им своих экспериментальных данных) моментально хватает самое меленькое (или, в случае априорного желания, нулевую гипотезу принять, самое большое), и никогда и никому на свете не признается, что видел какие-то еще Примечание: не считать рекомендацией к действиям!

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.