Байес и проблема множественных сравнений - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Байес и проблема множественных сравнений

Skif Просмотр профиля	24.05.2025 - 11:09 Сообщение #1
Группа: Пользователи Сообщений: 6 Регистрация: 20.05.2025 Пользователь №: 39693	Здравствуйте! Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес? С уважением.

nokh Просмотр профиля	24.05.2025 - 14:01 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Skif @ 24.05.2025 - 13:09) Здравствуйте! Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес? С уважением. По Байесу не подскажу((, сижу на частотной концепции. Пишут, что "In Bayesian statistics, multiple testing correction can be approached through various methods, including adjusting prior probabilities or using hierarchical models". Не пользовался. В рамках частотного подхода тот факт, что матрица сильно разрежена никак не будет влиять на поправку, т.к. эта разреженность уже "унаследована" р-значениями. Т.е. разреженность будет просто означать, что для каких-то пар показателей число пар наблюдений будет больше, а для каких-то пар меньше. Поэтому даже при идентичном значении коэффициента корреляции, объёмы выборок и следовательно р-значения будут отличаться. Поэтому нужно просто сформировать столбец всех парных р-значений и обсчитать. Когда-то давно считал вручную поправки последовательной техникой Бонферрони (метод Данн - Шидака), но это всё консервативно. Последнее время в публикациях чаще используют поправку на ожидаемое число ложных отклонений - False discovery rate (FDR) = поправка Беньямини - Хохберга. Считаю в R или онлайн, например здесь: https://tools.carbocation.com/FDR . Нужно просто вставить колонку р-значений с точкой в качестве разделителя и отправить. Есть онлайновые калькуляторы для других поправок, включая вашу.

Skif Просмотр профиля	24.05.2025 - 18:12 Сообщение #3
Группа: Пользователи Сообщений: 6 Регистрация: 20.05.2025 Пользователь №: 39693	Да, но Ограничения

Skif Просмотр профиля	24.05.2025 - 18:26 Сообщение #4
Группа: Пользователи Сообщений: 6 Регистрация: 20.05.2025 Пользователь №: 39693	Поправка Беньямини - Хохберга хороша, но требует независимости статистик. В случае, когда сравниваемых показателей много, замучаешься "пыль глотать". Особенно с онлайн калькуляторами. Нет ли алгоритма учитывающего количество постоянно изменяющихся парных р-значений.

Игорь Просмотр профиля	30.05.2025 - 09:28 Сообщение #5
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	А нельзя использовать специальные тесты для множественных сравнений и не связываться с поправками? Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Skif Просмотр профиля	30.05.2025 - 13:48 Сообщение #6
Группа: Пользователи Сообщений: 6 Регистрация: 20.05.2025 Пользователь №: 39693	А можно указать что за специальные тесты для множественных сравнений.

Игорь Просмотр профиля	30.05.2025 - 17:18 Сообщение #7
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Skif @ 30.05.2025 - 13:48) А можно указать что за специальные тесты для множественных сравнений. Критерий Хотеллинга (множественный аналог Стьюдента), критерий Джеймса-Сю (множественный аналог Уэлча), критерий Пури-Сена-Тамура (множественный аналог Вилкоксона и его эквивалентов). Сообщение отредактировал Игорь - 30.05.2025 - 17:20 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

ИНО Просмотр профиля	30.05.2025 - 22:55 Сообщение #8
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице?

Игорь Просмотр профиля	31.05.2025 - 08:29 Сообщение #9
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(ИНО @ 30.05.2025 - 23:55) И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице? Согласен с Вами. Выбор критериев богат. Но как-то упустил из виду, что речь о гипотезах по поводу ранговых коэффициентов корреляции - невнимательно прочитал все сообщения темы. Это обусловлено тем, что не встречал в литературе использование поправок для множественных сравнений для такого типа гипотез. В литературе о поправках на множественность сравнений начинают с того, что есть такие гипотезы и т.д., а в примерах приводится Стьюдент. Было бы интересно применить поправки к статистическим параметрам типа корреляции (это упущение в программном обеспечении - во всяком случае в доступных мне источниках об этом не сказано), поэтому огромная просьба указать источники, которыми Вы пользуетесь. Не могу же я сослаться на сообщения с форума ... Нужны авторы, опубликованнные алгоритмы. Второй момент. Просьба пояснить о разреженной матрице. "Разреженная" - это как и как влияет? Выло интересно посмотреть пример, а лучше источник, где такого типа объекты возникают и анализируются. Ну и для комплекта третий момент. Уже предложение к топикстартеру - привести численный пример. Мы посмотрим, посчитаем и сравним. Численный пример - лучший способ пояснить, что именно имеется в виду и правильно ли сделан расчет. Сообщение отредактировал Игорь - 31.05.2025 - 08:56 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

ИНО Просмотр профиля	31.05.2025 - 12:44 Сообщение #10
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Это да, хрен найдёшь в литер утре примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди Продуктивная статистика, мать ее! Понять, что подразумевается под разреженностью матрицы в данном контексте не мудрено. Это пропуски в собранных данных, вероятно носящие случайных характер. Например, представим что снимали одновременно какие-то три показателя (допустим, в динамике): А, Б, В. Но оборудование немножко барахлило. В итоге получили три временных ряда: А: 1, 2, NA, 4, 5, NA, 7 Б: NA, 2, 3, 4, 5, 6, 7 В: 1, 2, 3, 4, 5, 6, 7 (повезло). Задача: посчитать три парных корреляции между этими последовательностями, и понять для какой из них выше значимость. Формально это выполнимо, но практический смысл сомнителен, потому как уровни значимости будут зависишь не только от реальной силы связи, но и от того, где больше барахлил датчик. Если корректировать все по Бонферрони, то еще какая-то видимость непредвзятости сохраняется. А если сортировать по Холму, то очень вероятно что первыми выбывшими станут случаи с большим количеством пропусков. С тем же успехом можно просто выкинуть ущербные ряды заранее и анализировать оставшиеся.

Игорь Просмотр профиля	31.05.2025 - 14:54 Сообщение #11
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	От неудачных наименований возникает непонимание - не "разреженная матрица", а пропущенные значения. В теме видится 2 проблемы, не связанные друг с другом. 1. Проблема пропущенных значений. Решается соответствующими методами. Лучше выделить ее в отдельную тему. 2. Проблема множественных сравнений. Мне кажется, что именно в контексте поставленной задачи проблема немного надуманная. Для таких данных я предложил бы использовать факторный анализ (он может быть реализован как для количественных, так и для иных, а также смешанных признаков). В результате будут выделены несколько факторов. Можно изобразить результаты на графиках. Они очень наглядно покажут, какие параметры группируются в факторном пространстве. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

ИНО Просмотр профиля	31.05.2025 - 15:20 Сообщение #12
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Терминологию мы не будем оспаривать (С). Но медицинский факт в том, что ТС - далеко не первый, кто называет это "разреженной матрицей". Так что я сразу понял, о чем речь, и nokh тоже. Не согласен с тем, что проблему множественных сравнений и проблему пропусков в данном случае можно разделить. ИМХО вся пикантность ситуации в том, что нельзя. Любые ординации тоже будут страдать от пропусков, в том плане что расстояние между одними точками будут являться боле неопределенными оценками близости, чем между другими. И, в отличие от варианта с p-значениями, различие в степени неопределенности будет невозможно понять по диаграмме. Т. е. мы не избавимся от проблемы пропусков, а заметем ее под ковер. Второй нюанс состоит в том, что ТС желает видеть в качестве меры сходства коэффициент не Пиросна, а Спирмена. Если бы не стояла проблема пропусков модно было бы провести метрическое или неметрическое многомерное шкалирование с использованием в качестве расстояния 1 - коэффициент Спирмена. Но все равно это не помогло бы ответь на вопрос, между какими парами последовательностей корреляции статистически значимы. Сообщение отредактировал ИНО - 31.05.2025 - 15:23

Игорь Просмотр профиля	31.05.2025 - 15:57 Сообщение #13
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(ИНО @ 31.05.2025 - 15:20) коэффициент не Пиросна, а Спирмена В предыдущей реплике я предельно ясно выразился. Цитирую: "факторный анализ ... может быть реализован как для количественных, так и для иных, а также смешанных признаков". Это предполагает, что коэффицент Спирмена допустим в факторном анализе, как и любые другие меры типа корреляции. Впрочем, это дело автора работы - использовать тот или иной метод. Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал. Сообщение отредактировал Игорь - 31.05.2025 - 15:58 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

ИНО Просмотр профиля	31.05.2025 - 21:45 Сообщение #14
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Куда предлагаете тыкать мышкой? Не вижу ни единой ссылки в Ваших постах в данной теме. Факторный анализ, насколько я помню, - это расширение анализа главных компонент, а последний построен, согласно одной из трактовок, на корреляциях Пирсона. Как туда Спирмена ввернуть, плохо представляю. Но я вообще почти не знаком с этим методам, так что потрудитесь разъяснить, куда конкретно мышкой тыкать.

Skif Просмотр профиля	3.06.2025 - 00:56 Сообщение #15
Группа: Пользователи Сообщений: 6 Регистрация: 20.05.2025 Пользователь №: 39693	Мне кажется, что не стоит уходить в обсуждение терминологии (см. https://ru.wikipedia.org/wiki/Разреженная_матрица). И в попытке перейти к конкретному примеру "Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал.", как предлагает "Игорь". Вопрос, на мой взгляд, глубже. Правильно заметил ИНО. "Это да, хрен найдёшь в литературе примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди. Продуктивная статистика, мать ее!". Проблема формулируется просто: Посчитать парные непараметрические корреляции, при достаточно большом количестве входных параметров, которые содержат пропуски. Но природа их такова (в моём случае): ПЦР реакции, где часть значений заведомо опускается из-за не значимости клинической(?). При изучении микробиома человека (в частности женщины) методами параллельного секвенирования (секвенирование нового поколения, NGS) гена16S rRNA и биоинформационный анализ полученных данных с классификацией ДНК по таксономическим единицам, где часть данных просто не обнаруживается существующими методами NGS. (сотни параметров с пропущенными данными). Таким образом природа "дырок" в данных носит не случайный характер, но в некотором смысле квазислучайный, а также преднамеренный (не хотелось бы уходить в обсуждение типов пропусков). При подсчёте корреляций надо учесть множественность сравнений. ВСЁ ОЧЕНЬ ПРОСТО!

« Предыдущая тема · Медицинская статистика · Следующая тема »

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2026 IPS, Inc.