Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Байес и проблема множественных сравнений
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Skif
Здравствуйте!
Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес?
С уважением.
nokh
Цитата(Skif @ 24.05.2025 - 13:09) *
Здравствуйте!
Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес?
С уважением.

По Байесу не подскажу((, сижу на частотной концепции. Пишут, что "In Bayesian statistics, multiple testing correction can be approached through various methods, including adjusting prior probabilities or using hierarchical models". Не пользовался.

В рамках частотного подхода тот факт, что матрица сильно разрежена никак не будет влиять на поправку, т.к. эта разреженность уже "унаследована" р-значениями. Т.е. разреженность будет просто означать, что для каких-то пар показателей число пар наблюдений будет больше, а для каких-то пар меньше. Поэтому даже при идентичном значении коэффициента корреляции, объёмы выборок и следовательно р-значения будут отличаться. Поэтому нужно просто сформировать столбец всех парных р-значений и обсчитать. Когда-то давно считал вручную поправки последовательной техникой Бонферрони (метод Данн - Шидака), но это всё консервативно. Последнее время в публикациях чаще используют поправку на ожидаемое число ложных отклонений - False discovery rate (FDR) = поправка Беньямини - Хохберга. Считаю в R или онлайн, например здесь: https://tools.carbocation.com/FDR . Нужно просто вставить колонку р-значений с точкой в качестве разделителя и отправить. Есть онлайновые калькуляторы для других поправок, включая вашу.

Skif
Да, но
Ограничения
Skif
Поправка Беньямини - Хохберга хороша, но требует независимости статистик. В случае, когда сравниваемых показателей много, замучаешься "пыль глотать". Особенно с онлайн калькуляторами. Нет ли алгоритма учитывающего количество постоянно изменяющихся парных р-значений.
Игорь
А нельзя использовать специальные тесты для множественных сравнений и не связываться с поправками?
Skif
А можно указать что за специальные тесты для множественных сравнений.
Игорь
Цитата(Skif @ 30.05.2025 - 13:48) *
А можно указать что за специальные тесты для множественных сравнений.
Критерий Хотеллинга (множественный аналог Стьюдента), критерий Джеймса-Сю (множественный аналог Уэлча), критерий Пури-Сена-Тамура (множественный аналог Вилкоксона и его эквивалентов).
ИНО
И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице?
Игорь
Цитата(ИНО @ 30.05.2025 - 23:55) *
И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице?

Согласен с Вами. Выбор критериев богат. Но как-то упустил из виду, что речь о гипотезах по поводу ранговых коэффициентов корреляции - невнимательно прочитал все сообщения темы. Это обусловлено тем, что не встречал в литературе использование поправок для множественных сравнений для такого типа гипотез. В литературе о поправках на множественность сравнений начинают с того, что есть такие гипотезы и т.д., а в примерах приводится Стьюдент. Было бы интересно применить поправки к статистическим параметрам типа корреляции (это упущение в программном обеспечении - во всяком случае в доступных мне источниках об этом не сказано), поэтому огромная просьба указать источники, которыми Вы пользуетесь. Не могу же я сослаться на сообщения с форума ... Нужны авторы, опубликованнные алгоритмы.
Второй момент. Просьба пояснить о разреженной матрице. "Разреженная" - это как и как влияет? Выло интересно посмотреть пример, а лучше источник, где такого типа объекты возникают и анализируются.
Ну и для комплекта третий момент. Уже предложение к топикстартеру - привести численный пример. Мы посмотрим, посчитаем и сравним. Численный пример - лучший способ пояснить, что именно имеется в виду и правильно ли сделан расчет.
ИНО
Это да, хрен найдёшь в литер утре примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди smile.gif Продуктивная статистика, мать ее!

Понять, что подразумевается под разреженностью матрицы в данном контексте не мудрено. Это пропуски в собранных данных, вероятно носящие случайных характер. Например, представим что снимали одновременно какие-то три показателя (допустим, в динамике): А, Б, В. Но оборудование немножко барахлило. В итоге получили три временных ряда:

А: 1, 2, NA, 4, 5, NA, 7
Б: NA, 2, 3, 4, 5, 6, 7
В: 1, 2, 3, 4, 5, 6, 7 (повезло).

Задача: посчитать три парных корреляции между этими последовательностями, и понять для какой из них выше значимость. Формально это выполнимо, но практический смысл сомнителен, потому как уровни значимости будут зависишь не только от реальной силы связи, но и от того, где больше барахлил датчик. Если корректировать все по Бонферрони, то еще какая-то видимость непредвзятости сохраняется. А если сортировать по Холму, то очень вероятно что первыми выбывшими станут случаи с большим количеством пропусков. С тем же успехом можно просто выкинуть ущербные ряды заранее и анализировать оставшиеся.
Игорь
От неудачных наименований возникает непонимание - не "разреженная матрица", а пропущенные значения. В теме видится 2 проблемы, не связанные друг с другом.
1. Проблема пропущенных значений. Решается соответствующими методами. Лучше выделить ее в отдельную тему.
2. Проблема множественных сравнений. Мне кажется, что именно в контексте поставленной задачи проблема немного надуманная. Для таких данных я предложил бы использовать факторный анализ (он может быть реализован как для количественных, так и для иных, а также смешанных признаков). В результате будут выделены несколько факторов. Можно изобразить результаты на графиках. Они очень наглядно покажут, какие параметры группируются в факторном пространстве.
ИНО
Терминологию мы не будем оспаривать (С). Но медицинский факт в том, что ТС - далеко не первый, кто называет это "разреженной матрицей". Так что я сразу понял, о чем речь, и nokh тоже.

Не согласен с тем, что проблему множественных сравнений и проблему пропусков в данном случае можно разделить. ИМХО вся пикантность ситуации в том, что нельзя.

Любые ординации тоже будут страдать от пропусков, в том плане что расстояние между одними точками будут являться боле неопределенными оценками близости, чем между другими. И, в отличие от варианта с p-значениями, различие в степени неопределенности будет невозможно понять по диаграмме. Т. е. мы не избавимся от проблемы пропусков, а заметем ее под ковер. Второй нюанс состоит в том, что ТС желает видеть в качестве меры сходства коэффициент не Пиросна, а Спирмена. Если бы не стояла проблема пропусков модно было бы провести метрическое или неметрическое многомерное шкалирование с использованием в качестве расстояния 1 - коэффициент Спирмена. Но все равно это не помогло бы ответь на вопрос, между какими парами последовательностей корреляции статистически значимы.
Игорь
Цитата(ИНО @ 31.05.2025 - 15:20) *
коэффициент не Пиросна, а Спирмена
В предыдущей реплике я предельно ясно выразился. Цитирую: "факторный анализ ... может быть реализован как для количественных, так и для иных, а также смешанных признаков". Это предполагает, что коэффицент Спирмена допустим в факторном анализе, как и любые другие меры типа корреляции. Впрочем, это дело автора работы - использовать тот или иной метод. Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал.
ИНО
Куда предлагаете тыкать мышкой? Не вижу ни единой ссылки в Ваших постах в данной теме.

Факторный анализ, насколько я помню, - это расширение анализа главных компонент, а последний построен, согласно одной из трактовок, на корреляциях Пирсона. Как туда Спирмена ввернуть, плохо представляю. Но я вообще почти не знаком с этим методам, так что потрудитесь разъяснить, куда конкретно мышкой тыкать.
Skif
Мне кажется, что не стоит уходить в обсуждение терминологии (см. https://ru.wikipedia.org/wiki/Разреженная_матрица). И в попытке перейти к конкретному примеру "Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал.", как предлагает "Игорь". Вопрос, на мой взгляд, глубже. Правильно заметил ИНО. "Это да, хрен найдёшь в литературе примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди. Продуктивная статистика, мать ее!".
Проблема формулируется просто:
Посчитать парные непараметрические корреляции, при достаточно большом количестве входных параметров, которые содержат пропуски.
Но природа их такова (в моём случае): ПЦР реакции, где часть значений заведомо опускается из-за не значимости клинической(?).
При изучении микробиома человека (в частности женщины) методами параллельного секвенирования (секвенирование нового поколения, NGS) гена16S rRNA и
биоинформационный анализ полученных данных с классификацией ДНК по таксономическим единицам, где часть данных просто не обнаруживается существующими методами
NGS. (сотни параметров с пропущенными данными).
Таким образом природа "дырок" в данных носит не случайный характер, но в некотором смысле квазислучайный, а также преднамеренный (не хотелось бы уходить в обсуждение типов пропусков).
При подсчёте корреляций надо учесть множественность сравнений.
ВСЁ ОЧЕНЬ ПРОСТО!
Skif
"Уже предложение к топикстартеру - привести численный пример. Мы посмотрим, посчитаем и сравним. Численный пример - лучший способ пояснить, что именно имеется в виду и правильно ли сделан расчет."
Честно говоря, я не убеждён в этом. Просто опасаюсь ухода дискуссии не в ту сторону.
ИНО
Цитата(Skif @ 3.06.2025 - 00:56) *
Таким образом природа "дырок" в данных носит не случайный характер, но в некотором смысле квазислучайный, а также преднамеренный (не хотелось бы уходить в обсуждение типов пропусков).
При подсчёте корреляций надо учесть множественность сравнений.
ВСЁ ОЧЕНЬ ПРОСТО!

В таком случае (неслучайность пропусков) наоборот ВСЕ ОЧЕНЬ НЕПРОСТО. Вроде когда-то читал о чем-то подобном но мимоходом, т. к. у меня подобных данных и быть не может. Вообще, математическая обработка сиквенсов, часто называемая биоинформатикой, - отдельная область со своими инновациями, спрашивать лучше у тех, кто в ней работает. Вроде, здесь таковых нет. Но замечу что, например, в молекулярной филогении результаты по достоверности так себе - у разных авторов, использующих разные методы и разные наборы данных, получаются очень разные филогенетические деревья для одних и тех же организмов. Похоже, данная наука до сих пор сильно страдает детскими болезнями. Во всяком случае кавалерийским наскоком тут точно не разобраться.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.