Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Байес и проблема множественных сравнений
Skif
сообщение 24.05.2025 - 11:09
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 20.05.2025
Пользователь №: 39693



Здравствуйте!
Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес?
С уважением.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.05.2025 - 14:01
Сообщение #2





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Skif @ 24.05.2025 - 13:09) *
Здравствуйте!
Как рассчитывается поправка Холма-Бонферрони (сама формула мне известна и как бы понятна) при расчёте парных корреляций по Спирмену в одной группе. Матрица исходных данных достаточно разреженная. И, как следствие, при нескольких группах ( > 2 ) как посчитать поправку. Все прочитанные сообщения в разных темах допускают неоднозначные толкования. А что говорит Байес?
С уважением.

По Байесу не подскажу((, сижу на частотной концепции. Пишут, что "In Bayesian statistics, multiple testing correction can be approached through various methods, including adjusting prior probabilities or using hierarchical models". Не пользовался.

В рамках частотного подхода тот факт, что матрица сильно разрежена никак не будет влиять на поправку, т.к. эта разреженность уже "унаследована" р-значениями. Т.е. разреженность будет просто означать, что для каких-то пар показателей число пар наблюдений будет больше, а для каких-то пар меньше. Поэтому даже при идентичном значении коэффициента корреляции, объёмы выборок и следовательно р-значения будут отличаться. Поэтому нужно просто сформировать столбец всех парных р-значений и обсчитать. Когда-то давно считал вручную поправки последовательной техникой Бонферрони (метод Данн - Шидака), но это всё консервативно. Последнее время в публикациях чаще используют поправку на ожидаемое число ложных отклонений - False discovery rate (FDR) = поправка Беньямини - Хохберга. Считаю в R или онлайн, например здесь: https://tools.carbocation.com/FDR . Нужно просто вставить колонку р-значений с точкой в качестве разделителя и отправить. Есть онлайновые калькуляторы для других поправок, включая вашу.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Skif
сообщение 24.05.2025 - 18:12
Сообщение #3





Группа: Пользователи
Сообщений: 6
Регистрация: 20.05.2025
Пользователь №: 39693



Да, но
Ограничения
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Skif
сообщение 24.05.2025 - 18:26
Сообщение #4





Группа: Пользователи
Сообщений: 6
Регистрация: 20.05.2025
Пользователь №: 39693



Поправка Беньямини - Хохберга хороша, но требует независимости статистик. В случае, когда сравниваемых показателей много, замучаешься "пыль глотать". Особенно с онлайн калькуляторами. Нет ли алгоритма учитывающего количество постоянно изменяющихся парных р-значений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 30.05.2025 - 09:28
Сообщение #5





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



А нельзя использовать специальные тесты для множественных сравнений и не связываться с поправками?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Skif
сообщение 30.05.2025 - 13:48
Сообщение #6





Группа: Пользователи
Сообщений: 6
Регистрация: 20.05.2025
Пользователь №: 39693



А можно указать что за специальные тесты для множественных сравнений.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 30.05.2025 - 17:18
Сообщение #7





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Skif @ 30.05.2025 - 13:48) *
А можно указать что за специальные тесты для множественных сравнений.
Критерий Хотеллинга (множественный аналог Стьюдента), критерий Джеймса-Сю (множественный аналог Уэлча), критерий Пури-Сена-Тамура (множественный аналог Вилкоксона и его эквивалентов).

Сообщение отредактировал Игорь - 30.05.2025 - 17:20


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 30.05.2025 - 22:55
Сообщение #8





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 31.05.2025 - 08:29
Сообщение #9





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(ИНО @ 30.05.2025 - 23:55) *
И как это богатство критериев поможет решение конкретной задачи ТС - проверки значимости парных коэффициентов корреляции в разреженной матрице?

Согласен с Вами. Выбор критериев богат. Но как-то упустил из виду, что речь о гипотезах по поводу ранговых коэффициентов корреляции - невнимательно прочитал все сообщения темы. Это обусловлено тем, что не встречал в литературе использование поправок для множественных сравнений для такого типа гипотез. В литературе о поправках на множественность сравнений начинают с того, что есть такие гипотезы и т.д., а в примерах приводится Стьюдент. Было бы интересно применить поправки к статистическим параметрам типа корреляции (это упущение в программном обеспечении - во всяком случае в доступных мне источниках об этом не сказано), поэтому огромная просьба указать источники, которыми Вы пользуетесь. Не могу же я сослаться на сообщения с форума ... Нужны авторы, опубликованнные алгоритмы.
Второй момент. Просьба пояснить о разреженной матрице. "Разреженная" - это как и как влияет? Выло интересно посмотреть пример, а лучше источник, где такого типа объекты возникают и анализируются.
Ну и для комплекта третий момент. Уже предложение к топикстартеру - привести численный пример. Мы посмотрим, посчитаем и сравним. Численный пример - лучший способ пояснить, что именно имеется в виду и правильно ли сделан расчет.

Сообщение отредактировал Игорь - 31.05.2025 - 08:56


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 31.05.2025 - 12:44
Сообщение #10





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Это да, хрен найдёшь в литер утре примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди smile.gif Продуктивная статистика, мать ее!

Понять, что подразумевается под разреженностью матрицы в данном контексте не мудрено. Это пропуски в собранных данных, вероятно носящие случайных характер. Например, представим что снимали одновременно какие-то три показателя (допустим, в динамике): А, Б, В. Но оборудование немножко барахлило. В итоге получили три временных ряда:

А: 1, 2, NA, 4, 5, NA, 7
Б: NA, 2, 3, 4, 5, 6, 7
В: 1, 2, 3, 4, 5, 6, 7 (повезло).

Задача: посчитать три парных корреляции между этими последовательностями, и понять для какой из них выше значимость. Формально это выполнимо, но практический смысл сомнителен, потому как уровни значимости будут зависишь не только от реальной силы связи, но и от того, где больше барахлил датчик. Если корректировать все по Бонферрони, то еще какая-то видимость непредвзятости сохраняется. А если сортировать по Холму, то очень вероятно что первыми выбывшими станут случаи с большим количеством пропусков. С тем же успехом можно просто выкинуть ущербные ряды заранее и анализировать оставшиеся.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 31.05.2025 - 14:54
Сообщение #11





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



От неудачных наименований возникает непонимание - не "разреженная матрица", а пропущенные значения. В теме видится 2 проблемы, не связанные друг с другом.
1. Проблема пропущенных значений. Решается соответствующими методами. Лучше выделить ее в отдельную тему.
2. Проблема множественных сравнений. Мне кажется, что именно в контексте поставленной задачи проблема немного надуманная. Для таких данных я предложил бы использовать факторный анализ (он может быть реализован как для количественных, так и для иных, а также смешанных признаков). В результате будут выделены несколько факторов. Можно изобразить результаты на графиках. Они очень наглядно покажут, какие параметры группируются в факторном пространстве.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 31.05.2025 - 15:20
Сообщение #12





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Терминологию мы не будем оспаривать (С). Но медицинский факт в том, что ТС - далеко не первый, кто называет это "разреженной матрицей". Так что я сразу понял, о чем речь, и nokh тоже.

Не согласен с тем, что проблему множественных сравнений и проблему пропусков в данном случае можно разделить. ИМХО вся пикантность ситуации в том, что нельзя.

Любые ординации тоже будут страдать от пропусков, в том плане что расстояние между одними точками будут являться боле неопределенными оценками близости, чем между другими. И, в отличие от варианта с p-значениями, различие в степени неопределенности будет невозможно понять по диаграмме. Т. е. мы не избавимся от проблемы пропусков, а заметем ее под ковер. Второй нюанс состоит в том, что ТС желает видеть в качестве меры сходства коэффициент не Пиросна, а Спирмена. Если бы не стояла проблема пропусков модно было бы провести метрическое или неметрическое многомерное шкалирование с использованием в качестве расстояния 1 - коэффициент Спирмена. Но все равно это не помогло бы ответь на вопрос, между какими парами последовательностей корреляции статистически значимы.

Сообщение отредактировал ИНО - 31.05.2025 - 15:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 31.05.2025 - 15:57
Сообщение #13





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(ИНО @ 31.05.2025 - 15:20) *
коэффициент не Пиросна, а Спирмена
В предыдущей реплике я предельно ясно выразился. Цитирую: "факторный анализ ... может быть реализован как для количественных, так и для иных, а также смешанных признаков". Это предполагает, что коэффицент Спирмена допустим в факторном анализе, как и любые другие меры типа корреляции. Впрочем, это дело автора работы - использовать тот или иной метод. Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал.

Сообщение отредактировал Игорь - 31.05.2025 - 15:58


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 31.05.2025 - 21:45
Сообщение #14





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Куда предлагаете тыкать мышкой? Не вижу ни единой ссылки в Ваших постах в данной теме.

Факторный анализ, насколько я помню, - это расширение анализа главных компонент, а последний построен, согласно одной из трактовок, на корреляциях Пирсона. Как туда Спирмена ввернуть, плохо представляю. Но я вообще почти не знаком с этим методам, так что потрудитесь разъяснить, куда конкретно мышкой тыкать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Skif
сообщение 3.06.2025 - 00:56
Сообщение #15





Группа: Пользователи
Сообщений: 6
Регистрация: 20.05.2025
Пользователь №: 39693



Мне кажется, что не стоит уходить в обсуждение терминологии (см. https://ru.wikipedia.org/wiki/Разреженная_матрица). И в попытке перейти к конкретному примеру "Пару раз ткнуть мышкой и посмотреть, что получится - разве не интересно? Я бы сделал.", как предлагает "Игорь". Вопрос, на мой взгляд, глубже. Правильно заметил ИНО. "Это да, хрен найдёшь в литературе примеров коррекции значимости для корреляций в исследованиях, где проверяется парная корреляция всего со всем, а потом выбирается лишь то, что понравилось исследователю, зато самих таких исследований пруд пруди. Продуктивная статистика, мать ее!".
Проблема формулируется просто:
Посчитать парные непараметрические корреляции, при достаточно большом количестве входных параметров, которые содержат пропуски.
Но природа их такова (в моём случае): ПЦР реакции, где часть значений заведомо опускается из-за не значимости клинической(?).
При изучении микробиома человека (в частности женщины) методами параллельного секвенирования (секвенирование нового поколения, NGS) гена16S rRNA и
биоинформационный анализ полученных данных с классификацией ДНК по таксономическим единицам, где часть данных просто не обнаруживается существующими методами
NGS. (сотни параметров с пропущенными данными).
Таким образом природа "дырок" в данных носит не случайный характер, но в некотором смысле квазислучайный, а также преднамеренный (не хотелось бы уходить в обсуждение типов пропусков).
При подсчёте корреляций надо учесть множественность сравнений.
ВСЁ ОЧЕНЬ ПРОСТО!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему