Здравствуйте, гость ( Вход | Регистрация )
4.04.2020 - 00:08
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Уважаемые коллеги-медики.
Поскольку в последнее время наметился некоторый застой на этом интереснейшем форуме Итак, формальная постановка задачи. Необходимо подтвердить H0 гипотезу отсутствия различий между двумя наборами данных. Таких тестов проводится множество. Результаты каждого теста представлены в виде соответствующего p-value. Необходимо поставить "окончательный диагноз", т.е. основываясь на указанном наборе p-value's дать окончательную оценку относительно принятия-отклонения гипотезы. В виде некоторого "обобщенного" p-value, разумеется. Получается такая себе "многомерная проверка гипотез". Задача - как мне видется, возможно я и ошибаюсь - имеет несколько подвариантов. Первый и самый, наверное, простой - все тесты проводятся одним и тем-же методом. Т.е. в области медицины - множество групп пациентов, например - в различных клиниках, каждая считает и предоставляет свои данные, например, по эффективности определенного лекарственного средства. Результаты должны быть формально обобщены. Как? Второй - оценивается два объекта (в медицинских терминах, наверное - групп пациентов) каждая по множеству разных параметров (давление, рост, вес.....). Необходимо проанализировав p-value отличия по каждому из параметров, формально определить, различаются-ли эти группы пациентов. Третий - у нас один параметр, но тестов мы проводим много (ну, самое простое - t-Стюдента, F-Фишера, тесты на различие моментов более высокого порядка, тест на постоянство автокорреляции, тест на постоянство коэффициента Херста - не важно). И решение надо принять по совокупности p-value, полученных на разных тестах.. (Ну, например, отслеживаем изменение этого параметра у пациента во времени). Возможно, есть и другие варианты постановки задачи, но я их пока не вижу. Итак, вопрос. Занимается-ли медстатистика такими задачами и если да (полагаю, что так и есть), то посоветуйте пожалуйста, натолкните на работы, где такие подходы разбираются. Ну и хочу все-таки отметить, что меня интересует не медицинская сторона этих работ, а именно формально-математико-статистическая. Заранее благодарю за любую информацию, и извиняюсь, если непрофессиональностью медицинских примеров задел чьи-то тонкие струны души : Всем не хворать, а тем кто на карантине - стойко его выдержать. Сообщение отредактировал passant - 4.04.2020 - 00:14 |
|
|
![]() |
![]() |
![]() |
5.04.2020 - 14:24
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Т.е. у нас есть некий многомерный временной ряд (координаты признакового описания объекта эволюционируют во времени), и в каждом сечении этого процесса мы хотели бы убедиться в том, что его вероятностные характеристики неизменны во времени (стационарны в узком/широком смысле слова)? Но тогда это - просто некая многомерная задача о разладке.
|
|
|
![]() |
![]() |
5.04.2020 - 17:04
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
просто некая многомерная задача о разладке. Да, близко к этому. Но классическая "разладка", та, которая тянется с теории надежности - работает либо по threshold, либо в лучшем случае по 3-м Сигмам. И то и другое - "не вкусно". С точки зрения статистики - требует жестких обоснований. Методы типа Бродского-Дарховского требуют выпонения жестких условий, которые как правило в реальной жизни нарушаются. И пр.пр.пр. Причем, если ряд становится многомерным, то все становиться совсем грустно. Ну и еще одно - мне надо сравнивать не одномоментный "срез" рядов, а срез статистик за некоторый период наблюдения. Т.е. "пациент" объявляется больным НЕ если у него зафиксирован скачек сахара за 3 Сигмы, а если за определенный период времени зафиксированы подъем уровня сахара, изменения среднеквадратичного отклонения наполняемости кровеносной системы, средний интервал между ударами сердца и цвет губ был чаще синим, чем красным (Ой, да простят меня медики Но в общем да, многомерные ряды, стримминг-кластеризация с дрейфом и забыванием, "разладка" - а точнее Change Points, Anomaly and Outliers Detection и пр. И все это часто в режиме "он-лайн" и частотой фиксации параметров - несколько сотен или тысяч в секунду (хотя это вот не всегда так жестко, как раз). Сообщение отредактировал passant - 5.04.2020 - 17:06 |
|
|
![]() |
![]() |
5.04.2020 - 17:25
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Да, близко к этому. Но классическая "разладка", та, которая тянется с теории надежности - работает либо по threshold, либо в лучшем случае по 3-м Сигмам. И то и другое - "не вкусно". С точки зрения статистики - требует жестких обоснований. Методы типа Бродского-Дарховского требуют выпонения жестких условий, которые как правило в реальной жизни нарушаются. И пр.пр.пр. Причем, если ряд становится многомерным, то все становиться совсем грустно. Ну и еще одно - мне надо сравнивать не одномоментный "срез" рядов, а срез статистик за некоторый период наблюдения. Т.е. "пациент" объявляется больным НЕ если у него зафиксирован скачек сахара за 3 Сигмы, а если за определенный период времени зафиксированы подъем уровня сахара, изменения среднеквадратичного отклонения наполняемости кровеносной системы, средний интервал между ударами сердца и цвет губ был чаще синим, чем красным (Ой, да простят меня медики Но в общем да, многомерные ряды, стримминг-кластеризация с дрейфом и забыванием, "разладка" - а точнее Change Points, Anomaly and Outliers Detection и пр. И все это часто в режиме "он-лайн" и частотой фиксации параметров - несколько сотен или тысяч в секунду (хотя это вот не всегда так жестко, как раз). Ну, крутенько, в общем-то замешиваете. Про многомерные обобщения тестов на единичный корень (равно как и тестов на Change Point) не читывал и поэтому навскидку не могу сказать, насколько корректно делать все это покоординатно. И есть еще соображение-опасение: в имеющемся временном ряду можно (опять же, покоординатно) оценить условную по имеющейся предыстории 95%-ную квантиль, при пробое которой можно поднимать тревогу. Так делают при расчете показателя VaR в финансовых рядах. Однако тут надо опасаться "ложных" пробоев. |
|
|
![]() |
![]() |
5.04.2020 - 18:02
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Ну, крутенько, в общем-то замешиваете. Про многомерные обобщения тестов на единичный корень (равно как и тестов на Change Point) не читывал и поэтому навскидку не могу сказать, насколько корректно делать все это покоординатно. И есть еще соображение-опасение: в имеющемся временном ряду можно (опять же, покоординатно) оценить условную по имеющейся предыстории 95%-ную квантиль, при пробое которой можно поднимать тревогу. Так делают при расчете показателя VaR в финансовых рядах. Однако тут надо опасаться "ложных" пробоев. Спасибо. Подумаю над этим. |
|
|
![]() |
![]() |
7.04.2020 - 17:36
Сообщение
#6
|
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 17.02.2019 Пользователь №: 32989 |
|
|
|
![]() |
![]() |
7.04.2020 - 18:02
Сообщение
#7
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
|
|
|
![]() |
![]() |
7.04.2020 - 20:18
Сообщение
#8
|
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 17.02.2019 Пользователь №: 32989 |
[attachment=1883:Data_Min...ine_Lear.pdf]
В данный момент я занимаюсь вопросами применения методов ML в Cybersecurity. ОК! В приложении высылаю Вам книгу "Data Mining and Machine Learning in Cybersecurity". Когда я обращалась за помощью в БИОМЕТРИКУ, то при выполнении моего исследования они высылали мне много книг по статистике и математике. Также знаю, что автор этого сайта является техником и математиком, и написанные им книги тоже по статистике и технике. Мой муж тоже обращался к ним по своему исследованию, и тогда он мне рассказывал, что этот автор в прошлом веке защищал свою диссертацию в Москве. Вот и сейчас он вместе с коллегами делает работы не только для медиков, но и для социологов, биологов, техников, и т.д. [Moderator on] Категорически не рекомендую выкладывать в публичном доступе полностью объекты, защищаемые авторским правом. Издательство или правообладатели могут предпринять ответные действия. Отправьте - если уж так хочется - в личку страждущему. [Moderator off] |
|
|
![]() |
![]() |
7.04.2020 - 22:28
Сообщение
#9
|
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Спасибо, конечно. Если вы про книгу Sumeet Dua и Xian Du, то я ее конечно читал. С тех пор (с 2011) года вышло еще несколько очень приличных книг по теме. И приходиться постоянно держать руку на пульсе. Поэтому если что кому надо из книг по статистике, ML, DataScience, Deep Lerning - можете обращаться, чем смогу помогу (и Боже упаси при этом нарушить авторские права Сообщение отредактировал passant - 7.04.2020 - 22:32 |
|
|
![]() |
![]() |
passant Метаанализ, его методы и описание. 4.04.2020 - 00:08
nokh По объединени р-значений. Я качал когда-то пару-тр... 4.04.2020 - 06:33
p2004r Цитата(passant @ 4.04.2020 - 00:08) ... 4.04.2020 - 08:37
Med_Elena "Итак, формальная постановка задачи".
Ур... 4.04.2020 - 15:57
passant Цитата(Med_Elena @ 4.04.2020 - 14:57... 4.04.2020 - 21:25
100$ ЦитатаИтак... необходимо подтвердить H0 гипотезу о... 5.04.2020 - 00:00
passant Цитата(100$ @ 4.04.2020 - 23:00... 5.04.2020 - 00:23
100$ Цитата(passant @ 5.04.2020 - 00:23) ... 5.04.2020 - 00:44
passant Цитата(100$ @ 4.04.2020 - 23:44... 5.04.2020 - 10:50
passant ..... 7.04.2020 - 22:30![]() ![]() |