Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Нетрадиционные статистические критерии для проверки однородности выборок.
passant
сообщение 16.01.2021 - 16:32
Сообщение #1





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID?
Сделаю еще одну попытку его реанимировать, тем более реально считаю этот форум одним из наиболее компетентных в данной сфере на просторах русскоязычного интернет.
Итак.
Предположим, что мы делаем сначала точечную оценку некоторого статистического параметра на разных выборках. Речь не про среднее, дисперсию и прочие "легкие" темы. А например про более сложные случаи - например получаем коэффициент автокорреляции двух временных рядов (разумеется, для каждого отдельно), или оценки коэффициентов регрессии (получаем два набора коэффициентов).
Итак имеем два статистических параметров. Нам надо ответить, можно-ли считать, что выборки были взяты из одной генеральной совокупности.
Что-бы ответить на этот вопрос можно задаться уровнем значимости, построить два доверительных интервала и проверить, пересекаются-ли они. Сразу-же возникает вопрос, а как оценить вероятность такой ситуации. Не просто ответить, что да, такая ситуация возможна, а выяснить с какой именно вероятностью она может возникнуть.
Возможно кто либо встречал "прямое" решение данной задачи, т.е. анализ непосредственно закона распределения для разности указанных параметров и нахождения p_value аналогично тому, как это делается в традиционных алгоритмах проверки гипотез однородности на основе средних, медиан, рангов и пр.

Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше.

И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения!

Сообщение отредактировал passant - 16.01.2021 - 16:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
logvin
сообщение 16.01.2021 - 19:26
Сообщение #2





Группа: Администраторы
Сообщений: 301
Регистрация: 6.10.2004
Из: Саратов
Пользователь №: 4



Цитата(passant @ 16.01.2021 - 17:32) *
Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID?

При пандемии COVID-19 посещаемость форума существенно не снизилась:
https://www.liveinternet.ru/stat/forum.diss...ml?period=month

Цитата(passant @ 16.01.2021 - 17:32) *
реально считаю этот форум одним из наиболее компетентных в данной сфере на просторах русскоязычного интернет.

Да, "форум врачей-аспирантов" по сути является местом общения биостатистиков smile.gif
Больше всего сообщений на форуме создано именно в этой теме!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 16.01.2021 - 22:26
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(passant @ 16.01.2021 - 18:32) *
Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID?
... Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше.

И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения!

Присоединяюсь к поздравлениям passant! Отболели, продышались, настроение норм.

По поводу вопроса есть ответ: Монте-Карло. С автокорреляциями работать не приходится, поэтому для меня проще на примере коэффициента регрессии. Этапы будут такими:
1) Для каждой из выборок 1 и 2 объёмов n1 и n2 рассчитываются коэффициенты а1 и а2 и их разность d=а1-a2.
2) Значения обеих выборок объединяются и из этого набора случайные n1 наблюдений назначаются в выборку 1, а оставшиеся n2 наблюдений - в выборку 2.
3) Для каждой из таких сгенерированных случайным перемешиванием выборок рассчитываются коэффициенты а_Монте-Карло1 и a_Монте-Карло2 и их разность d_Монте-Карло1
4) Этапы 2 и 3 повторяются N раз (обычно 10 тыс. или 100 тыс. раз) с получением соответствующего числа N разностей d_Монте-Карло. Распределение этого d_Монте-Карло будет соответствовать нулевой гипотезе отсутствия различий между выборками, т.к. они генерировались из наблюдений именно одной (объединённой) выборки, а их разбиение на 1 и 2 было случайным.
5) Подсчитывается число k - число наблюдений d_Монте-Карло, оказавшихся равными или более экстремальными по отношению к разности d, полученной на этапе 1. И наконец рассчитывается р-значение (одностороннее) как
р=k/N или по скорректированной формуле р=(k+1)/(N+1), которая исключает возможность р=0. Видел в литературе, что для получения двусторонней оценки это значение умножается на 2, но для меня это не есть очевидная процедура, я полагаю что при таком способе проверки нужно использовать односторонний тест.
Данный подход с техникой Монте-Карло именно "прямой". В отличие от бутстрепа он не генерирует выборок из тех данных, которых в природе нет, т.к. случайным образом назначает в выборки именно реально имеющиеся данные. Также не привлекаются никакие сторонние предположения о распределении данных. Процедура реализуется одинаково независимо от того "лёгкие" или "тяжёлые" функции от данных сравниваются.

Я опробовал этот подход для сравнения таких "тяжёлых" функций как сумма абсолютных значений всех парных корреляций в наборе признаков (так называемый вес корреляционного графа). Только на этапе 5 вычислял р не напрямую (что-то с кодом тогда не получилось сразу, а нужно было срочно сдавать монографию), а как площадь под кривой распределения d_Монте-Карло, отсекаемую значением d.
Описано со стр. 191 книжки, есть код на R в приложении 3.6. и в вордовском документе для удобства копипаста на Яндекс-диске: https://yadi.sk/d/uj1Mg4OUBMp4SA
Вместо функции wg нужно подставлять свою функцию от данных.

Сообщение отредактировал nokh - 16.01.2021 - 22:37
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 16.01.2021 - 23:22
Сообщение #4





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Спасибо большое. Это уже - направление.
Единственная проблема, что мои задачи надо решать в режиме он-лайн, причем скорость поступления данных весьма высокая - в некоторых вариантах "тики" могут представлять собой секунды, а время накопления выборки - минуту. Поэтому получится-ли применить МК-подход или нет - пока не знаю. Но буду разбираться. Еще раз спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 17.01.2021 - 07:43
Сообщение #5





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(passant @ 16.01.2021 - 21:32) *
Нам надо ответить, можно-ли считать, что выборки были взяты из одной генеральной совокупности.

Например использовать U-критерий Манна - Уитни.

Сообщение отредактировал Диагностик - 17.01.2021 - 10:58
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 17.01.2021 - 11:52
Сообщение #6





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Диагностик @ 17.01.2021 - 07:43) *
Например использовать U-критерий Манна - Уитни.

Не, это не катит.
"Речь не про среднее, дисперсию и прочие "легкие" темы. " Такие критерии есть классика, и с ними все понятно. Интересует именно автокорреляция, коэффициенты регрессии, возможно - коэффициенты моделей Брауна-Хольта-Винтерса, моделей ARIMA, показатель Хёрста (не к ночи будет сказано :-) и т.д. Кстати, даже сравнение отличии скоса и эксцесса. Сравнение энтропий может оказаться полезным. Ну и что-нибудь новенькое и более надежное, чем Колмогоров-Смирнов и аналоги для непосредственного сравнения распределений.

Сообщение отредактировал passant - 17.01.2021 - 11:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 19.01.2021 - 02:47
Сообщение #7





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(passant @ 17.01.2021 - 16:52) *
даже сравнение отличии скоса и эксцесса.

А разве не может быть, при неотличимых эксцессах выборки неоднородные?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 19.01.2021 - 10:51
Сообщение #8





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Диагностик @ 19.01.2021 - 02:47) *
А разве не может быть, при неотличимых эксцессах выборки неоднородные?
Вполне. Так же как и при неотличимых средних или дисперсиях. Но это не отменяет необходимости иметь в наборе инструментов различные тесты, которые будут реагировать на статистически различимые неоднородности.

Сообщение отредактировал passant - 19.01.2021 - 10:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 19.01.2021 - 11:52
Сообщение #9





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(passant @ 19.01.2021 - 15:51) *
Вполне. Так же как и при неотличимых средних или дисперсиях.

Критерий Смирнова всё учитывает.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 19.01.2021 - 19:08
Сообщение #10





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Диагностик @ 19.01.2021 - 11:52) *
Критерий Смирнова всё учитывает.

Его я тоже упомянул выше. Но он не для всех задач подходит. Например, во временнЫх рядах его применение возможно, но несколько затруднено. И там как раз может лучше работать некий критерий, анализирующий коэффициент автокорреляции, или критерий основанный на сравнений регрессий. Точно так-же есть и другие области, где классические критерии хотя и применимы, но с определенными оговорками. Поэтому и хочется "попробовать" чего-то новенького. И есть задумки, что делать с ними потом - но пока вот "набираю базу алгоритмов". (Читать справочник Кобзаря - не предлагать. Уже прочел :-) )
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.01.2021 - 21:57
Сообщение #11





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(passant @ 17.01.2021 - 01:22) *
Спасибо большое. Это уже - направление.
Единственная проблема, что мои задачи надо решать в режиме он-лайн, причем скорость поступления данных весьма высокая - в некоторых вариантах "тики" могут представлять собой секунды, а время накопления выборки - минуту. Поэтому получится-ли применить МК-подход или нет - пока не знаю. Но буду разбираться. Еще раз спасибо.

Ну может тогда на основе статанализа какого-то количества рядов и/или их частей попытаться наработать какие-то свои "быстрые" критерии или решающие правила. Типа того, что если станд. отклонение больше 33%, то распределение скорее всего ненормальное: станд. отклонение быстрее и проще отслеживать, чем проводить раз за разом статпроверку на нормальность. Аналогично, завязать что вам нужно, скажем на скользящее среднее и принимать решения на основе анализа этого показателя. Менее надёжно, но гораздо быстрее. Если у вас идут подобные и более-менее однородные данные, то велика вероятность того, что такие эмпирические правила будут с большой долей вероятности работать и на других данных.

Сообщение отредактировал nokh - 19.01.2021 - 21:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 20.01.2021 - 17:04
Сообщение #12





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(passant @ 17.01.2021 - 16:52) *
Интересует именно автокорреляция, коэффициенты регрессии,

Я бы попробовал со скользящим коэффициентом регрессии и проверкой каждый раз на статистически значимое отличие.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 21.01.2021 - 09:16
Сообщение #13





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Диагностик @ 20.01.2021 - 17:04) *
Я бы попробовал со скользящим коэффициентом регрессии и проверкой каждый раз на статистически значимое отличие.

Во, это то, что я сейчас пытаюсь делать. И возникает куча проблем, начиная с того, что материалов именно по различию коэффициентов регрессии очень мало, а во-вторых, еще не нашел двух источников, которые бы приводили к одинаковым формулам, еще бы и не содержали опечатки :-). Пытаюсь через этот лес продраться.
Ну и еще на тему регрессии хочу посмотреть в сторону критерия Чоу, подсмотренного у эконометриков. Может там тоже кое-что окажется интересным.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему