Нетрадиционные статистические критерии для проверки однородности выборок. - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Нетрадиционные статистические критерии для проверки однородности выборок.

passant Просмотр профиля	16.01.2021 - 16:32 Сообщение #1
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID? Сделаю еще одну попытку его реанимировать, тем более реально считаю этот форум одним из наиболее компетентных в данной сфере на просторах русскоязычного интернет. Итак. Предположим, что мы делаем сначала точечную оценку некоторого статистического параметра на разных выборках. Речь не про среднее, дисперсию и прочие "легкие" темы. А например про более сложные случаи - например получаем коэффициент автокорреляции двух временных рядов (разумеется, для каждого отдельно), или оценки коэффициентов регрессии (получаем два набора коэффициентов). Итак имеем два статистических параметров. Нам надо ответить, можно-ли считать, что выборки были взяты из одной генеральной совокупности. Что-бы ответить на этот вопрос можно задаться уровнем значимости, построить два доверительных интервала и проверить, пересекаются-ли они. Сразу-же возникает вопрос, а как оценить вероятность такой ситуации. Не просто ответить, что да, такая ситуация возможна, а выяснить с какой именно вероятностью она может возникнуть. Возможно кто либо встречал "прямое" решение данной задачи, т.е. анализ непосредственно закона распределения для разности указанных параметров и нахождения p_value аналогично тому, как это делается в традиционных алгоритмах проверки гипотез однородности на основе средних, медиан, рангов и пр. Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше. И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения! Сообщение отредактировал passant - 16.01.2021 - 16:34

Открыть тему

Ответов

nokh Просмотр профиля	16.01.2021 - 22:26 Сообщение #2
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(passant @ 16.01.2021 - 18:32) Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID? ... Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше. И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения! Присоединяюсь к поздравлениям passant! Отболели, продышались, настроение норм. По поводу вопроса есть ответ: Монте-Карло. С автокорреляциями работать не приходится, поэтому для меня проще на примере коэффициента регрессии. Этапы будут такими: 1) Для каждой из выборок 1 и 2 объёмов n1 и n2 рассчитываются коэффициенты а1 и а2 и их разность d=а1-a2. 2) Значения обеих выборок объединяются и из этого набора случайные n1 наблюдений назначаются в выборку 1, а оставшиеся n2 наблюдений - в выборку 2. 3) Для каждой из таких сгенерированных случайным перемешиванием выборок рассчитываются коэффициенты а_Монте-Карло1 и a_Монте-Карло2 и их разность d_Монте-Карло1 4) Этапы 2 и 3 повторяются N раз (обычно 10 тыс. или 100 тыс. раз) с получением соответствующего числа N разностей d_Монте-Карло. Распределение этого d_Монте-Карло будет соответствовать нулевой гипотезе отсутствия различий между выборками, т.к. они генерировались из наблюдений именно одной (объединённой) выборки, а их разбиение на 1 и 2 было случайным. 5) Подсчитывается число k - число наблюдений d_Монте-Карло, оказавшихся равными или более экстремальными по отношению к разности d, полученной на этапе 1. И наконец рассчитывается р-значение (одностороннее) как р=k/N или по скорректированной формуле р=(k+1)/(N+1), которая исключает возможность р=0. Видел в литературе, что для получения двусторонней оценки это значение умножается на 2, но для меня это не есть очевидная процедура, я полагаю что при таком способе проверки нужно использовать односторонний тест. Данный подход с техникой Монте-Карло именно "прямой". В отличие от бутстрепа он не генерирует выборок из тех данных, которых в природе нет, т.к. случайным образом назначает в выборки именно реально имеющиеся данные. Также не привлекаются никакие сторонние предположения о распределении данных. Процедура реализуется одинаково независимо от того "лёгкие" или "тяжёлые" функции от данных сравниваются. Я опробовал этот подход для сравнения таких "тяжёлых" функций как сумма абсолютных значений всех парных корреляций в наборе признаков (так называемый вес корреляционного графа). Только на этапе 5 вычислял р не напрямую (что-то с кодом тогда не получилось сразу, а нужно было срочно сдавать монографию), а как площадь под кривой распределения d_Монте-Карло, отсекаемую значением d. Описано со стр. 191 книжки, есть код на R в приложении 3.6. и в вордовском документе для удобства копипаста на Яндекс-диске: https://yadi.sk/d/uj1Mg4OUBMp4SA Вместо функции wg нужно подставлять свою функцию от данных. Сообщение отредактировал nokh - 16.01.2021 - 22:37

passant Просмотр профиля	16.01.2021 - 23:22 Сообщение #3
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Спасибо большое. Это уже - направление. Единственная проблема, что мои задачи надо решать в режиме он-лайн, причем скорость поступления данных весьма высокая - в некоторых вариантах "тики" могут представлять собой секунды, а время накопления выборки - минуту. Поэтому получится-ли применить МК-подход или нет - пока не знаю. Но буду разбираться. Еще раз спасибо.

Сообщений в этой теме

passant Нетрадиционные статистические критерии для проверки однородности выборок. 16.01.2021 - 16:32

logvin Цитата(passant @ 16.01.2021 - 17:32)... 16.01.2021 - 19:26

nokh Цитата(passant @ 16.01.2021 - 18:32)... 16.01.2021 - 22:26

passant Спасибо большое. Это уже - направление. Единств... 16.01.2021 - 23:22

nokh Цитата(passant @ 17.01.2021 - 01:22)... 19.01.2021 - 21:57

Диагностик Цитата(passant @ 16.01.2021 - 21:32)... 17.01.2021 - 07:43

passant Цитата(Диагностик @ 17.01.2021 - 07... 17.01.2021 - 11:52

Диагностик Цитата(passant @ 17.01.2021 - 16:52)... 20.01.2021 - 17:04

passant Цитата(Диагностик @ 20.01.2021 - 17... 21.01.2021 - 09:16

Диагностик Цитата(passant @ 17.01.2021 - 16:52)... 19.01.2021 - 02:47

passant Цитата(Диагностик @ 19.01.2021 - 02... 19.01.2021 - 10:51

Диагностик Цитата(passant @ 19.01.2021 - 15:51)... 19.01.2021 - 11:52

passant Цитата(Диагностик @ 19.01.2021 - 11... 19.01.2021 - 19:08

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2025 IPS, Inc.