Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Сравнение частично зависимых выборок, 95% ДИ и ресэмплинг-техниками
nokh
сообщение 25.01.2024 - 22:55
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Здравствуйте, уважаемые участники форума. Уже второй раз сталкиваюсь с нетривиальной похожей задачей, которую собираюсь решать похожим способом. Поэтому решил создать тему под это и обсудить верность стратегии.

Иногда возникают случаи, когда нужно сравнивать выборки, содержащие частично одни и те же объекты, т.е. они не являются в чистом виде ни независимыми, ни зависимыми. Приведу 2 своих примера.

Пример 1. Работа по организации здравоохранения. В областной больнице был проведён анонимный опрос, касающийся качества работы, удовлетворённостью работой, взаимодействием с начальством и всякое такое у разных категорий работников (немедицинский персонал и градации медицинского). Варианты ответов предлагались в анкете. По завершению этого этапа были посчитаны % вариантов ответов, сравнили что было интересно по теме работы критериями типа хи-квадрат, сделали выводы и разработали план коррекции ситуации в лучшую сторону. Далее согласно этому плану с работниками были проведены некие мероприятия и после этого спустя год или два опрос повторили. Тоже рассчитали % и т.д. Задача: оценить статистически эффективность проведённых мероприятий: типа какие-то % увеличились, какие-то уменьшились. Я назвал задачу нетривиальной, т.к. за время между двумя опросами кто-то уволился, кто-то был принят на работу, т.е. выборка респондентов немного изменилась. Но даже если бы это были в точности те же люди организовать сравнение зависимых выборок не получилось бы ввиду анонимности (она была нужна для получения более честной и объективной картины). Поэтому единственный вариант, который напрашивался, - сравнение через сопоставление 95% ДИ: будут перекрываться - значит различия незначимы, имеем дело с одной генеральной совокупностью, не будут - различия значимы, имеем 2 ГС: "до мероприятий" и "после". Поскольку ДИ рассчитываются для каждой выборки изолированно от другой такой подход получается консервативным, однако снимает проблему частично зависимых выборок.

Пример 2. Работа по ветеринарии. Из разных популяций взяли выборки животных и определили в них 1) животных без явных нарушений по комплексу показателей, 2) со слабыми отклонениями от нормы (типа предпатология) и 3) сильными отклонениями, указывающими на разную патологию. Посчитали %, сравнили популяции между собой. Теперь стало нужно определить какие показатели и насколько отклоняются от нормы в ту или другую сторону в популяциях и о чём это говорит. Поскольку норма из книжек/статей не очень хороша и к тому же "плывёт" во времени, было решено скомпоновать свою норму: из всех популяций всех здоровых животных объединили в одну группу, охарактеризовали, в планах - расчёт референтных ("референсных") интервалов (кстати для их расчётов по EPC28A3C / C28-A3c всё нужное есть в MedCalc и R ("referenceIntervals" и др.)). Теперь нужно сравнить каждую популяцию с этой нормой, чтобы оценить по каким показателям и в какую сторону отклонения, рассчитать дельту в %. Таким образом имеем две оценки, как некие самостоятельные характеристики:
1) популяционные оценки показателей (медианы не для всех годились, беру средние с ДИ бутстрэпом) и
2) значения нормы, но рассчитанные частично по животным, входящим в эти популяции.
Сначала тоже хотел сравнить по 95% ДИ, а потом решил получить р-значения и вышел на литературу по сравнению partially overlapping samples, ссылки на пару статей - внизу. В ней есть много подходов и формул, но не увидел сопоставления 95% ДИ и вполне логичного сравнения средних в таких группах техникой Монте-Карло. В связи с чем начал сомневаться, читать про гипотезы, которые проверяют ресэмплинг-техники и т.п. В этом втором примере у меня есть полная информация по степени и структуре перекрытия выборок, и сравнить по формулам из статей в принципе можно, но муторно и не универсально, хочу универсального подхода для кода в R)))

А вы что по этому поводу думаете? Буду признателен за советы/критику/парустатей.

https://www.tqmp.org/RegularArticles/vol18-1/p055/p055.pdf
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9042157/

Сообщение отредактировал nokh - 25.01.2024 - 23:13
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 27.01.2024 - 22:51
Сообщение #2





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Ух ты, форум еще не умер!

Думается здесь основная проблема состоит в отделении эффекта индивидуума от эффекта обработки. Рассмотрим такой предельный случай. Взяли выборку из двух человек, измерили некий показатель, затем дали некий препарат и повелели перейти завтра на повторное обследование. Но на следующий день пришел только один. второй испытуемый забурился. Его заменили на испытуемого из другой группы, также получившего накануне этот препарат. Измерили показатель и оценили разность средних, которая оказалась высоко значимой. Вопрос: это следствие действия препарата или замены одного из испытуемых? Очевидно, что в данном случае корректный ответ дать нельзя. Но для случаев, где замене подвергся лишь небольшой процент индивидуумов, возможно (а скорее наверняка) существуют методы, позволяющие адекватно это учесть и откорректировать ДИ в сторону уширения. Но я с таким не сталкивался.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 28.01.2024 - 11:33
Сообщение #3





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



Доброго дня.

Первая задача мне напоминает single case analysis или time series, при котором мы имеет только две точки для анализа. Я пишу про две точки, так как в данном случае оценивается организация в целом и происходящие в ней процессы. Ничего плохого в допущении об независимости наблюдений при опросе не вижу, особенно в случае, когда информация полностью анонимная. Если есть возможность, сведите Ваши данные к тестированию тренда. В рамках "продуктивных методов анализа" время опроса в организации определить как зависимую переменную, а ответы - как независимые. Далее посмотреть характер паттерна ответов.

По поводу второй задачи. Если Вы объединили данные и получили параметры распределения, которое Вас устраивает, то нагенерируйте вагон референтных данных, сравните с ними Ваши выборки, усредните тестовые статистики. В синтетических данных реальных животных не будет.

Вообще, если известны id испытуемых, то реально использовать mixed model. В коде изложил результаты беглого поиска по проблеме частично парным выборкам.

CODE

library(lmerTest)
library(robustrank)
library(IncomPair)
library(contingencytables)

# Зависимая переменная
y <- c(
1, 2, 3, 3, 2, 1, 2, 4, 1, 2,
3, 4, 3, 4, 3, 2, 1, 4, 3, 2
)

# Независимая переменная
x <- rep(c('a', 'b'), each = 10)

# Номер
id <- paste0(
'id',
c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
1, 2, 3, 4, 5, 6, 11, 12, 13, 14)
)

# Объединяем данные
df <- data.frame(id = factor(id), x = factor(x), y = y)

# Строим частично смешанную модель
fit <- lmer(y ~ x + (1|id), data = df)

# Плохо задокументированный пакет - пользоваться с осторожностью
robustrank::pm.wilcox.test(
Xpaired = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) > 1))],
Ypaired = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) > 1))],
Xextra = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) == 1))],
Yextra = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) == 1))]
)
robustrank::mw.mw.2.perm(
X = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) > 1))],
Y = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) > 1))],
Xprime = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) == 1))],
Yprime = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) == 1))],
.corr = -.5
)

# Более понятная библиотека
IncomPair::permb(
xp = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) > 1))],
yp = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) > 1))],
xu = df$y[df$x == 'a' & df$id %in% names(which(table(df$id) == 1))],
yu = df$y[df$x == 'b' & df$id %in% names(which(table(df$id) == 1))],
r = .5
)

# Бонусом
contingencytables::JonckheereTerpstra_test_rxc(contingencytables::table_7.7)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 28.01.2024 - 18:31
Сообщение #4





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Давно уже не работал со смешанными моделямм, но если память не изменяет, по одному-два наблюдения на индивида не есть хорошо. Есть подозрение, что на таких данных lmer() выругается матерно (он это любит делать). А если не сам lmer(), то последующие тесты и конструкторы ДИ.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 29.01.2024 - 04:21
Сообщение #5





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Вспомнилась хорошая книга: http://libgen.is/search.php?req=Mixed+Effe...&column=def

Несмотря на название, там не только собственно смешанные модели, но еще много чего, применяемого в ситуациях нарушения допущения о независимости выборок. Правда, не припомню, есть ли там варианту дизайна эксперимента, похожие на описанный здесь, меня при прочтении интересовали несколько иные.

И еще насчет ресламплинга с учетом фактора индивидуума вспомнился пакет permute.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
logvin
сообщение 29.01.2024 - 19:29
Сообщение #6





Группа: Администраторы
Сообщений: 301
Регистрация: 6.10.2004
Из: Саратов
Пользователь №: 4



Цитата(ИНО @ 27.01.2024 - 22:51) *
Ух ты, форум еще не умер!

Форум врачей-аспирантов ещё молодой, чтобы умирать smile.gif
Он был открыт 8 мая 2004 года (19 лет назад).
https://subscribe.ru/archive/science.health...6/05211951.html
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 29.01.2024 - 21:06
Сообщение #7





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Большинство ровесников уже давно в могиле. Но я имел в иду только статистическую ветку, которая последние, как минимум, полгода была в коме. Какова ситуация в других, не знаю.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 31.01.2024 - 07:36
Сообщение #8





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 25.01.2024 - 23:55) *
Но даже если бы это были в точности те же люди организовать сравнение зависимых выборок не получилось бы ввиду анонимности (она была нужна для получения более честной и объективной картины).

Анонимность в данном случае "убивает" не только парность, но и частичную зависимость по причине невозможности выделения таких данных, даже если они имеются. Поэтому не совсем понятно, зачем в теме приводятся примеры, которые практически важны, но к данной теме никакого отношения не имеют.
А так - да, проблема интересная. В соответствии с обозначенной проблемой, но не для анализа данных в приведенных примерах, посмотрел бы сравнение выборок, усеченных справа (объекты выбыли к окончанию исследования по причине, не связанной с условиями эксперимента*) и слева (появились в процессе исследования).
* Хотя как знать, может быть, кто-то уволился как раз по этой причине smile.gif

Сообщение отредактировал Игорь - 31.01.2024 - 07:43


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 31.01.2024 - 20:45
Сообщение #9





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Ух, там еще и анонимность - не дочитал. Тогда ой, нет никакого корректного способа оценить различия. Можно лишь наплевать на чистоплотность и принять априори нарушенное допущение о независимости.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 4.02.2024 - 21:43
Сообщение #10





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Благодарю участников за мнения. Как-то безрадостно пока...
Ну а что всё-таки думаете по поводу 95% ДИ? (Пока второй пример отложим).

Вот есть больница, пусть это генеральная совокупность. Оценили показатели в интересующих выборках персонала, рассчитали 95% ДИ. После мероприятий через год смотрим снова и снова частоты с 95% ДИ. Если не перекрываются, значит отличия значимы. Анонимность, по-моему здесь роли не играет, в том плане, что делает сравнение невозможным. Я когда аспирантом полёвок в лесах ловил никакого их реестра не было, да и потом не метили никак. Кстати хороший пример: экологи изучают вид на какой-то территории какое-то время. Ведётся мониторинг чего-то и всё анонимно. Играет роль время, которое прошло между двумя исследованиями. Ну, например, если 5 лет прошло, то различия скорее можно объяснить просто изменением контингента. Ну а если эти выборки процентов на 90-95% перекрываются, т.е. это почти те же люди и прошёл всего только год - логично приписать различия проведённой работе с персоналом. Мне видится, что сопоставление ДИ одинаково применимо как к независимым зависимым, так и к зависимым (в том числе - частично) выборкам. Или нет?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 5.02.2024 - 03:42
Сообщение #11





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Больница не может быть генеральной совокупностью, т. к. число ее сотрудников сильно конечно. Соответственно, если опрос оба раза проведен среди всех сотрудников, и нас не интересует никто за пределами этого круга лиц, то статистика, которая математическая, вообще не нужна. Просто измеряем величину различия и констатируем. Именно так, кстати работает та статистика, которая государственная: "Уровень безработицы стране снизился на х%", и никаких ДИ. Но как мы поймем связано ли изменение с проведенной в интервале между опросами "промывкой мозгов" или же обусловлено частичной заменой коллектива? Очевидно, что никак. И какую практическую ценность будет иметь такое исследование? Поможет ли ответить на вопрос: была ли "промывка мозгов" эффективной?

Что касается полевок: а Вы что, по два раза одних и тех же особей ловили? Скорее всего, нет. Хотя бы потому, что один раз пойманная полевка, второй раз в такую же ловушку пойдет куда менее охотно, чем ее непуганные собратья, коих в биотопе тьма. Соответственно, там эффект "частичной смены коллектива" можно считать отсутствующим. И генеральную совокупность здесь можно признать стремящейся к бесконечности, соответственно ДИ будут уместны. Хотя для полной чистоты эксперимента, чтоб никакой червячок (или рецензент smile.gif) не грыз, таки стоило метить. Кстати, вспомнил, что в R есть много пакетов для работы с меченными животными, отлавливаемыми несколько раз вместе с немеченными, и по идее, там должны быть реализованы методы, применимые и для повторных опросов человеков, будь они не анонимны. Структура данных один-в-один.

Сообщение отредактировал ИНО - 5.02.2024 - 03:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 10.02.2024 - 22:39
Сообщение #12





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(nokh @ 4.02.2024 - 21:43) *
Мне видится, что сопоставление ДИ одинаково применимо как к независимым зависимым, так и к зависимым (в том числе - частично) выборкам. Или нет?

Кажется, только nokh спасает форум от неминуемой гибели. В книге Стентона Гланца в главе про анализ повторных измерений говорится, что зависимые группы можно сравнивать обычным (непарным) критерием Стьюдента. Парный критерий нужен только для увеличения чувствительности.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 10.02.2024 - 23:14
Сообщение #13





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Точную цитату - в студию!

А вообще, можно - понятие растяжимое, по большому счету гражданину все можно, за что статьи в уголовном и прочих кодексах нет smile.gif
Но вот сточки зрения математической статистики применять критерий Стюъдента, строго говоря, вообще нельзя почти никогда, потому что реальные данные, как правило, в принципе не могут происходить из нормального распределения. И только робастность от полного фиаско спасает. Так и живем.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 14.02.2024 - 10:20
Сообщение #14





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(ИНО @ 10.02.2024 - 23:14) *
Но вот сточки зрения математической статистики применять критерий Стюъдента, строго говоря, вообще нельзя почти никогда, потому что реальные данные, как правило, в принципе не могут происходить из нормального распределения.

Как доказать, что зависимые группы можно сравнивать обычным (непарным) критерием Стьюдента? Предположим, что у нас есть таблетки, которые снижают давление на 10%. Набираем группу гипертоников так, чтобы распределение давления в выборке (гистограмма давления) напоминало колокол (нормальную кривую). Даем им всем таблетки, и через час убеждаемся, что колокол сжался по вертикали на 10%, но от этого он не перестал быть колоколом! Отсюда следует, что эти две выборки можно сравнивать обычным Стьюдентом.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 14.02.2024 - 17:53
Сообщение #15





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Ну и бред же! По вертикали (оси ординат) в соответствии с общепринятым стандартом откладывается не артериальное давление, а плотность распределения (кол-во человек в класс-интервале в случае с гиснораммой)! Так что сдвинутся наш колокол должен по горизонтали (оси абсцисс), и именно сдвинуться, а не сжаться. Если он от действия таблетки еще и сжимаетеся, то "обычный Стьюдент" не канает, нуден Уэлч. Это если мы забиваем на то, что артериальное давление не может иметь нормального распределение по своей природе, хотя бы потому что даже на бесконечном количестве живых людей мы не найдем ни одного с отрицательным давлением или давлением в 10 атмосфер smile.gif. Но, в принципе, забить на это можно, так как погрешность в достигаемый уровень значимости в данном пример внесет пренебрежимо малую. А вот на то, что половина испытуемых в перерыве между измерениями была заменена, так просто забить уже не получится. В вашем примере этого обстоятельства, кстати нет, в отличие от примера ТС. Поэтому можно предположить, что Вы плохо вникли в ситуацию.

Так где цитата из Гланца?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему