Цитата(Диагностик @ 17.09.2024 - 04:20)

Есть 6 групп пациентов соответственно годам. За 1, 2, 3, 4 и 6 года количество примерно одинаковое: 2-4. А за 5-й год - количество 17. Нужно доказать, что данное различие (между 5-м годом и остальными годами) статистически значимое.
1) Если каждый год пациенты разные (выборки независимые) можно свести данные в таблицу сопряжённости 2х6 со входами: Пациенты (с интересующим признаком и без этого признака) и Годы.
2) Таблицу проверить на однородность с помощью критерия хи-квадрата Пирсона, если это допустимо (слишком много ячеек с малыми частотами). Допустимость проверяется отдельно с помощью критерия Симонова - Цай (программы Игоря такое считают). Можно рассчитать р-значение без опоры на распределение хи-квадрат - процедурой Монте-Карло, здесь другая философия (ресэмплинга) и нет ограничений по минимальному ожидаемому. Если гипотеза однородности отвергается, ну или почти отвергается (скажем р≤0,10), можно разбираться за счёт чего.
3) Для этого проверить ячейки на неслучайность вклада в неоднородность. Для каждой ячейки рассчитываются отклонения Фримана - Тьюки (Freeman-Tukey deviation) или согласованные стандартизованные остатки (остатки Хабермана, Adjusted residuals) с соответствующими р-значениями. Т.к. р-значений много, 12 штук, можно ввести поправку на множественность сравнений. Всё удобно сделать в PAST (
https://www.nhm.uio.no/english/research/resources/past/ ), описание схожей задачи - в примере на стр. 134 Лабораторного практикума (
https://yadi.sk/d/g50i73pt3J6pAa ). Только сейчас уже значимость отклонений рассчитывать отдельно не нужно (там показано как в Excel рассчитать), т.к. текущая версия программы рассчитывает и р-значения и р-значения с поправкой Бонферрони. Если заморочиться, можно выписать все 12 р-значений без поправок и пересчитать р-значения менее консервативным по сравнению с Бонферронии и другим по философии тестом Беньямини - Хохберга, удобно онлайн (
https://tools.carbocation.com/FDR , сортировать не надо, программа отсортирует сама).
При таком подходе для ячейки, где число 17 будет большое положительное значение Adjusted residual с маленьким р-значением.
В качестве описательной статистики можно рассчитать долю пациентов с интересущим признаком с 95%-ным доверительным интервалом. Если она выражается в %, то ДИ считать биномиальный (забыть навсегда про метод Вальда, лучше считать методом Джеффриса, можно онлайн:
https://epitools.ausvet.com.au/ciproportion ), если в промилле или ещё меньше - ДИ считать пуассоновский. В материалах к Практикуму (ссылка была выше) есть расчётный файл Excel "Доверительный интервал для долей.xls, который давно делал форумчанин плав, а я раскрасил и добавил метод Джеффриса, но на такое нельзя сослаться, а на онлайновые калькуляторы - можно. Априорный байесовский интервал Джеффриса всегда находится внутри классического точного интервала Клоппера - Пирсона, т.е. он менее консервативный.