Есть две выборки (100 здоровых и 105 с ожирением) - мужчины, одного возраста - хочется узнать достоверны ли различия в частоте встречаемости гипертрофии левого желудочка (здоровых 10%, ожирелых 30%) - скажите, пожалуйста, какой критерий оптимальнее использовать для сравнения этих групп? Большое спасибо.
Точный метод Фишера
Статистика критерия 4,03442937357569
Двустороннее P-значение 0,0000775509967784656
Вывод: различия значимы, P < 0,001
Можно также критерий Барнарда
Статистика критерия 4,03442937357569
Двустороннее P-значение 0,0000501632487705436
Вывод: различия значимы, P < 0,001
Немного техники. Статистика обоих тестов одинакова, т.к. в ее качестве используется т.н. статистика Вальда. Для критерия Барнарда считается также оптимальный параметр распределения, равный в данном случае 0,35. Критерий Барнарда, ввиду поиска оптимального значения данного параметра, считается примерно в 100 раз медленнее точного метода Фишера. На моем компьютере (Celeron 1200, память 256 Мб, Windows XP Home) расчет критерия Барнарда занял примерно полминуты. Исходя из таких сложностей, если данный критерий удается посчитать, то его результатами пользоваться предпочтительнее, чем результатами точного метода Фишера.
DrgLena
21.12.2007 - 20:35
В подобных случаях предпочтительней использовать не статистические критерии связи, а клинически более ясный подход, основанный на доверительных интервалах к указанным процентам. Тогда легко формулируется вывод. У пациентов с ожирением дистрофия...... диагностируется у 30% (95% ДИ 22%-39%), а без ожирения только у 10% (4-16%). Т.к. ДИ не пересекаются, то делается вывод о том, что ожирение статистически достоверно приводит к повышению частоты развития дистофии.....
Спасибо за Ваш ответ.
Вот только у меня почему-то программка Биостатистика не хочет счетать Фишера при общем количестве наблюдение более 100

"Статистику" - пока не освоил, хотя пиратская версия есть.
Как воспользоваться этой программой для подсчета с помощью критерия Фишера в моем примере?
Еще раз спасибо.
П.С. Можно ли исползовать хи-квардарт? (программа Биостаттика пишет, что слишком много наблюдений для точного критерия Фишера, используйте хи-квадрат)
На Томском сайте "Биометрика" В.П. Леонова бесплатно предоставляется искомая программа по вычислению точного критерия Фишера. Вот прямая ссылка
http://www.biometrica.tomsk.ru/programm/FisherExact.exe. Вот пример
http://www.biometrica.tomsk.ru/programm_stat.htm.
Еще раз больше Вам спасибо!
А вот еще вопрос - не могу разобрать, какие значения вносить в столбики и строчки (в программу):
1) если хочу сравнить, что брюнетов в популяции россиян достоверно больше, чем блондинов? (n=120, блондинов-20, рыжих - 20, брюнетов - 40, русых - 40)
2) блондины-белоруссы достоверно чаще встречаются, чем блондины-россияне?
(россияне: n=120, блондинов-20, рыжих - 20, брюнетов - 40, русых - 40
белоруссы: n=130, блондинов - 40, рыжих -30, брюнетов - 30, русых - 20)
Спасибо
Вероятнее всего для первой ситуаци в таблицу внесем (скажем для программки, использующей точный криетрий Фишера):
40 - 80
20 - 100
---------
а для второй задачи:
40 - 90
20 - 100
-------
так правильно?
Вот здесь еще программа есть
http://www.med.uio.no/imb/stat/two-by-two/manual.html.
Называется она Two-by-two - A software package that calculates exact, mid-p values and asymptotic p-values in 2x2 contingency tables. Both unconditional and conditional test statistics are available.
Многие даже из "больших" программ имеют (имели?) непонятные сложности при расчете точного метода Фишера. Об этом даже статья попадалась. Задача совершенно тривиальная для программиста.
Наверное, при исследовании блондинов и брюнетов Вы поступили правильно во втором случае. А в первом вроде бы нет.
А вот если поставите задачу выяснить, отличаются ли по цвету волос русские и белорусы, то [в рассматриваемом примере исходных данных] получится таблица сопряженности 2 х 4. Для ее исследования уже потребуется применить специальный метод для такого рода данных. Например, критерий Фримана-Холтона (Фишера-Фримана-Холтона). Он есть в ПО StatXact. Это точный критерий. Авторы StatXact придумали интересный оригинальный алгоритм вычисления данного критерия, о чем есть несколько статей.
Можно также применить критерии, основанные на хи-квадрат Пирсона либо на отношении правдоподобия. Кроме непосредственно данных тестов, перечисленных в предыдущем предложении, это также: критерий Кресси-Рида, критерий Хеллингера, критерий Зелтермана.
А вот мне непонятно, зачем пытаться использовать критерий Фишера если при большом числе наблюдений асимптотический критерий хи2 (т.е. обычный) дает то же самое значение р? Нет в ячейках таблицы ожидаемых частот менее пяти, и слава Богу, пользуйтесь хи2. Тем более, что для таблиц размерности больше 2*2 (т.е. 2*4 как в вопросе выше) хи2 очень даже подходит.
Что же касается сложности расчета критерия Фишера - факториалы - очень большие числа, если же программсит логарифмирует, он начинает работать реальными числами и натыкается на все проблемы округления. Длинные целые немного улучшают ситуацию, но до определенного предела, однако опять-же, а зачем пользоваться более вычислительно сложным методом, если более простой (и классический) дает тот же результат?
DrgLena
24.12.2007 - 23:54
Это не Two-by-two задача.
Хи квадрат Пирсона даст оценку сопряженности двух признаков. Потом все равно нужно показать какова эта сопряженность. Поэтому, повторюсь, предпочтительней не искать критерии, особенно с тяжелыми для медицинских советов названиями, а дать графически проценты с соответствующими доверительными интревалами.
n всего % m 95% ДИ
популяции россиян
блондинов 20 120 16,7 3,4 10,0 23,3
рыжих 20 120 16,7 3,4 10,0 23,3
брюнетов 40 120 33,3 4,3 24,9 41,8
русых 40 120 33,3 4,3 24,9 41,8
Популяция белоруссов
блондинов 40 130 30,8 4,0 22,8 38,7
рыжих 30 130 23,1 3,7 15,8 30,3
брюнетов 30 130 23,1 3,7 15,8 30,3
русых 20 130 15,4 3,2 9,2 21,6
Если 95% ДИ, вычисленные к процентам, не пересекаются, различия статистически достоверны. Процент блондинов в популяции белорусов выше, но доказаны только различия в численности русых, которых достоверно больше в популяции россиян, чем белоруссов.
Интересно, это реальные данные или студенческая задачка?
Главная сложность или, если хотите, изюминка при вычислении точного критерия Фишера, а также и других перестановочных тестов, - не вычисление факториалов (а их действительно нужно логарифмировать, но предпринять меры против потери точности), а перебор вариантов заполнения таблицы сопряженности.
Да - нет - студенческая задачка )
Интересно, предусмотрено ли в программе для расчета хи-квадрата (к примеру, Биостатистика) поправка, когда признак принимает только два значения?
Наверное нет?
Сегодня остановился бы на двух вопросах.
1. Зачем использовать асимптотику, если можно посчитать точно? Вопрос риторический. Скажем, если имеется программа, которая генерирует 1 миллион уникальных таблиц сопряженности в секунду (для среднего размера задач), то зачем тут еще нужен хи-квадрат? Хотя, в принципе, можно и хи-квадрат.
2. Трудных для советов и страшных для диссертантов названий бояться не нужно, т.к. упомянутым выше методам уже лет по 10-15. И не наша вина, что в русскоязычных руководствах они не упоминаются. За рубежом данные эффективные методы находят применение. Давно реализованы они и в программном обеспечении. Например, критерий Фримана-Холтона реализован в StatXact и еще в нескольких программах.
Ответ "можно использовать" не совсем на вопрос "зачем?". Ноутбуком Toughbook можно заколачивать гвозди. Но надо ли это делать? Еще раз повторю, если знакомый всем, описанный более века назад хи2 дает тот же результат, что и критерий Фишера-Фримана-Холтона, зачем использовать последний? Каков выигрыш? Не случайно ведь, например в SAS критерий Фишера-Фримана-Холтона не вызывается по умолчанию при анализе таблиц сопряженности, хотя и он и есть в стандартной процедуре анализа таблиц. Его надо специально заказывать в тех случаях, когда в этом есть необходимость. Вот это, с моей точки зрения, адекватный подход: если все допущения выполняются. пользуемся всем известными критериями. А уж если не выполняются. вот тогда деваться некуда - используем другие критерии.
Цитата(ple @ 25.12.2007 - 12:31)

Да - нет - студенческая задачка )
Интересно, предусмотрено ли в программе для расчета хи-квадрата (к примеру, Биостатистика) поправка, когда признак принимает только два значения?
Наверное нет?
Не совсем понятно, какая поправка нужна?
Формула хи2=Sum((O-E)^2/E), где О - наблюдаемое количество наблюдений, Е - ожидаемое. Это если задача отлична от описанной Вами ранее.
В описанной ранее у Вас следующие частоты 10 90 у нормальных и 32 и 73 у лиц с ожирением. Ожидаемые частоты у Вас явно больше 5 (минимальная ожидаемая частота 20), соответственно обычный критерий хи2 (из любой программы и рассчитанный вручную) пойдет...
Если использовать обычный хи2, то р=0,0003 (точное значение Фишера и точное значение хи2 макимального правдоподобия 0,000269, кстати отличается от данных Игоря выше - это SAS). Т.е. никаких различий - интерпретация - есть достоверные отличия в распространенности ГЛЖ у лиц с ожирением и без (без анализа распространенности в группах АГ, а она явно выше среди лиц с ожирением, результат статистически значимый, но с научной точки зрения бессмысленный)
Проверять правильность одной программы с помощью другой программы...
Программа Хана p = 0,0000775...
Совпадает.
Теперь несколько методов сами посчитаем
Хи-квадрат p = 0,0000547...
Отношение правдоподобия p = 0,0000355...
Кресси-Рид (2/3) p = 0,0000496...
Таблица вот такая была:
90 70
10 35
Проблема в том, что автор первого поста, видимо, поменял исходные данные (поставил проценты и поменял цифры) в период между нашим и Вашим расчетами. Естественно, разные данные - разные результаты.
Уважаемый PLE, предыдущие сообщения, конечно, редактировать возможно - форум это позволяет. Но не нужно вносить существенные изменения, искажающие мнения (тем более результаты расчетов, любезно сделанные для Вас) собеседников, высказанные позднее. Это совершенно незаслуженно ставит их в неудобное положение, заставляет оправдываться, наносит ущерб профессиональной репутации. Например, как сейчас.
DrgLena
27.12.2007 - 15:06
Игорь, первый постер висит и входные данные приведены и вы считаете верно, что 30% от 105 - это 35 больных, а Плав посчитал, что это 32. Но вы оба сражаетесь за точность оценки и приводите их до 7 знака. При этом вы оба согласны, что сопряженность признаков доказана. Мне не понятно, почему плав считает, что нельзя дать смысловую оценку этому факту. Известно, что у спортсменов часто имеется ГЛЖ, но нет АГ. Сопряженность ГЛЖ с АГ, также необходимо оценить, и представить количественную оценку обоим факторам риска, как впрочем и другим, но это уже другая задачка. А их независимый вклад можно оценить с помощью логистической регрессии. А на сегодня мы имеем, то что имеем, а именно для ожирения:
Odds Ratio = 2.7; (Wald 95% CI: 1.3<O.R.<5.9). Т.е. вполне обоснованный вывод, что наличие ожирения в 2,7 раза повышает шанс развития ГЛЖ (при однофакторной оценке). И такой вывод вполне в духе ведущих медицинских журналов, в том числе Lancet.
35 70
10 90
Насчет того, что 30% от 105 - это 35 я как-то не понял. 35/105=0,3333. А 30% от 105 - это 31,5 (округляем до 32)... Но на самом деле вопрос не в том, какая там цифра идет после большого количества нулей, а в том, что результат сильно не меняется при использовании всех методов. Проблема в другом. Меня смущает использование методов, которые считаются "более" хорошими просто потому, что кто-то когда-то так написал в ущерб тем методам, которые используются уже давно. С моей точки зрения это обоснованно тогда, когда новый метод дает дополнительную информацию или позволяет избавиться от одних допущений не внося другие. Как же в этом случае выглядит метод Фишера?
Давайте попробуем сформулировать нулевую гипотезу. Итак, по методу Фишера мы рассчитываем вероятность получения таблицы такой же или еще более отличающейся от "нулевой" (созданной на основе краевых частот) в случае взятия выборок из одной и той же популяции. Всякий, кто знаком с ручным расчетом по методу Фишера знает, что мы берем и фиксируем ВСЕ краевые частоты и затем рассчитываем количество таблиц, которое могло бы появиться с данными значениями частот в таблице. Повторюсь еще раз, мы фиксируем все краевые частоты, т.е. мы считаем, что в выборке известна не только численность групп, но и фиксирована распространенность изучемого фактора риска. В приводимом примере это означает, что мы считаем, что во всех взятых выборках не только будет 105 и 100 человек (что мы делаем самостоятельно, произвольно деля выборку в 205 человек на такие части), но и во всех выборках распространенность ГЛЖ будет 20,5%. Каждый, кто хоть раз пытался играть со случайными выборками понимает, что это очень сомнительное допущение, но именно оно лежит в основе расчетов по методу Фишера и его производным.
В противоположность этому хи2 не делает таких допущений о структуре таблицы (он вообще никаких допущений не делает, поскольку хи2 это всего лишь способ суммарно описать таблицу, это - статистика). Соответственно, он легко расчитывается при разных допущениях нулевой гипотезы (например, что в общей популяции распространенность ГЛЖ составляет 10% или, наоборот, 30%). Другое дело, что стандратная тактика использования критерия хи2 исходит из сравнения полученного значения с табличными, рассчитанными при определенных допущениях, но никто не обязывает действовать таким образом. Есть, в конце концов, bootstrap и можно спокойно сделать распределение хи2 для конкретного эксперимента, благо вычислительные средства позволяют. На самом деле, вместо хи2 можно использовать, например, OR и сделать bootstrap распределение для OR и рассчитать все те же вероятности нулевой гипотезы.
Я отнюдь не призываю использовать bootstrap вместо критерия Фишера, однако хочу лишь указать, что все методы имеют свои проблемы (и bootstrap тоже) и всегда найдется кто-то, кто может раскритиковать использованную методологию статистической обработки с точки зрения обоснованности использованных допущений - без допущений моделей не существует. Соответственно, лучше обращать больше внимания на содеражтельную часть и адекватность анализа именно с содержательной точки зрения.
И вот тут мы подходим к моему последнему замечанию. Итак, о чем идет речь в задачке? Спорстсмены сравниваются с лицами не занимавшимися спортом (и имеющими ожирение)? Тогда задача и подавно бессмысленна - классика сравнения яблок с апельсинами. Если убрать очень специфическую группу спорстменов, наиболее частая причина ГЛЖ - АГ, у лиц с ожирением чаще встречается АГ, игнорирование АГ как третьей переменной является, на сегодняшнем уровне знаний ошибкой и никакой Lancet подобную зависимость двух факторов, которая игнорирует очевидную третью переменную не признает как существующую. Статистическая корреляция не есть причинно-следственная связь. И вот организация исследования в смысле адекватного учета всех факторов куда важнее, чем использовался хи2, критерий Фишера или Кохрана-Мантеля-Ханзеля, ибо статистические методы дадут сходные результаты, а неадекватный дизайн сводит на нет все исследование.
DrgLena
29.12.2007 - 01:34
PLE обратился с конкретным вопросом о влиянии ожирения на ГЛЖ. Причем обратился в статистическую ветку форума, поскольку решает студенческую задачку по статистике, в чем он и сам сознался. В другой ветке форума с привлечением кардиологов, эндокринологов, спортивных врачей, а также и других, кто в этой предметной области специалист, можно было бы обсудить и дизайн исследования и его результаты. Тогда можно будет выяснить мнение коллег, какие факторы и каким образом влияют на развитие ГЛЖ. Ожирение, само по себе, даже без АГ, является доказанным фактором риска многих патологий, возможно и в этой абстрактной задачке, статистический вывод клинически справедлив.
На самом деле дизайн исследования имеет непосредственное отношение к обработке результатов исследования. Например, если взять работы, посвященные статистическим основам критерия Фишера, то там в качестве предположения стоит, что производится анализ рандомизированного контроллируемого проспективного исследования (не такими словами, но смысл именно такой - случайная выборка из популяции, подвергается часть подвергается воздействию фактора, а часть - нет). Соответственно, базируясь на допущениях, которые использованы при выводе критерия Фишера (и всех остальных унивариантных критериев для таблиц сопряженности) можно сказать, что выбранная PLE методка для анализа является не адекватной, поскольку она не предполагает наличие рандомизированного контролируемого эксперимента.
Почему наличие РКИ важно, я и проиллюстрировал в примере про АГ. Важно не то, оказала ли АГ влияние на полученные результаты или нет. А то, что она МОГЛА оказать воздействие. Исключить этого нельзя, соответственно, систематический фактор вариабельности не исключен и оценка результатов (статистическая) не возможна. Строго говоря, мч имеем следующую картину, зависимая переиенная (ГЛЖ) может быть записана так:
y=x+z+\epsilon, где х - влияние ожирения, z - влияние АГ (возможное).
Если бы использовалось РКИ, то распределение z между подгруппами было бы случайным и его влияние в целом нивелировалось бы. Однако в данном случае неизвестно, (1) одинаково ли количество лиц с АГ в подгруппах и (2) влияет ли АГ на наличие ГЛЖ. Ответ на вопрос 2 по данным литературы, скорее всего, да. Соответственно, модель y=x+\epsilon для данного случая статистически неприемлима.
И не нужны здесь специалисты по спортивной медицине, эндокринологи и кардиологи. Отсутствие учета систематического фактора в модели нерандомизированного исследования - это статистическая ошибка, а не клиническая. Это неправильный выбор статистической модели, о чем, собственно, я и писал.
И именно студенты должны понимать ограничения методов и понимать, что получение р<0,05 не означает наличия причинно-следственных связей (доказательств) между фактором и результатом.
И в заключение - как объяснение занудства - короткий анекдот. Три человека - специалист по общественному здравоохранению, эпидемиолог и биостатистик летят на самолете на конференцию. Из окна хороший вид на землю и они замечают внизу большое пасущееся стадо черных овец. Они пролетают над графством Эссекс.
Организатор здравоохранения: "Как много в графстве Эссекс черных овец"
Эпидемиолог: "На юго-востоке графства Эссекс пасется большое стадо черных овец"
Биостатистик: "На юго-востоке графства Эссекс пасется большое стадо овец, черных сверху"
DrgLena
29.12.2007 - 18:16
Не могу согласиться, что эта задачка из «рандомизированного контроллируемого проспективного исследования», как вы пытаетесь нам объяснить. Это скорее всего обсервационное исследование, которое может быть либо когортное (вы просто наблюдаете всех старшеклассников одного города и рандомизировать никого никуда не нужно и цель исследование нам не известна), либо исследование типа case- control, что тоже относится к когортному, а не к рандомизированному. Сase ? ГЛЖ, тогда изучаются факторы с ним связанные. И уместно OR. Ожирение связано с ГЛЖ, но не обязательно напрямую. Возможно, в рамках того же когортного исследования стоит задача проанализировать взаимодействие нескольких факторов, т.е. и ожирения и АГ (модификация эффекта).
Известно, что мужчины чаще болеют ИБС, чем женщины. Однако, это может быть связано не с полом, а с тем, что мужчины чаще курят и больше едят баранину. Но при этом баранину рассматривают почему то все же как confounding factor.
О доказательстве причинно-следственной связи хорошо пишут Флетчеры и Вагнер
Неплохо бы внимательно читать пост, прежде, чем обвинять других в непонимании приведенных примеров. Цитирую самого себя:
"Соответственно, базируясь на допущениях, которые использованы при выводе критерия Фишера (и всех остальных унивариантных критериев для таблиц сопряженности) можно сказать, что выбранная PLE методка для анализа является не адекватной, поскольку она не предполагает наличие рандомизированного контролируемого эксперимента"
Именно потому, что та задачка была не РКИ, использование критерия Фишера является статистической ошибкой, ибо критерий разрабатывался исходя из предположения об использовании РКИ (точнее, вообще эксперимента, а не квазиэкспериментального дизайна, к которому относятся когортные исследования и исследования по типу случай-контроль).
И так, на всякий случай, исследования по типу случай-контроль никогда не относились к когортным исследованиям, ибо иной принцип отбора (при исследованиях по типу случай-контроль случаи отбираются из популяции больных, а контроли - из популяции здоровых, соответственно, оценить относительный риск - увеличения риска наступления исхода при наличии фактора - в подобных исследованиях не представляется возможным). В когортных исследованиях, группы отбираются по принципу воздействия фактора и, соответственно, оценить относительный риск можно. Кстати, обследование всех старшеклассников города - это не когортное исследование, а скриниговое, чаще всего превращающееся в исследование по типу случай-контроль. А если Вы наблюдаете за ними, то тогда Вам должна быть известна цель исследования, иначе когорты отбираются не те и не для того.
DrgLena
5.01.2008 - 00:24
Давайте вернемся к нашим баранам, вернее к черным сверху овцам и не будем гадать на кофейной гуще, какой тип исследования предполагал PLE. Если case-contr исследование и ГЛЖ ? case, то ожирение - фактор риска и его оценка по канонам EBM ? расчет отношения шансов (OR) и соответствующего ДИ. Наиболее известное исследование такого типа - исследование факторов риска синдрома внезапной детской смертности у младенцев. Анализировали около 100 факторов риска, один фактор признан защитным - использование пустышки OR<1.
Если оценивают риски в когортном исследовании, то это делают путем расчета относительного риска или отношения рисков (RR), которое показывает во сколько раз выше заболеваемость у лиц подвершихся фактору риска, чем у не подвергшихся. Пример - курение и сертность от рака легкого.
Напомню, что PLE методику анализа не выбирал, а спросил на форуме, достоверны ли различия чатосты развития ГЛЖ у ожирелых и нормальных, а вы ему про "квазиэкспериментальный дизайн"....
Вопрос, напомню, был какой критерий лучше использовать для анализа проведенного исследования (посмотрите первый пост). Соответственно, используемый критерий должен соответствовать выбранному дизайну, не случайно, например, в протоколах клинических испытаний (да и во всех протоколах исследований) методы статистической обработки прописываются ДО начала исследования, исходя из его дизайна. Если выбран квазиэкспериментальный дизайн типа СК или когортных исследований, то - в сравнении с рандомизированным испытанием - в статистической модели присутствуют не только случайные факторы, но и систематические факторы. Половина всех текстов по ЕВМ (да и учебников эпидемиологии, если уж на то пошло), посвящена описанию систематических ошибок (bias), которые возникают при использовании квазиэкспериментальных дизайнов.
Соответственно, статистически правильным подходом в случае выбора данного дизайна является построение многофакторной модели с учетом известных факторов, которые могли повлиять на исход. Повторюсь, использование унивариантных критериев (любых), в данном случае является ошибкой, ибо они исходят из предположения о рандомизированном характере эксперимента.
Кстати Ваш пример с SIDS очень хорошо иллюстрирует этот подход - анализировались не один фактор, а много, и был выбран тот, который независимо повышал риск смерти (плюс еще была коррекция по социально-экономическим показателям, возрасту матери и т.д.). Если использован дизайн случай-контроль - надо строить модель (чаще всего логистическую), правда всех проблем это не решит (остается, например, ошибка селективной смертности, которая вообще может превратить протективный фактор в фактор риска), однако учтет очевидные. Связь между ГЛЖ и АГ является хорошо задокументированной, между АГ и ожирением так же. Соответственно, игнорирование этой третьей переменной в исследовании является примером плохой организации исследования и, честно говоря, столь горячее отстаивание права на проведение очевидно плохого исследования у меня вызывает удивление. Тем более, что измерение АД в этих группах не является сложным, не требует дорогостоящего или инвазивного вмешательства, т.е. не может быть оправдано никаким образом.
DrgLena
5.01.2008 - 13:46
Полностью согласна. Дизайн исследования определяет методы анализа. Но чаще всего именно руководители (старшие товарищи) не обременяют себя подобными знаниями и в результате, врач-аспирант собирает материал и считает, что чем больше собрал, тем лучше будет диссертация. А при анализе начинают искать что-нибудь, чтобы достоверно различалось (р<0,05). Ведь мы рассматривали студенческую задачку, в которой по входным данным, нельзя сделать однозначный вывод. Ее ведь кто-то именно так и сформулировал.