Цитата(Игорь @ 4.10.2008 - 13:52)

И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть. И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.
Уважаемые господа! Надо все-таки расставить точки над i в вопросе о применимости ИН - интервалов накрытия (синонимы: интервалы доверия или доверительные интервалы) при проверках статистических гипотез. Ответ этот известен давно (не мной придуман) и однозначен. Да, ИН не только можно, но крайне желательно применять наряду с P-значением (или даже вместо него). Потому что между интервалом накрытия и проверкой статистических гипотез имеет место наитеснейшая связь, фактически однозначное соответствие. Это общеизвестный факт.
Логика в этом деле предельно проста. Судите сами: 1-a есть вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень), где ее дополнение "a" выбирается по возможности (разумно) малым и называется уровнем значимости. Вот и все: процедура проверки статистических гипотез фактически равноценна процедуре интервального оценивания. Вероятность накрытия неизвестного (оцениваемого) параметра соответствующим интервалом накрытия и уровень значимости суть две стороны одной медали. Ибо вероятность НЕНАКРЫТИЯ и есть уровень значимости. Об этом написаны статьи и книги, масса информации в Интернете. Наберите, например, в Amazon ключевые слова confidence intervals, и Вы увидите, сколько в мире книг на эту тему. Для биомедиков основным руководством очевидно следует признать книгу с удачным названием Statistics with Confidence («Статистика с доверием"). См. также популярные статьи внизу. На русском языке кратко об этом можно прочитать у Бикела-Доксама, Королева (и многих других).
Вопрос только в том, для каких (неизвестных оцениваемых) параметров надо строить интервалы накрытия (ИН), чтобы с их помощью можно было бы проверять статистические гипотезы. Понятно, что строить ИН для (неизвестной) доли р1* - параметра распределения (Бернулли), из которого извлечена первая выборка и для (тоже неизвестной) доли р2* - тоже параметра распределения (Бернулли), из которого извлечена вторая выборка, и смотреть, перекрываются ли они или нет, - не лучший вариант. Конечно, если они не перекрываются, то это - довольно убедительное свидетельство о различии этих параметров. Мы, однако же, обычно проверяем нулевую гипотезу Но об отсутствии различий между р1* и р2*, т.е. гипотезу о том, что их разность (как соответствующий параметр совместного распределения) равна нулю: Но: d* = р1* - р2* = 0 (отсюда и название гипотезы - «нулевая»). Это значит, что ИН надо строить для параметра d*. Соответствующие процедуры (как точные, так и приближенные, асимптотические) тоже давно известны.
На ум приходит пример Naum, который она всем нам любезно представила на обсуждение . Здесь мы имеем точечную оценку для искомой разности d* (оцениваемой по имеющимся двум независимым выборкам) d = p1 - p2 = 0,094 - 0,048 = 0,046. Левая (нижняя) и правая (верхняя) границы точного 95%-го ИН для d* суть d(left) = 0,00076 и d(right) = 0,097. Границы точного 99%-го ИН суть d(left) = -0,0097 и d(right) = 0,11, и границы точного 99,9%-го ИН суть d(left) = -0,025 и d(right) = 0,14. (Не путать созвучные слова «точечный» и «точный»).
Теперь остается самая малость. Удобно не полениться и сделать проверку гипотезы Но с помощью интервала накрытия (ИН) наглядной (визуализировать такую проверку). Для этого на листе клетчатой бумаги стоит провести горизонтальную линию со стрелочкой на правом конце, которая будет отражать числовую ось для возможных значений d*, и разметить ее в подходящем арифметическом масштабе. Например, для нашего примера слева от нуля можно пометить значения -0,03; -0,02 и -0,01. А справа - значения 0,1; 0,2 и 0,3 (все шесть точек в одном и том же масштабе). Обязательно надо отметить рисочкой значение d=0. Для пущей важности от этого значения d = 0 можно провести вниз стрелочку и подписать «Но», что означает, что это значение постулируется нулевой гипотезой Но: d=0. Теперь над этой числовой осью можно нарисовать друг над другом три отрезка с границами, соответствующими границам трех полученных ИН. Ну вот и все. Логика предельно проста.
Если (1-a)х100%-й интервал накрытия накрывает значение d=0, постулируемое нулевой гипотезой (Но: d*=0), то у нас нет оснований полагать, что неизвестное нам значение разности d*, которое мы оцениваем с помощью данного интервала, статистически значимо отличается от значения d=0. Иными словами, в этом случае у нас нет оснований сомневаться в гипотезе Но (на уровне значимости ?a?). На основании того, что наш ИН накрывает значение d=0, нам ничего не остается, как признать, что разность между изучаемыми долями d*= p1*- p2* не отличается статистически значимо от нуля, т.е. наблюдаемые между двумя сравниваемыми долями различия статистически незначимы: неизвестные p1* и р2* практически неразличимы.
Ежели (1-a)х100%-й ИН не накрывает значение d=0, постулируемое гипотезой Но, то у нас появляется основание сомневаться в правильности этой гипотезы (на уровне значимости ?a?). Иными словами, в таком случае у нас появляется основание полагать, что оцениваемое с помощью данного ИН неизвестное нам значение параметра d* скорее всего отличается от значения d=0 (статистически значимо на уровне ?a?), т.е. скорее всего неизвестное нам значение разности d*=p1*-p2* статистически значимо отличается от нуля. Итак, мы совершаем акт интеллектуальной смелости: на основании того, что наш ИН (для d*) не накрывает значение d=0, мы берем на себя ответственность утверждать, что d* не равно 0, что различия между долями p1* и p2* статистически значимы на уровне "a", т.е. скорее всего неизвестные нам p1* и p2* не равны.
Итак, критерий очень простой. Накрывает ИН «нулевое значении» - нет оснований засомневаться в Но и попытаться ее отклонить. Не накрывает - появляется сомнение в Но и, соответственно, основание отклонить Но. Аналогичным образом, можно использовать такие показатели, как OR (отношение "шансов" - odds ratio) и RR (отношение рисков или относительный риск - risk ratio, relative risk). Их точечные оценки суть: OR=2,07 и RR=1,97. Для OR точные границы 95%-го ИН суть OR(left) = 1,002 и OR(right) = 4,315. Границы точного 99%-го ИН суть OR(left) = 0,81 и OR(right) = 5,38, и границы точного 99,9%-го ИН суть OR(left) = 0,63 и OR(right) = 7,00. Для RR точные границы 95%-го ИН суть RR(left) = 1,046 и RR(right) = 4,46. Границы точного 99%-го ИН суть RR(left) = 0,83 и RR(right) = 4,65, и границы точного 99,9%-го ИН суть RR(left) = 0,66 и RR(right) = 6,00. Для них также рекомендуется не полениться и произвести визуализацию, т.е. построить числовые оси, на которых надо отметить значения 1, соответствующие значениям OR или RR при условии справедливости нулевых гипотез: Но: OR*=1 и Ho: RR*=1. Над этими числовыми осями следует отобразить все три ИН для каждого из трех доверительных уровней. Критерий, естественно все тот же: накрытие или ненакрытие значений OR*=1 или RR*=1, постулируемых нулевыми гипотезами. Для всех трех показателей (d, OR и RR) результаты и выводы идеально согласуются. 95%-е интервалы накрытия (ИН) не накрывают значения, постулируемые нулевыми гипотезами (d*=0, OR*=1 и RR=1). Соответственно (чисто формально) можно выразить сомнение в этих гипотезах и отклонить их, но только на уровне значимости a=0,05. Но уже на уровне a= 0,01 нет оснований сомневаться в этих нулевые гипотезах и отклонять их, поскольку 99%-е (и уж тем более 99,9%-е) ИН накрывают значения, постулируемые нулевыми гипотезами. Этот вывод согласуется и с наблюдаемыми точными Р-значениями: Р{d}=0,0410; P{OR}=0,0493 и P{RR}=0,0357. Все они меньше критического уровня a=0,05, но больше 0,01 (и 0,001).
Может встать вопрос, почему эти три Р-значения немного различаются? Да потому что для нахождения каждого из них используются разные меры отклонения от ожидаемых значений, постулируемых Но: d, OR и RR, соответственно. В этом нет ничего удивительного. Точное Р-значение для точного критерия Фишера тоже немного другое: P{Fisher} = 0,0350 (оно основано на вычислении вероятностей для каждой из всех возможных таблиц 2х2). Точное Р-значение на основе статистики критерия хи-квадрат (X
2) тоже несколько иное: P{X
2}=0,0352. Точное Р-значение на основе статистики G
2 (синонимы: статистика информационного критерия или статистики критерия отношения правдоподобий) вообще оказывается немного большим критического 0,05: P{G
2}=0,052, а Р-значение для критерия Барнарда получается немного меньше всех других: P{Barnard}=0,030.
Только я бы не зацикливался на этих скромных различиях и не радовался бы, что вот, мол, критерий Барнарда как наиболее мощный якобы дает мне основание отклонить Но (Ура!). Во многих руководствах говорится, что значимость (различий, эффектов, корреляций и т.п.) на уровне 0,05 не следует воспринимать со звериной серьезностью. В нашем учебнике (с. 92), например, сказано, что «если 0,01 < P < 0,05, то результат считается неопределенным».
Между ИН и Р-значением действительно имеется строго однозначное соответствие. Когда обе процедуры выполнены корректно, то если вместо одного из традиционных значений альфа (0,05; 0,01 или 0,001) подставить наблюдаемое Р-значение (P{набл.}) и построить ИН с доверительным уровнем (1-Р{набл.}), то «по определению» левая (нижняя) граница такого ИН должна равняться нулю. В данном случае точное наблюдаемое Р{набл.} = 0,041, соответственно, строим 95,9%-й ИН. Получаем, что левая (нижняя) граница интервала накрытия для неизвестного параметра d* получается равной d(left) = 5,6x10
-7, что практически не отличается от нуля. Аналогичным образом ведут себя и ИН для OR и RR. Для OR точное Р=0,0493. Левая (нижняя) граница соответствующего 95,07%-го ИН оказывается равной в точности 1 (d(left) = 1). Для RR точное Р=0,0357. Левая (нижняя) граница соответствующего 96,43%-го ИН опять-таки оказывается в точности равной 1: d(left) = 1. Понятно, что в данных случаях значения OR=1 и RR=1 соответствуют нулевой гипотезе о независимости между двумя выборками (или об их статистической однородности). Практически концы с концами (в прямом и переносном смыслах) сошлись. Ч.т.д. - что и требовалось доказать. Вот и вся любовь.
Все приведенные цифры получены с помощью известного пакета точных непараметрических методов анализа статистических данных StatXact-8 (Cytel, Inc. USA). Этот пакет (и его ответвления типа LogXact, Egret, East, производимые той же фирмой Cytel) в частности рекомендован FDA для анализа результатов клинических испытаний. Конечно, если использовать грубые асимптотические методы, такого идеального согласования заведомо не будет получено. Не отсюда ли у наших форумчан возникает заблуждение-убеждение, что интервалы накрытия (ИН) якобы не пригодны для проверки статистических гипотез? Отнюдь, именно ИН фактически позволяют оценить не только статистическую значимость различий (эффектов и т.п.), но и осознать практическую (клиническую, эпидемиологическую и проч.) ценность (важность) наблюдаемых эффектов (размер эффекта).
Confidence intervals rather than P values: estimation rather than hypothesis testing. MARTIN J GARDNER, DOUGLAS G ALTMAN. BMJ V. 292 (1986) p. 746-750. Interpreting statistics with confidence. Martin Bland, Janet Peacock. The Obstetrician & Gynaecologist, 2002, V. 4, No. 3, p. 176-180. Confidence Intervals and Hypothesis Testing. Greg Kochanski.
http://kochanski.org/gpk Confidence intervals rather than P values: estimation rather than hypothesis testing. M J Gardner and D G Altman. BMJ (Clin Res Ed.) 1986, 292(6522):746-750.