Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Доверительный интервал или критерий Стьюдента?
Игорь
сообщение 4.10.2008 - 15:06
Сообщение #16





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Как оказалось, можно подтвердить и ту, и другую точки зрения. Есть масса данных, подтверждающих точку зрения DrgLena. А вот, к примеру
Выборка 1
0,18
0,27
0,19
0,36
0,43
Выборка 2
0,41
0,38
0,73
0,49
0,58

Критерий Вилкоксона
Статистика
17,00
P-значение (двустороннее)
0,0184
Параметры выборок с доверительными интервалами
Выборка 1
Медиана 0,27
Нижний 95% 0,18
Верхний 95% 0,43
Выборка 2
Медиана 0,49
Нижний 95% 0,38
Верхний 95% 0,73

ДИ пересеклись

Критерий Стьюдента для независимых выборок
2,91
P-значение (двустороннее)
0,0196
Параметры выборок с доверительными интервалами
Выборка 1
Среднее 0,29
Нижний 95% 0,15
Верхний 95% 0,42
Выборка 2
Среднее 0,52
Нижний 95% 0,34
Верхний 95% 0,69

ДИ пересеклись


Сообщение отредактировал Игорь - 4.10.2008 - 15:16


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.10.2008 - 18:24
Сообщение #17





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Так я же вышел писал, что разная мощность критериев. Можно взять одни и те же данные (главное, небольшую выборку), использовать критерий знаков и критерий Вилкоксона и получить разные значения р - один выше 0,05 (для знаков), другой - ниже. Тут ничего удивительного нет.
По поводу доверительных интервалов медианы - их не считают поскольку формулы для рассчета базируются на разных допущениях и единого мнения по поводу адекватности допущений нет. Вспомните проблемы (в другой ветке) формулы ДИ для долей и все станет понятно - то же самое. Формула ДИ медианы, которую я люблю использовать, например, базируется на биномиальном распределении (а многие формулы вообще использую нормальную аппроксимацию).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 4.10.2008 - 21:01
Сообщение #18





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Для примера Игоря вряд ли целесообразно считать 95% ДИ для средних из 5 наблюдений. Какой смысл указывать диапазон, в котором будет находиться 95% из 5 наблюдений.
Медианы и квартили дают полное представление о данных, что и представленно на рисунке. Но рисунки похоже не грузятся.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.10.2008 - 14:09
Сообщение #19





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 4.10.2008 - 21:01) *
Для примера Игоря вряд ли целесообразно считать 95% ДИ для средних из 5 наблюдений. Какой смысл указывать диапазон, в котором будет находиться 95% из 5 наблюдений.
Медианы и квартили дают полное представление о данных, что и представленно на рисунке. Но рисунки похоже не грузятся.

Это просто очень хороший, по нашему мнению, пример для иллюстрации того факта, что метод ДИ и любой из методов проверки гипотез (в сопоставимой шкале, естественно) не всегда дают эквивалентные результаты. Т.о., имеется возможность для манипуляции выводами так, как это необходимо исследователю (зачем это ему нужно - отдельный вопрос). В результате снижается доверие к статистическим методам исследования. Если не дать объяснение данному факту, сторонники отрицания статистических методов получают мощный козырь в своих логических построениях, вплоть до полного отрицания возможности их применения в медико-биологических исследованиях.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 5.10.2008 - 14:42
Сообщение #20





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Как уже было замечено в этой ветке дискуссии, разные методы сравнения обладают разной мощностью (другое название - чувствительностью). Мощность - это вероятность обнаружения различий (болезни). Хи-квадрат и Фишер показали, что заболеваемость в 2-х выборках - завода и города отличается, а метод пересечения доверительных интервалов не уловил отличий. Следовательно, первые два метода обладают бОльшей мощностью. Задача исследователя в данной ситуации не выбирать метод, результаты которого его устраивают, а воспользоваться методом с наибольшей МОЩНОСТЬЮ.

Сообщение отредактировал DoctorStat - 5.10.2008 - 15:20


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.10.2008 - 15:43
Сообщение #21





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DoctorStat @ 5.10.2008 - 14:42) *
Задача исследователя в данной ситуации не выбирать метод, результаты которого его устраивают, а воспользоваться методом с наибольшей МОЩНОСТЬЮ.

К сожалению, данная фраза обратима. На деле справедливо и обратное: можно выбрать метод, обладающей той мощностью, которая обеспечит подгонку выводов под требуемый результат.

Относительно приведенных выше данных. Если в статье требуется показать, что нет оснований отвергнуть гипотезу о различиях, используем Стьюдента или Вилкоксона. Если наоборот - используем метод ДИ.

Сообщение отредактировал Игорь - 5.10.2008 - 15:46


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 9.10.2008 - 07:49
Сообщение #22





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Доверительные интервалы стали модной темой, и это следует признать. От неправильного применения критерия Стьюдента исследователи плавно перешли к неправильному применению доверительных интервалов.

Вообще, что означает, скажем, 95% доверительный интервал? Он означает, что 95% значений популяции (при условии нормального распределения ошибки) будет находиться в пределах данного интервала. И нечего более. Построить 95% интервал, затем брать случайные величины и смотреть, попадают ли они в этот интервал. Если попадают - делать вывод об некоем отсутствии различия между данной величиной и центром интервала - полная [если не сказать еще грубее] профанация идеи доверительных интервалов.

Обратите также внимание, что нормальность ошибки никто не тестировал! А ДИ построены в предположении нормальности.

Попытка "создать" метод проверки гипотез по названием "метод доверительных интервалов" вызывает, мягко говоря, удивление, ибо данный метод, на ходу "созданный" неким рецензентом в попытке найти метод получить заранее заданный результат (написать отрицательную рецензию) и так горячо поддержанный некоторыми участниками форума не имеет:
1. Сформулированных нулевой и альтернативной гипотез.
2. Статистики критерия.
3. P-значения.
Нет тут никого критерия и никакой "мощности". О профанации см. выше.

Во-вторых, "положения" случайных величин из двух популяций в пределах их доверительных интервала не равноценны. Если уж пользоваться для сравнения (очень примерного - сказал бы, глазомерного) случайных величин новоявленным методом, то следует изображать их не в виде подобия ящика с усами, а в виде функций [нормального] распределения ошибки, причем на одном поле графика. Тогда по крайней мере будет видно, расположена величина близко к центру распределения или на его хвосте (на пересечении хвостов). Можно будет также вычислить P-значение.

Собственно, вот мы и пришли к критерию Стьюдента. И автор темы был совершенно прав. И критерий такой есть - похожий на Стьюдента. Называется Z-критерий для долей и представлен в литературе.


Сообщение отредактировал Игорь - 9.10.2008 - 16:33


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 10.10.2008 - 19:03
Сообщение #23





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 9.10.2008 - 08:49) *
Доверительные интервалы стали модной темой, и это следует признать. От неправильного применения критерия Стьюдента исследователи плавно перешли к неправильному применению доверительных интервалов.

Вообще, что означает, скажем, 95% доверительный интервал? Он означает, что 95% значений популяции (при условии нормального распределения ошибки) будет находиться в пределах данного интервала. И нечего более. Построить 95% интервал, затем брать случайные величины и смотреть, попадают ли они в этот интервал. Если попадают - делать вывод об некоем отсутствии различия между данной величиной и центром интервала - полная [если не сказать еще грубее] профанация идеи доверительных интервалов.

Обратите также внимание, что нормальность ошибки никто не тестировал! А ДИ построены в предположении нормальности.

Попытка "создать" метод проверки гипотез по названием "метод доверительных интервалов" вызывает, мягко говоря, удивление, ибо данный метод, на ходу "созданный" неким рецензентом в попытке найти метод получить заранее заданный результат (написать отрицательную рецензию) и так горячо поддержанный некоторыми участниками форума не имеет:
1. Сформулированных нулевой и альтернативной гипотез.
2. Статистики критерия.
3. P-значения.
Нет тут никого критерия и никакой "мощности". О профанации см. выше.

Во-вторых, "положения" случайных величин из двух популяций в пределах их доверительных интервала не равноценны. Если уж пользоваться для сравнения (очень примерного - сказал бы, глазомерного) случайных величин новоявленным методом, то следует изображать их не в виде подобия ящика с усами, а в виде функций [нормального] распределения ошибки, причем на одном поле графика. Тогда по крайней мере будет видно, расположена величина близко к центру распределения или на его хвосте (на пересечении хвостов). Можно будет также вычислить P-значение.

Собственно, вот мы и пришли к критерию Стьюдента. И автор темы был совершенно прав. И критерий такой есть - похожий на Стьюдента. Называется Z-критерий для долей и представлен в литературе.

Не могу не встрять, поскольку критика доверительного интервала основана на не совсем правильном его описании.
1) доверительный интервал интервалу рознь. Чаще всего рассчитываются доверительные интервалы выборочных средних (медиан и т.п.) А вот тут интервал - это интервал в котором с 95% вероятностью содержатся все возможные выборочные средние. Так что если два интервала не перекрываются в первом приближении можно считать, что общих выборочных средних у них быть не должно, поскольку они из разных популяций (для пуристов добавлю, что я знаю, что в реальности доверительный интервал - это такой интервал, который, будучи построен на выборочных средних будет пересекаться у 95% всех возможных выборок из данной популяции). Соответственно, нормальное распределение тут - по центральной предельной теореме - ни при чем, при достаточно большой выборке средние (медианы) будут всегда распределены нормально.
2) доверительные интервалы более информативны, чем р-оценка по причине демонстрации читателю (через ширину интервала, которая отражает ошибку) качества исследования
3) z-критерий и t-критерий различны по одной простой причине. Z-критерий предполагает нормальное распределение параметра (в данном случае долей) с известной дисперсией - это в описанном выше случае явно не выполнялось. T-критерий предполагает оценку дисперсии на основании выборочной дисперсии. Иными словами, предлагая z-критерий делается предположение о нормальном распределении выборочных долей, которое критикуется абзацем выше для доверительного интервала.
4) Учитывая все выше сказанное, рецензент был абсолютно прав, предлагая использование доверительных интервалов, но сранвение выборок путем сравнения доверительных интервалов имеет меньшую мощность, хотя так же закономерно, как использование аппроксимационных методов типа z-критерия и хуже и хуже, чем использование методов не предполагающих нормальность распределение выборочных долей (т.е. не так зависящих от размера выборки) как критерии хи2 или Фишера.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 11.10.2008 - 17:44
Сообщение #24





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(плав @ 10.10.2008 - 20:03) *
в первом приближении можно считать, что ...

Именно. Предлагаемый рецензентом метод имеет мощность глазомерного метода - т.е. никакую. Такой же или еще большей мощности результат можно получить гораздо проще. Подойти к какой-нибудь бабушке на лавочке возле дома и спросить: "Какая у Вас распространенность такого-то заболевания по региону?" - "6,7%, милок!" А ведь тоже критерий. И мощность у него какая-то есть. А уж стоимость исследования вне конкуренции.

Я совсем не отрицаю полезности доверительных интервалов в конкретном случае. Их можно, по крайней мере, красиво изобразить, увеличив наглядность восприятия.

Мы немного позабыли, о чем речь в первом посте инициатора темы. Некто строит доверительные интервалы для некоторого параметра популяции - Свердловской области. Потом берет точечные оценки этого же, как он предполагает, параметра по некоторым частям этой популяции и смотрит, попадают ли эти точечные оценки в интервал. Не сравнение двух интервальных оценок - бог с ними (в принципе можно, хотя и не нужно - есть более годные методы), а сравнение интервальной оценки с точечной оценкой.

Теперь пример (модельный, т.к. реальные данные не полные)
Пусть есть 76 случаев и 1000 неслучаев.
Тогда рассчитанная доля 0,07063197
Дисперсия доли 0,007810672
Доверительный интервал доли
Нижний 95% 0,056050251
Верхний 95% 0,087611659

Пользуясь логикой рецензента, 0,05 и 0,09 не входят в 95% интервал. Следовательно, отличаются от доли.

Теперь будет фокус. Посчитаем 99% интервал
Нижний 99% 0,051988615
Верхний 99% 0,09318096

О чудо: 0,05 и 0,09 входят в 99% интервал. Следовательно, не отличаются от доли.

Теперь ее круче. Посчитаем 99,9% интервал.
Нижний 99,9% 0,047520516
Верхний 99,9% 0,099895701

Нет. Это просто фантастика. Возможности метода безграничны!
Почему так? Да метод - прошу прощения, некорректен.

Даже простая логика показывает, что заболеваемость (тем более в Свердловской или иной области за Уралом) будет различаться в различных ее регионах или на предприятиях, или в рабочих поселках при этих предприятиях. Например, большой завод или, к примеру, отделение дороги, имеет свою, часто мощную, санчасть: регулярные профосмотры, диспансеризация, санатории позволяют нейтрализовать воздействие вредных факторов, даже если они имеют место. С другой стороны - обычное население, здоровье которого - их личное дело, когда даже простого направления в областной кардиодиспансер (который без направление не принимает) обычные пенсионеры добиваются от участкового терапевта по полтора года!


Сообщение отредактировал Игорь - 11.10.2008 - 21:26


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 12.10.2008 - 19:01
Сообщение #25





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Честно говоря, я этого возражения просто не понял. Если мы берем 99% доверительный интервал, то он шире, чем 95%. А если мы берем р-оценку, то 0,01 меньше, чем 0,05. В чем тут различия и в чем фантастика.
По-моему тут начинается путаница с вообще представлением о том, на какие вопросы отвечает статистика. Мы всегда пытаемся определить степень ошибочности наших заключений. Взяв выборку и рассчитав ДИ (95%) мы считаем, что скорее всего эта выборка пришла из иной популяции, нежели общее население области (гомогенное население). А если мы возьмем 100% ДИ, то любые (популяционные) значения будут совместными с данной выборкой ибо, как известно, возможно все кроме проезда на лыжах сквозь вращающуюся дверь.
Подчеркну, чтобы не было недопониманий. НИКАКИХ различий (теоретических) в использовании ДИ для тестирования статистических гипотез в отличии от методов, основанных на расчете статистик НЕТ. Соответственно, мощность, не умозрительная, а также легко оцениваемая, как для t-теста или критерия хи2.
Метод абсолютно корректен, более того, обратите внимания на простейшую ситуацию:
ДИ=m+/-t*s => (1/2ДИ - m)= t*s => t=(X-m)/s,
т.е. нижняя граница ДИ для (непрерывной величины) - это значения, которому соответствует р=0,05.
Еще раз - ДИ и расчеты статистик одинаковы с точки зрения оценки результатов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
hongma
сообщение 13.10.2008 - 07:48
Сообщение #26





Группа: Пользователи
Сообщений: 6
Регистрация: 29.06.2008
Пользователь №: 5123



Цитата(Игорь @ 4.10.2008 - 14:52) *
И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть.

И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.

Здравствуйте smile.gif
Ну, во-первых, не всегда вообще очень хорошо работать с доверит.интервалом. Тут как раз такой случай и есть - считается интервал для сравнительно небольшой выборки и распространяется повсюду. Если уж им пользоваться, то лучше наоборот - брать значение доверит. интервала из наибольшей выборки. Далее. Общая стратегия оценки различий - стараться использовать несколько критериев и если хоть один из них дает высокую вероятность - отличия есть. Там, правда, есть некоторые тонкости,но они пока здесь не нужны. Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка. Подозреваю, что если почитать, скажем, Вилкоксона - тоже будут значимые различия выборок. Для полной очистки совести стоит попробовать так и сделать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.10.2008 - 09:20
Сообщение #27





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(hongma @ 13.10.2008 - 08:48) *
Здравствуйте smile.gif
Ну, во-первых, не всегда вообще очень хорошо работать с доверит.интервалом. Тут как раз такой случай и есть - считается интервал для сравнительно небольшой выборки и распространяется повсюду. Если уж им пользоваться, то лучше наоборот - брать значение доверит. интервала из наибольшей выборки. Далее. Общая стратегия оценки различий - стараться использовать несколько критериев и если хоть один из них дает высокую вероятность - отличия есть. Там, правда, есть некоторые тонкости,но они пока здесь не нужны. Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка. Подозреваю, что если почитать, скажем, Вилкоксона - тоже будут значимые различия выборок. Для полной очистки совести стоит попробовать так и сделать.

И с чего это такой совет? Итак, доверительный интервал - это интервал, который рассчитывается на основании ВЫБОРОЧНЫХ данных и показывает множество точечных значений, совместимых с этой выборкой. А Вы предлагаете взять и использовать точечное значение как будто оно является постоянной величиной, а не точной.
То, что написано как стратегия оценки является - скажем мягко - не совсем верно. Тест выбирается на основе знания особенностей популяции и предположений о характере популяционных данных. Предложение использовать несколько тестов и смотреть на тот, что дает наибольшие различия (кстати, с высокой вероятностью - как раз не даст различий, р=0,07 > р=0,03) является, опять-таки мягко говоря, не вполне профессиональным.
Кроме того, автор поста, похоже, не читал ветку - речь идет о сравнении долей. Если же он читал и в этом случае его рекомендация "Поэтому здесь раз Стьюдент дал отличие - оно значимо и точка", то подобные "революционные" заявления требуют подкрепления ссылками.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nikita
сообщение 27.10.2008 - 01:53
Сообщение #28





Группа: Пользователи
Сообщений: 8
Регистрация: 30.08.2008
Пользователь №: 5242



Цитата(Игорь @ 4.10.2008 - 13:52) *
И все-таки вопрос открыт. Автор темы затронул важную проблему. И она шире доли с ДИ. А именно: почему статистический критерий показывает результаты, отличные от результатов сравнения параметров с ДИ? Естественно, критерий соотвествует данным. Тут автор немного ошибся (доли и Стьюдент). Если поправить - доли с ДИ и ТМФ, либо медианы с ДИ и Вилкоксон, либо средние с ДИ и Стьюдент. Не суть важно - соотношения закономерны. Всегда по параметру с ДИ отличий нет, по критерию - есть. И хотелось бы получить ответ на данный вопрос. Иначе - хотим различия - берем критерий проверки гипотез. Не хотим различий - смотрим ДИ. В конкретном случае - хотим доказать, что различия есть - берем ТМФ. Хотим завалить статью - берем ДИ и доказываем, что различий нет.

Уважаемые господа! Надо все-таки расставить точки над i в вопросе о применимости ИН - интервалов накрытия (синонимы: интервалы доверия или доверительные интервалы) при проверках статистических гипотез. Ответ этот известен давно (не мной придуман) и однозначен. Да, ИН не только можно, но крайне желательно применять наряду с P-значением (или даже вместо него). Потому что между интервалом накрытия и проверкой статистических гипотез имеет место наитеснейшая связь, фактически однозначное соответствие. Это общеизвестный факт.
Логика в этом деле предельно проста. Судите сами: 1-a есть вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень), где ее дополнение "a" выбирается по возможности (разумно) малым и называется уровнем значимости. Вот и все: процедура проверки статистических гипотез фактически равноценна процедуре интервального оценивания. Вероятность накрытия неизвестного (оцениваемого) параметра соответствующим интервалом накрытия и уровень значимости суть две стороны одной медали. Ибо вероятность НЕНАКРЫТИЯ и есть уровень значимости. Об этом написаны статьи и книги, масса информации в Интернете. Наберите, например, в Amazon ключевые слова confidence intervals, и Вы увидите, сколько в мире книг на эту тему. Для биомедиков основным руководством очевидно следует признать книгу с удачным названием Statistics with Confidence («Статистика с доверием"). См. также популярные статьи внизу. На русском языке кратко об этом можно прочитать у Бикела-Доксама, Королева (и многих других).
Вопрос только в том, для каких (неизвестных оцениваемых) параметров надо строить интервалы накрытия (ИН), чтобы с их помощью можно было бы проверять статистические гипотезы. Понятно, что строить ИН для (неизвестной) доли р1* - параметра распределения (Бернулли), из которого извлечена первая выборка и для (тоже неизвестной) доли р2* - тоже параметра распределения (Бернулли), из которого извлечена вторая выборка, и смотреть, перекрываются ли они или нет, - не лучший вариант. Конечно, если они не перекрываются, то это - довольно убедительное свидетельство о различии этих параметров. Мы, однако же, обычно проверяем нулевую гипотезу Но об отсутствии различий между р1* и р2*, т.е. гипотезу о том, что их разность (как соответствующий параметр совместного распределения) равна нулю: Но: d* = р1* - р2* = 0 (отсюда и название гипотезы - «нулевая»). Это значит, что ИН надо строить для параметра d*. Соответствующие процедуры (как точные, так и приближенные, асимптотические) тоже давно известны.
На ум приходит пример Naum, который она всем нам любезно представила на обсуждение . Здесь мы имеем точечную оценку для искомой разности d* (оцениваемой по имеющимся двум независимым выборкам) d = p1 - p2 = 0,094 - 0,048 = 0,046. Левая (нижняя) и правая (верхняя) границы точного 95%-го ИН для d* суть d(left) = 0,00076 и d(right) = 0,097. Границы точного 99%-го ИН суть d(left) = -0,0097 и d(right) = 0,11, и границы точного 99,9%-го ИН суть d(left) = -0,025 и d(right) = 0,14. (Не путать созвучные слова «точечный» и «точный»).
Теперь остается самая малость. Удобно не полениться и сделать проверку гипотезы Но с помощью интервала накрытия (ИН) наглядной (визуализировать такую проверку). Для этого на листе клетчатой бумаги стоит провести горизонтальную линию со стрелочкой на правом конце, которая будет отражать числовую ось для возможных значений d*, и разметить ее в подходящем арифметическом масштабе. Например, для нашего примера слева от нуля можно пометить значения -0,03; -0,02 и -0,01. А справа - значения 0,1; 0,2 и 0,3 (все шесть точек в одном и том же масштабе). Обязательно надо отметить рисочкой значение d=0. Для пущей важности от этого значения d = 0 можно провести вниз стрелочку и подписать «Но», что означает, что это значение постулируется нулевой гипотезой Но: d=0. Теперь над этой числовой осью можно нарисовать друг над другом три отрезка с границами, соответствующими границам трех полученных ИН. Ну вот и все. Логика предельно проста.
Если (1-a)х100%-й интервал накрытия накрывает значение d=0, постулируемое нулевой гипотезой (Но: d*=0), то у нас нет оснований полагать, что неизвестное нам значение разности d*, которое мы оцениваем с помощью данного интервала, статистически значимо отличается от значения d=0. Иными словами, в этом случае у нас нет оснований сомневаться в гипотезе Но (на уровне значимости ?a?). На основании того, что наш ИН накрывает значение d=0, нам ничего не остается, как признать, что разность между изучаемыми долями d*= p1*- p2* не отличается статистически значимо от нуля, т.е. наблюдаемые между двумя сравниваемыми долями различия статистически незначимы: неизвестные p1* и р2* практически неразличимы.
Ежели (1-a)х100%-й ИН не накрывает значение d=0, постулируемое гипотезой Но, то у нас появляется основание сомневаться в правильности этой гипотезы (на уровне значимости ?a?). Иными словами, в таком случае у нас появляется основание полагать, что оцениваемое с помощью данного ИН неизвестное нам значение параметра d* скорее всего отличается от значения d=0 (статистически значимо на уровне ?a?), т.е. скорее всего неизвестное нам значение разности d*=p1*-p2* статистически значимо отличается от нуля. Итак, мы совершаем акт интеллектуальной смелости: на основании того, что наш ИН (для d*) не накрывает значение d=0, мы берем на себя ответственность утверждать, что d* не равно 0, что различия между долями p1* и p2* статистически значимы на уровне "a", т.е. скорее всего неизвестные нам p1* и p2* не равны.
Итак, критерий очень простой. Накрывает ИН «нулевое значении» - нет оснований засомневаться в Но и попытаться ее отклонить. Не накрывает - появляется сомнение в Но и, соответственно, основание отклонить Но. Аналогичным образом, можно использовать такие показатели, как OR (отношение "шансов" - odds ratio) и RR (отношение рисков или относительный риск - risk ratio, relative risk). Их точечные оценки суть: OR=2,07 и RR=1,97. Для OR точные границы 95%-го ИН суть OR(left) = 1,002 и OR(right) = 4,315. Границы точного 99%-го ИН суть OR(left) = 0,81 и OR(right) = 5,38, и границы точного 99,9%-го ИН суть OR(left) = 0,63 и OR(right) = 7,00. Для RR точные границы 95%-го ИН суть RR(left) = 1,046 и RR(right) = 4,46. Границы точного 99%-го ИН суть RR(left) = 0,83 и RR(right) = 4,65, и границы точного 99,9%-го ИН суть RR(left) = 0,66 и RR(right) = 6,00. Для них также рекомендуется не полениться и произвести визуализацию, т.е. построить числовые оси, на которых надо отметить значения 1, соответствующие значениям OR или RR при условии справедливости нулевых гипотез: Но: OR*=1 и Ho: RR*=1. Над этими числовыми осями следует отобразить все три ИН для каждого из трех доверительных уровней. Критерий, естественно все тот же: накрытие или ненакрытие значений OR*=1 или RR*=1, постулируемых нулевыми гипотезами. Для всех трех показателей (d, OR и RR) результаты и выводы идеально согласуются. 95%-е интервалы накрытия (ИН) не накрывают значения, постулируемые нулевыми гипотезами (d*=0, OR*=1 и RR=1). Соответственно (чисто формально) можно выразить сомнение в этих гипотезах и отклонить их, но только на уровне значимости a=0,05. Но уже на уровне a= 0,01 нет оснований сомневаться в этих нулевые гипотезах и отклонять их, поскольку 99%-е (и уж тем более 99,9%-е) ИН накрывают значения, постулируемые нулевыми гипотезами. Этот вывод согласуется и с наблюдаемыми точными Р-значениями: Р{d}=0,0410; P{OR}=0,0493 и P{RR}=0,0357. Все они меньше критического уровня a=0,05, но больше 0,01 (и 0,001).
Может встать вопрос, почему эти три Р-значения немного различаются? Да потому что для нахождения каждого из них используются разные меры отклонения от ожидаемых значений, постулируемых Но: d, OR и RR, соответственно. В этом нет ничего удивительного. Точное Р-значение для точного критерия Фишера тоже немного другое: P{Fisher} = 0,0350 (оно основано на вычислении вероятностей для каждой из всех возможных таблиц 2х2). Точное Р-значение на основе статистики критерия хи-квадрат (X2) тоже несколько иное: P{X2}=0,0352. Точное Р-значение на основе статистики G2 (синонимы: статистика информационного критерия или статистики критерия отношения правдоподобий) вообще оказывается немного большим критического 0,05: P{G2}=0,052, а Р-значение для критерия Барнарда получается немного меньше всех других: P{Barnard}=0,030.
Только я бы не зацикливался на этих скромных различиях и не радовался бы, что вот, мол, критерий Барнарда как наиболее мощный якобы дает мне основание отклонить Но (Ура!). Во многих руководствах говорится, что значимость (различий, эффектов, корреляций и т.п.) на уровне 0,05 не следует воспринимать со звериной серьезностью. В нашем учебнике (с. 92), например, сказано, что «если 0,01 < P < 0,05, то результат считается неопределенным».
Между ИН и Р-значением действительно имеется строго однозначное соответствие. Когда обе процедуры выполнены корректно, то если вместо одного из традиционных значений альфа (0,05; 0,01 или 0,001) подставить наблюдаемое Р-значение (P{набл.}) и построить ИН с доверительным уровнем (1-Р{набл.}), то «по определению» левая (нижняя) граница такого ИН должна равняться нулю. В данном случае точное наблюдаемое Р{набл.} = 0,041, соответственно, строим 95,9%-й ИН. Получаем, что левая (нижняя) граница интервала накрытия для неизвестного параметра d* получается равной d(left) = 5,6x10-7, что практически не отличается от нуля. Аналогичным образом ведут себя и ИН для OR и RR. Для OR точное Р=0,0493. Левая (нижняя) граница соответствующего 95,07%-го ИН оказывается равной в точности 1 (d(left) = 1). Для RR точное Р=0,0357. Левая (нижняя) граница соответствующего 96,43%-го ИН опять-таки оказывается в точности равной 1: d(left) = 1. Понятно, что в данных случаях значения OR=1 и RR=1 соответствуют нулевой гипотезе о независимости между двумя выборками (или об их статистической однородности). Практически концы с концами (в прямом и переносном смыслах) сошлись. Ч.т.д. - что и требовалось доказать. Вот и вся любовь.
Все приведенные цифры получены с помощью известного пакета точных непараметрических методов анализа статистических данных StatXact-8 (Cytel, Inc. USA). Этот пакет (и его ответвления типа LogXact, Egret, East, производимые той же фирмой Cytel) в частности рекомендован FDA для анализа результатов клинических испытаний. Конечно, если использовать грубые асимптотические методы, такого идеального согласования заведомо не будет получено. Не отсюда ли у наших форумчан возникает заблуждение-убеждение, что интервалы накрытия (ИН) якобы не пригодны для проверки статистических гипотез? Отнюдь, именно ИН фактически позволяют оценить не только статистическую значимость различий (эффектов и т.п.), но и осознать практическую (клиническую, эпидемиологическую и проч.) ценность (важность) наблюдаемых эффектов (размер эффекта).
Confidence intervals rather than P values: estimation rather than hypothesis testing. MARTIN J GARDNER, DOUGLAS G ALTMAN. BMJ V. 292 (1986) p. 746-750. Interpreting statistics with confidence. Martin Bland, Janet Peacock. The Obstetrician & Gynaecologist, 2002, V. 4, No. 3, p. 176-180. Confidence Intervals and Hypothesis Testing. Greg Kochanski. http://kochanski.org/gpk
Confidence intervals rather than P values: estimation rather than hypothesis testing. M J Gardner and D G Altman. BMJ (Clin Res Ed.) 1986, 292(6522):746-750.

Сообщение отредактировал Nikita - 27.10.2008 - 01:58
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 27.10.2008 - 07:27
Сообщение #29





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



У уважаемых форумчан (по крайней мере, у некоторых из них), возник не вопрос, можно или нельзя применить доверительные интервалы для проверки гипотез, а как правильно их применять. Поэтому некотрые из уважаемых и привели ряд примеров, когда предлагаемый неким Рецензентом (назовем его так) подход оказывается несостоятельным.

Что делает Рецензент? Строит ДИ. Правильно? Ну конечно, молодец! Далее, берет точечные оценки для других популяций и смотрит, попадают ли они в данный ДИ. Попадают? Попадают. Вывод - различий нет! Полный бред!

В пору просить уважаемого В.П. Леонова написать статью типа "Итоги становления отечественной доказательной медицины: от неправильного применения критерия Стьюдента - к неправильному применению доверительных интервалов".

Вот тут написано, как правильно использовать ДИ для проверки гипотез. Не сравнение ДИ одной популяции и точечной оценки другой популяции, не смотреть, перекрываются ли интервалы, а анализировать, на СКОЛЬКО и КАК именно они перекрываются!

Smith R.W. Visual hypothesis testing with confidence intervals // SAS Users Group International Online Proceedings (SUGI-22), March 16-19, 1997, San Diego, California. Paper 270-22, pp. 1252-1257. http://www2.sas.com/proceedings/sugi22/STATS/PAPER270.PDF

Сообщение отредактировал Игорь - 27.10.2008 - 12:51


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 29.10.2008 - 00:43
Сообщение #30





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Не уверена, что Леонову нужно писать статью с таким названием, можно скомпроментировать этот простой и наглядный метод сравнения. И ответ рецензента вряд ли можно назвать «бредом». Доказательная медицина - это совсем не про критерий Стьюдента. Кто не только считает, но и много читает, знает, что в международных медицинских журналах, в эпидемиологических исследованиях принято распространенность заболеваний приводить с доверительными интервалами. В этом случае, читатель сам может провести сравнения, если конечно, он понимает, что такое CI. А если не понимает, то станет утверждать, что у нас заболеваемость «К» (составляющая 4,7 на тыс.населения) ниже, чем в Германии (5,1), но выше чем в Греции (4,2) поскольку не обратил внимание на величину ДИ к точечной оценке распространенности в Германии и Греции, а к своей оценке вообще не знает, что его нужно было посчитать. А на сколько и как Ди перекрываются, вы как раз и увидите на соответствующих графиках.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V  < 1 2 3 >
Добавить ответ в эту темуОткрыть тему