Критерий Мак-Немара, ДИ и P-значение |
Здравствуйте, гость ( Вход | Регистрация )
Критерий Мак-Немара, ДИ и P-значение |
28.03.2010 - 23:13
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Для анализа парных бинарных признаков (обследование одного человека несколькими методами с указанием наличия или отсутствия признака) используется AtteStat модуль описательная статистика для нахождения доли и ее ДИ (Клоппер-Пирсон и Агрести-Коул), а также модуль непараметрическая статистика (критерий Мак-Немара) для определения достоверной разницы между результатами получаемыми различными методами.
При использовании критерия Мак-Немара для парных выборок получается достоверное различие между двумя методами (P<0,001, двухстороннее). При вычислении ДИ для долей тех же методов наблюдается достоверное различие при альфа=0,05 (ДИ не пересекаются) и отсутствует различие при альфа=0,01 (ДИ пересекаются). Чем можно объяснить наблюдаемое и какое значение P указывать при использовании критерия Мак-Немара? Может быть я чего-то не понимаю и вообще поступаю неверно? |
|
29.03.2010 - 05:11
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Для анализа парных бинарных признаков (обследование одного человека несколькими методами с указанием наличия или отсутствия признака) используется AtteStat модуль описательная статистика для нахождения доли и ее ДИ (Клоппер-Пирсон и Агрести-Коул), а также модуль непараметрическая статистика (критерий Мак-Немара) для определения достоверной разницы между результатами получаемыми различными методами. При использовании критерия Мак-Немара для парных выборок получается достоверное различие между двумя методами (P<0,001, двухстороннее). При вычислении ДИ для долей тех же методов наблюдается достоверное различие при альфа=0,05 (ДИ не пересекаются) и отсутствует различие при альфа=0,01 (ДИ пересекаются). Чем можно объяснить наблюдаемое и какое значение P указывать при использовании критерия Мак-Немара? Может быть я чего-то не понимаю и вообще поступаю неверно? По большому счёту не так важно насколько мало P, важно чтобы оно помогло принять решение. Люди договорились считать значение Р=0,05 и менее достаточно малым для отклонения нулевой гипотезы (нулевая гипотеза - гипотеза об отсутствии чего-либо: различий, связей, зависимостей), поэтому в Вашем случае оба подхода приводят к одному выводу. Подход с использованием ДИ - (1) приблизительный, (2) а в Вашем случае - особенно. (1) Приблизительный всегда, т.к. при вычислении ДИ для каждой выбороки используется только информация об одной этой выборке. При использовании же специальных критериев используется информация обо всех группах одновременно - т.е. второй подход обладает большей мощностью (т.е. меньше ошибка второго рода). Вполне обычны ситуации, когда 95%-ные ДИ немного пересекаются, но прямые тесты показывают статистически значимые различия - им и нужно верить. (2) В вашем случае сравнение с использованием ДИ не учитывает также зависимый характер выборок, что ещё больше огрубляет решение. Поэтому приводить здесь нужно статистику Нак-Немара, а графики лучше не давать, т.к. они здесь не информативны. И к вопросу о поправках на множественные сравнения (в соседней теме). Поправка нужна, лучше последовательная техника Бонферрони, а не классическая, а ещё лучше - другие методы, т.к. поправка Бонферрони очень консервативна (т.е. благоприятствует нулевой гипотезе). Я к сожалению их не знаю, но на этом форуме советовали целый ряд современных альтернатив - поищите поиском "поправки при множественных сравнениях", "Бонферрони", "Bonferroni" и т.п. Сообщение отредактировал nokh - 29.03.2010 - 05:56 |
|
29.03.2010 - 11:24
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Теоретически, nokh абсолютно прав. Но, практически, описанная ситуация маловероятна. Критерий М-Н анализирует разность относительных частот, а ДИ, скорее всего, посчитаны к абсолютным долям. Чтобы убедиться, что М-Н посчитан верно, (не всегда легко правильно составить четырехпольную таблицу для этого метода) лучше представить первичный материал (для этого случая), чтобы убедиться в том, что могут быть столь значительные различия в оценке двумя методами.
|
|
29.03.2010 - 18:37
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
лучше представить первичный материал (для этого случая), чтобы убедиться в том, что могут быть столь значительные различия в оценке двумя методами. Вот привожу файл excel с исходными данными и со статистикой. 99% ДИ для методов 1 и 2 пересекаются, а критерий Мак-Немара дает значение Р<0,001. В чем проблема (если она конечно есть), я что-то не верно делаю? ДИ_и_критерий_Мак_Немара.zip ( 8,35 килобайт ) Кол-во скачиваний: 496 |
|
29.03.2010 - 22:39
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Признак выявлен у 80 из 129 при 1 методе (62,02%), а во 2 методе признак выявлен у 53 из 129 и это 41,09%. Вас должна интересовать разность этих относительных частот в процентах и ДИ к этой разнице. 62,02-41,09=20,93% (95%ДИ 13,59%-28,27%)
Теперь, в тех же кодировках, как в вашей первой таблице ?1? и ?0?, что есть ?да?, а что есть ?нет?? Если в колонках метод 1 то должно быть 80 и 49, а в строках метод 2 тогда 53 и 76 (маргинальные частоты). Т.е. метод 1 и 2 правильнее поменять местами в четырехпольной таблице. Но, в принципе, диагональные B и C остаются те же, а в формулу расчета критерия М-Н входят их разница по модулю. 28-1=27, отсюда легко считается и значение критерия М-Н и та же разность относительных частот 27*100/129=20,93%. Дальше, вы все методы сравниваете с первым, он наверное ваш или ?золотой стандарт?. 3 и 4 диагностируют одинаково относительно первого метода. Сравнение 1 и 3 метода дает также статистически значимую оценку разности относительных частот, которая составила 21,71% (95% ДИ 14,27% ? 29,14%). Именно посредством сравнения разности относительных частот с соответствующими ДИ вы можете сравнить несколько диагностических методов, и графически это красиво, особенно если есть с чем сравнивать, например с ?золотым стандартом?. Ваши данные в MedCalc сравнение 1 и 2 метода Difference = 20,93% 95% CI = 14,47% to 22,22% Chi-square = 23,3103 (DF=1) Significance P < 0,0001 The 95% confidence interval is calculated according to Bland, 2000 Выше я привела другое значение ДИ для разности долей из четырехпольной таблицы, формулы из Г. Гайят, со ссылкой на SAS. |
|
30.03.2010 - 18:06
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Теперь, в тех же кодировках, как в вашей первой таблице ?1? и ?0?, что есть ?да?, а что есть ?нет?? "1" - "да", т.е. наличие признака, "2" - "нет", т.е. отсутствие признака.Вас должна интересовать разность этих относительных частот в процентах и ДИ к этой разнице. 62,02-41,09=20,93% (95%ДИ 13,59%-28,27%) ДИ я привел как описательная статистика полученных результатов и за одно решил посмотреть не пересекаются ли ДИ доли разных методик. Как я понял это не верно и разницу в результатах того или иного метода необходимо оценивать по доверительному интервалу разности относительных частот данных методов, т.е. если ДИ содержит 0, различия между методами статистически не значимы. Я верно понимаю? Если я прав, то тогда лучше будет воспользоваться критерием М-Н (весомей )Т.е. метод 1 и 2 правильнее поменять местами в четырехпольной таблице. Почему? Это имеет какое-то значение?Дальше, вы все методы сравниваете с первым, он наверное ваш или ?золотой стандарт?. Нет к сожалению "золотого стандарта" нет, и все методы могут давать ошибки в диагностике, к тому же относительно "золотого стандарта" в диагностике я согласен с Ребровой, что лучший диагностический метод - это"морфологический метод". Но не при всех состояниях это (операция, вскрытие) оправдано.Ваша фраза подтолкнула меня на мысль о том, что я не совсем верно поступаю находя критерий М-Н попарно для того, чтобы показать достоверное различие между методом 1 и методами 2, 3 и 4. В конце первой таблицы я привожу критерий Q Кокрена для всех 4 методов (разница достоверна) и для 2, 3, 4 методов (нет достоверной разницы), т.е. из этого можно сделать вывод, что существует достоверная разница только между методом 1 и методами 2, 3 и 4 и отсутствует разница в диагностических возможностях методов 2, 3 и 4 и не стоит рассчитывать критерий М-Н по парно, что бы показать это. Прав ли я в своих рассуждениях? Если да, то необходимо ли использовать поправку как для множественных сравнений или нет? |
|
30.03.2010 - 19:53
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
"1" - "да", т.е. наличие признака, "2" - "нет", т.е. отсутствие признака. Точнее ?0? - отсутствие признака. Как я понял, разницу в результатах того или иного метода необходимо оценивать по доверительному интервалу разности относительных частот данных методов, т.е. если ДИ содержит 0, различия между методами статистически не значимы. Верно. В некоторых программах (MedСalc) разница долей рассчитывается в специальном модуле. Но критерий М-Н представляет статистику для такого сравнения и, на мой взгляд, это предпочтительней, чем просто сравнение разницы долей. Почему я предложила переставить местами метод 1 и 2, потому, что не верно составлена таблица. Посмотрите внимательно, в первом методе и во втором методе число 1 (да) должно быть 80 и это число должно быть согласно вашей подписи по вертикали. Так я поняла из ваших кодировок. Var1 - 0 Var1 - 1 Row - Totals 0 48 28 76 1 1 52 53 Totals 49 80 129 При столь высоком уровне различий, который вы получили по критерию М-Н (р<0,00001) нет смысла применять поправки на множественные сравнения, вывод все равно будет тот же. Первый метод выявляет больше ?1?, чем 2, 3 или 4. А что есть ?хорошо? тоже не известно, есть ведь гипо и гипер диагностика. |
|
30.03.2010 - 20:41
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Почему я предложила переставить местами метод 1 и 2, потому, что не верно составлена таблица. Действительно, моя ошибка, проверил таблицу, которую выложил на форум, там и правда ошибки в 2х2 таблицах.А что есть ?хорошо? тоже не известно, есть ведь гипо и гипер диагностика. Абсолютно согласен, действительно присутствует гипердиагностика в методе 1.Еще вопрос возник при дальнейшем анализе. Все тоже самое, только признак другой выявляется. Прошу прощения, если замучил своими глупыми вопросами Провожу анализ с помощью критерия Q Кокрена и Мак-Немара. Критерий Q Кокрена дает следующие результаты для всех 4 методов статистика=17,57 и значение P=0,001078, для 1, 2, 3 методов статистика=2 и значение P=0,73575. Но при использовании критерия М-Н для сравнения метода 4 с остальными методами, не дает такого впечатлительного значения P (при сравнении со 2 и 3 методами P=0,08245, с 1 методом Р=0,08245). Так что же в результате, различаются результаты полученные для данного признака различными методами или нет? Прикладываю файл. Критерии_Q_и_Мак_Немар.zip ( 8,1 килобайт ) Кол-во скачиваний: 426 Заранее очень благодарен. |
|
30.03.2010 - 21:56
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
4 метод диагностирует на 5,4% больше, чем 1 метод, а также на 4,7% больше чем 2 и 3 метод. По критерию М-Н это статистически значимая разница (односторонний вариант). 95% ДИ для разницы также не пересекает единицу. Я думаю, должна быть клиническая трактовка нижнего значения ДИ. Это будет достаточно.
B N % ER CI_ CI_2 CHI 7 129 5,4 2,0 1,52 9,34 5,1 6 129 4,7 1,9 1,02 8,29 4,2 Такое ощущение, что вам, все же, нужна будет какая то комплексная оценка методов способных обнаруживать несколько, а не один признак. А так решаются только частные задачи и будет куча статистических оценок, что затруднит клиническое содержание. |
|
31.03.2010 - 15:59
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Я думаю, должна быть клиническая трактовка нижнего значения ДИ. Это будет достаточно. К сожалению из-за своей не образованности не совсем понял, что именно Вы хотели сказать. Если можно, поясните, пожалуйста.Такое ощущение, что вам, все же, нужна будет какая то комплексная оценка методов способных обнаруживать несколько, а не один признак. А так решаются только частные задачи и будет куча статистических оценок, что затруднит клиническое содержание. Я тоже думал об этом, но решил, что будет глупым задавать такой вопрос, т.к. не уверен, что с помощью какого-то одного статистического метода можно объединить оценки выявляемости ряда признаков различными методами. Если такое возможно, то думаю это было бы идеально. |
|
31.03.2010 - 17:17
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Поясню, почему я отдаю предпочтение оценке по значению ДИ, а не по достигнутому уровню значимости, например р=0,023. Формально, достигнут необходимы уровень значимости различий, все довольны. Но, при этом разность в эффективности выявление признака, составляет только 5,4%, при этом с вероятностью 95% разница будет лежать в диапазоне от 1,5% до 9,3%. Вопрос к вам, насколько это важно клинически для ваших больных. Например, если точность диагностики связана с выбором правильной тактики лечения и отсюда будут следовать несколько спасенных жизней, то и 1,5% безусловный успех 4 метода. А в другой ситуации, например, при сравнении двух средств для снижения веса в крупномасштабном исследовании, различие в величине снижения веса было статистически достоверно на 4% (95% ДИ 2%-6%), но это средство было дороже. Я думаю, не суть важно, на 14% или на 10% будет снижен вес. Но для фарм фирмы не все равно, они доказали, что их препарат лучше. Возможно, этот пример не в тему, или вес у меня нормальный, но в пользу трактовки именно ДИ.
ПО вопросу комплексной оценки всех ваших методов, нужно знать подробней диазйн исследование, цели и задачи, характер данных. Сообщение отредактировал DrgLena - 31.03.2010 - 18:43 |
|
2.04.2010 - 09:52
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Поясню, почему я отдаю предпочтение оценке по значению ДИ, а не по достигнутому уровню значимости, например р=0,023. Формально, достигнут необходимы уровень значимости различий, все довольны. Но, при этом разность в эффективности выявление признака, составляет только 5,4%, при этом с вероятностью 95% разница будет лежать в диапазоне от 1,5% до 9,3%. Хочу уточнить, если у меня в исследовании 4 метода, которые я хочу сравнить и для оценки клинической эффективности я использую ДИ разности долей, необходимо ли мне учитывать поправку для множественных сравнений (для указания P при расчете ДИ), если я хочу оценить клиническую эффективность разных пар методов? |
|
2.04.2010 - 14:05
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
(для указания P при расчете ДИ) Это не совсем понятно. Сравнение может быть либо с использованием критерия, и тогда нужна поправка к достигнутому уровню значимости (р). Другой путь - сравнение разности долей посредством сравнения ДИ, тогда поправка не нужна. С точки зрения статиститики точнее первый путь, но второй также имеет право быть и для клинициста как то понятнее. Кроме того, если в работе используются такие показатели, как отношение шансов, относительный риск или снижение относительного риска, то к ним принято рассчитывать ДИ, тогда работа будет сделана в одном стиле. Бесконечные парные сравнение между большим количеством групп часто не имеют смысла, особенно когда различий между парами нет и никакой смысловой нагрузки такие сравнения не несут, более наглядным, на мой взгляд, будет один рисунок различий с ДИ и легко делать вывод о преимуществах или недостатках. Но это только мое мнение. По мнению других - чем больше цифр, тем больше научной продукции. |
|
2.04.2010 - 18:58
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
Цитата (для указания P при расчете ДИ) Под этим я имел ввиду какие доверительные интервалы выбирать для разности долей 99% или 95% и влияет ли на выбор, если я расчитываю разность между несколькими парами методов? Или ДИ лишен такой необходимости?
Сообщение отредактировал exroman - 3.04.2010 - 18:00 |
|
10.04.2010 - 21:26
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 12.03.2010 Пользователь №: 13264 |
4 метод диагностирует на 5,4% больше, чем 1 метод, а также на 4,7% больше чем 2 и 3 метод. По критерию М-Н это статистически значимая разница (односторонний вариант). 95% ДИ для разницы также не пересекает единицу. Я думаю, должна быть клиническая трактовка нижнего значения ДИ. Это будет достаточно. Я так и не понял с помощью какого метода или программы Вы рассчитали такие значения разности долей. Я предположил, что это MedCalc, но у меня в ней другие цифры (ДИ пересекает 0) получаются или я что-то не то делаю?B N % ER CI_ CI_2 CHI 7 129 5,4 2,0 1,52 9,34 5,1 6 129 4,7 1,9 1,02 8,29 4,2 |
|