Оценка достоверности различий по чуствительности/специфичности |
Здравствуйте, гость ( Вход | Регистрация )
Оценка достоверности различий по чуствительности/специфичности |
6.11.2013 - 00:40
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Подскажите, пожалуйста! В своей работе я сравниваю диагностические показатели трех различных диагностических тестов в диагностике одного заболевания. Для каждого теста в различный временные интервалы от начала заболевания посчитаны чув-ть, спец-ть, диагностическая точность и др. Как можно посчитать достоверность различий в чувствительности (специфичности) этих трех тестов и можно ли вообще это сделать? Как вообще оценить достоверность различий сравниваемых тестов, если они все имеют качественное представление (то есть измерены качественно).
|
|
6.11.2013 - 18:58
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
Как определить точное значение p, я честно говоря не знаю, но можно их сравнить с помощью доверительных интервалов.
http://statpages.org/ctab2x2.html Вот онлайн калькулятор который позволяет на заданном доверительном уровне (как правило - 95) расчитать доверительные интервалы для чувствительности, специфичности и еще большого количества показателей. А уж как принять или отвергнуть нулевую гипотезу на конкретном уровне значимости с помощью доверительных интервалов это другой вопрос. На форуме много раз об этом писалось, но уж если очень надо, то могу повториться?! |
|
6.11.2013 - 19:04
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Как определить точное значение p, я честно говоря не знаю, но можно их сравнить с помощью доверительных интервалов. http://statpages.org/ctab2x2.html Вот онлайн калькулятор который позволяет на заданном доверительном уровне (как правило - 95) расчитать доверительные интервалы для чувствительности, специфичности и еще большого количества показателей. А уж как принять или отвергнуть нулевую гипотезу на конкретном уровне значимости с помощью доверительных интервалов это другой вопрос. На форуме много раз об этом писалось, но уж если очень надо, то могу повториться?! Спасибо! Я на форуме впервые, поэтому , если несложно, то напишите суть, чтоб я могла сориентироваться. |
|
6.11.2013 - 19:23
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
Спасибо! Я на форуме впервые, поэтому , если несложно, то напишите суть, чтоб я могла сориентироваться. Доверительный интервал, попросту говоря, это промежуток в котором с заданной доверительной вероятностью (обычно 95%) находится показатель (в вашем случае это специфичность, чувствительность и т.д.). Для начала вы расчитываете с помощью калькулятора чувствительность, специфичность и доверительные интервалы (Conf. Interval) для них при каждом методе исследования. Затем сравниваете эти интервалы друг с другом. Если они не перекрываются, то есть не включают значения друг друга, то можно сказать что показатели статистически значимо отличаются друг от друга. Если при расчете вы оставите доверительный уровень (Confidence Level) равным 95%, то ваше значение-p будет <0,05 чего как правило достаточно. Если же интервалы перекрываются то значение-p будет >0,05. Изъснился как мог. Можете выложить свои цифры в виде таблички 2*2 попробуем расчитать. Сообщение отредактировал paravoz - 6.11.2013 - 19:26 |
|
6.11.2013 - 19:26
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Как определить точное значение p, я честно говоря не знаю, но можно их сравнить с помощью доверительных интервалов. http://statpages.org/ctab2x2.html Вот онлайн калькулятор который позволяет на заданном доверительном уровне (как правило - 95) расчитать доверительные интервалы для чувствительности, специфичности и еще большого количества показателей. А уж как принять или отвергнуть нулевую гипотезу на конкретном уровне значимости с помощью доверительных интервалов это другой вопрос. На форуме много раз об этом писалось, но уж если очень надо, то могу повториться?! Я на форуме впервые, поэтому напишите , пожалуйста, коротко, чтоб я могла сориентироваться |
|
6.11.2013 - 19:54
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
К примеру у вас есть чувствительность 0,93 и доверительный интервал от 0,87 до 0,96. Это значит, что если проводить ваш эксперимент на других людях, то в 95% случаев чувствительность будет находится в интервале от 0,87 до 0,96.
Если у вас есть два показателя чувствительности с доверительными интервалами: 0,93 [0,87;0,96] и 0,81 [0,78;0,85], то как видно из интервалов они не перекрываются (один заканчивается на 0,85, а другой начинается только на 0,87), то можно сказать что чувствительности двух тестов статистически значимо отличаются при p<0,05. В случае если у вас, например: 0,93 [0,87;0,96] и 0,85 [0,81;0,88], то такие интервалы перекрываются (то есть имеют общие значения 0,87 и 0,88), то в таком случае чувствительности тоже статистически значимо отличаются, но p>0,05. Вам нужно только с помощью калькулятора посчитать доверительные интервалы и посмотреть перекрываются они или нет, и делать соответствующие выводы. |
|
6.11.2013 - 20:04
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Подскажите, пожалуйста! В своей работе я сравниваю диагностические показатели трех различных диагностических тестов в диагностике одного заболевания. Для каждого теста в различный временные интервалы от начала заболевания посчитаны чув-ть, спец-ть, диагностическая точность и др. Как можно посчитать достоверность различий в чувствительности (специфичности) этих трех тестов и можно ли вообще это сделать? Как вообще оценить достоверность различий сравниваемых тестов, если они все имеют качественное представление (то есть измерены качественно). Сравнение через ДИ возможно, но оно будет обладать существенно меньшей мощностью, чем сравнение с помощью критериев, т.е. будет завышена вероятность не обнаружить различия там где они реально есть. При расчёте ДИ для каждой группы отдельно задействуется только часть имеющейся информации, тогда как при сравнении с помощью критериев возможно учесть её всю. Поэтому сравнения посредством ДИ лучше делать когда у вас нет оригинальных данных и вы не можете вычислить необходимые для сравнения частоты - такое возможно при сравнении собственных данных с опубликованными. А вообще, чувствительность - это доля верно распознанных больных, поэтому имеем полное право обрабатывать её как и любую другую долю. И специфичность - доля. 1) Если Ч и С рассчитывались на разных группах пациентов - сравните их хи-квадратом. Т.о. в первой колонке таблицы будут верно распознанные больные, во второй - неверно распознанные больные. В строках - диагностические методы. Получится таблица сопряжённости 2 х n, где n - число методов. Аналогично со специфичностью для верно/неверно распознанных здоровых. Если хи-квадрат покажет значимость различий далее следует смотреть за счёт каких ячеек таблицы она проявилась; это делается с помощью расчёта отклонений Фримана-Тьюки или стандартизованных остатков Хабермана. 2) Если Ч и С методов определялись на материале одних и тех же пациентов параллельно - сравните их как зависимые частоты: тестами на симметрию типа Бокера или Максвела. 3) Если результаты диагностических тестов представлены измерениями, можно сравнить Ч и С посредством сравнения ROC-кривых. Этот тест будет обладать ещё большей мощностью, т.к. объединяет и Ч и С в одном показателе - AUC (площадь под ROC-кривой - Area Under Curve). Сообщение отредактировал nokh - 6.11.2013 - 20:43 |
|
6.11.2013 - 20:23
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
Сравнение через ДИ возможно, но оно будет обладать существенно меньшей мощностью, чем сравнение с помощью критериев, т.е. велика вероятность не обнаружить различия там где они реально есть. При расчёте ДИ для каждой группы отдельно задействуется только часть имеющейся информации, тогда как при сравнении с помощью критериев возможно учесть её всю. Здесь я полностью согласен. Т.о. в первой колонке таблицы будут верно распознанные, во второй - неверно распознанные. В строках - диагностические методы. Получится таблица сопряжённости 2 х n, где n - число методов. Аналогично со специфичностью. А здесь, наверное, надо уточнить. В случае с чувствительностью в первую колонку необходимо вносить истино положительные, а во вторую - ложно отрицательные. А в случае со специфичностью первая колонка - истино отрицательные, вторая - ложно положительные. Вроде не запутался . Ведь если мы будем вставлять в колонки верно и неверно распознанные, то мы оценим только точность (Accuracy) диагностических методов, но никак не чувствительность и специфичность, не так ли? Конечно могу ошибаться, но самому для понимания важно. Прокоментируйте пожалуйста. |
|
6.11.2013 - 20:42
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
А здесь, наверное, надо уточнить. В случае с чувствительностью в первую колонку необходимо вносить истино положительные, а во вторую - ложно отрицательные. А в случае со специфичностью первая колонка - истино отрицательные, вторая - ложно положительные. Вроде не запутался . Ведь если мы будем вставлять в колонки верно и неверно распознанные, то мы оценим только точность (Accuracy) диагностических методов, но никак не чувствительность и специфичность, не так ли? Конечно могу ошибаться, но самому для понимания важно. Прокоментируйте пожалуйста. ОК, я поправил свой неудачный текст выше чтобы не было путаницы. Для Ч не просто верно/неверно распознанные, а верно распознанные БОЛЬНЫЕ. Соответственно для специфичности - верно/неверно распознанные ЗДОРОВЫЕ. |
|
6.11.2013 - 21:28
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Ох, покоя мне нет. Дело в том, что у меня защита уже через месяц , а я тут занимаюсь самокопанием и вижу, что не все идеально в работе. Спасибо за ответы. Конечно, ничего этого я не считала, считала диагностические показатели (чув-ть, спец-ть, диагностич. точность, полож. и отриц. прогностическую ценность) иссдледуемого диагностического теста и СРАВНИВАЛА его с "золотым стандартом" , а также еще двумя тестами в разные временные интервалы от начала клинической картины заболевания. Также проведен ROC-анализ, но насколько он грамотен...не знаю. Мой тест - качественный, а отсальные (с которыми сравнивала) - количественные. Для количественных строили РОК-кривые, а для качественного теста такого невозможно как я понимаю сделать. На графиках ему соответствует только 1 точка (разделения чув-ти и спец-ти), и косвенно можно судить лишь по области , которую можно достроить.
Ни у кого вопросов не возникало, а я до меня только сейчас начинает доходить( |
|
7.11.2013 - 02:18
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 22.08.2013 Из: г. Красноярск Пользователь №: 25146 |
ОК, я поправил свой неудачный текст выше чтобы не было путаницы. Для Ч не просто верно/неверно распознанные, а верно распознанные БОЛЬНЫЕ. Соответственно для специфичности - верно/неверно распознанные ЗДОРОВЫЕ. Значит я в верном направлении мыслю. Мой тест - качественный, а отсальные (с которыми сравнивала) - количественные. А что значит тест - качественный, а что значит количественный? Качественный это результат которого может быть грубо говоря болен или здоров? Количественный - дающий результат в виде значения из какого-то диапазона, а потом с помощью порогового значения определяется болен или здоров? Так что-ли? Ну тогда ROC-анализ и там и там должен выглядеть в виде кривой, там ведь чувствительность и специфичность откладывается, а не варианты значения диагностического теста. Расскажите, пожалуйста, что у вас были за диагностические тесты и "золотой стандарт". |
|
7.11.2013 - 09:30
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Качественный тест дает ответ "да" или "нет", то есть есть заболевание или нет. Количественный - по определенному результату (численному) и установленному референтному значению (порогу) определяется таке болен человек или здоров. "Золотой стандарт" - это зарекомендовавший себя в клинической практике тест, с которым сравниваются все остальные.
Нет, получается в каждый временной интервал (допустим, через 2 часа от начал клинической симптоматики) соответствует не кривая, а только 1 точка. Нет возможности построить кривую. |
|
9.11.2013 - 15:10
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Качественный тест дает ответ "да" или "нет", то есть есть заболевание или нет. Количественный - по определенному результату (численному) и установленному референтному значению (порогу) определяется таке болен человек или здоров. "Золотой стандарт" - это зарекомендовавший себя в клинической практике тест, с которым сравниваются все остальные. Нет, получается в каждый временной интервал (допустим, через 2 часа от начал клинической симптоматики) соответствует не кривая, а только 1 точка. Нет возможности построить кривую. Можно строить ROC-кривые и для качественного теста болен-здоров /в среде SPSS.(см. прикрепленные файлы). ROC-кривую можно построить и вручную (по формулам). Но чаще в ROC -анализе работают с вероятностями, а не с результатами измерений. Автор почему-то очень плохо описывает структуру своих данных. Я не понял из его сообщений , нужно ли применять и, если нужно, то почему не применяется логистическая регрессия?( и только затем ROC-анализ!!). Обычно, сравнивая площади под кривой, можно выбрать лучший тест (или сравнить данный тест с эталоном). При этом программа проверяет значимость каждого классификатора (теста) - если известна истинная классификация. Также можно проверить значимость различий двух тестов. При большем числе сравнений нужно вводить поправки. Как вариант дальнейшего исследования можно сравнить доверительные интервалы площадей под кривой для разных тестов/генерируются программой SPSS/. В медицине часто выбирается самый дешевый диагностический тест из нескольких относительно лучших. Мне было бы интересно проверить качество "золотого стандарта". Нашел в интернете материал по данной теме со ссылками на старую книгу "Статистические методы исследования в медицине и здравоохранении," / Под ред. Л.Е. Полякова - Л.: Медицина, 1971. " http://cgm.computergraphics.ru/ В нем предлагается проверять значимость отличий двух классификаторов следующим образом: провести тестирование по обоим тестам одной и той же достаточно большой группы испытуемых. Разбить эту группу испытуемых на достаточное число подгрупп. Для каждой подгруппы сосчитать число ошибок ( первого (FN) или второго рода (FP) или их суммы - что важнее) для каждого теста. Затем для проверки значимости различий результатов тестирования сравнить средние с помощью t-критерия для парных выборок. Почему при этом выполняются необходимые условия применения t-критерия: положительная корреляция и нормальность распределений - я не совсем понимаю. Мое мнение: данный подход устарел. Сообщение отредактировал anserovtv - 13.11.2013 - 08:31
Прикрепленные файлы
|
|
10.11.2013 - 19:08
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 6.11.2013 Пользователь №: 25534 |
Да, я возможно не так хорошо разобралась в ROC-анализе, поэтому и задавала тут вопросы. Но мне многое остается непонятным. Для тестов, имеющих количественное выражение, ROC-кривые построены, оценена AUC, а для качественного теста нет. Свои данные согласовывала со статистиками из МГУ. Они подтвердили, что построение ROC-кривой невозможно для качесвенного теста. Даже не знаю, в каком ключе продолжить общение на форуме, потому что не могу общаться с вами на одном уровне по степени знания статистики.
Сообщение отредактировал Элла - 10.11.2013 - 19:09 |
|
10.11.2013 - 21:46
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
В случае идеальной полной (100%) предсказательной (диагностической) способности "качественного" теста площадь под кривой равна 1, асимптотическая значимость 0,004!!!
ROC -кривая может быть построена. ROC-кривую можно построить и вручную (по формулам). В данном случае кривая является ломаной с двумя звеньями (на чертеже выделена синим цветом). См. прикрепленные файлы. Сообщение отредактировал anserovtv - 5.12.2013 - 16:18
Прикрепленные файлы
|
|