Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Оформление результатов стат. Анализаю

Автор: Vano-34@yandex.ru 12.03.2018 - 15:57

Добрый день.
Прошу помочь разобраться в таком вопросе.
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильнфй размах мли среднее и ошибку среднего.
По механизмусамого анализа вроде медиана и интерквартильный размах.
С уважением.....





Автор: nokh 12.03.2018 - 23:35

Цитата(Vano-34@yandex.ru @ 12.03.2018 - 17:57) *
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильнфй размах мли среднее и ошибку среднего.
По механизмусамого анализа вроде медиана и интерквартильный размах.

Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие.
1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть.
2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы.
3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать...

Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так:
а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа).
б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса).
в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса.

Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники.

Автор: DrgLena 14.03.2018 - 00:47

Именно логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики) и должна преобладать над соблазном приводить средние, и не важно, каким образом они получены они остаются параметрами распределения.

Для медицины есть руководство именно о том, как описывать результаты статистического анализа, оно так и называется. Долгое время я использовала первоисточник на английском ( в сети был свободно). How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Thomas A. Lang and Michelle Secic
Сейчас книга переведена leo_biostat https://www.ozon.ru/context/detail/id/5633322/

Аналогичные рекомендации описания результатов в зависимости от использования методов статистики имеются в книге Наглядная статистика в медицине - Петри А., Сэбин К. - 2003 год .

Оба источника рекомендуют при использовании непараметрических (ранговых критериев) приводить медианы, ДИ медианы и ДИразности медиан. И это вполне логично. Интерпретация медиан не представляет никакой трудности для медиков, гораздо труднее получить и оценить разность медиан (для несвязанных выборок) или медиану разности парных выборок посредством ДИ.
Если нет возможности посчитать ДИ разности медиан можно привести медианы и ДИ к ним в каждой из двух групп (Петри).

SPSS начиная с 18 версии рассчитывает доверительный интервал Ходжеса-Лемана для медианы разности парных выборок и разности медиан двух независимых выборок. Но у меня только 17.

При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия.
На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит.
Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R.
Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences.


Автор: nikita_zab 27.05.2018 - 16:34

Цитата(DrgLena @ 14.03.2018 - 00:47) *
При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия.
На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит.
Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R.
Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences.


Хотелось бы поднять тему. Прошу поделиться кодом R для оценки доверительного интервала разности медиан.
Можно ли поступить таким образом?

x <- rpois(80, 25)
y <- rpois(70, 20)
x <- apply(matrix(sample(x, rep=TRUE, 5000*length(x)), nrow=5000), 1, median)
y <- apply(matrix(sample(y, rep=TRUE, 5000*length(y)), nrow=5000), 1, median)
quantile(x-y, c(.025, 0.975))

Автор: DrgLena 30.05.2018 - 13:52

https://stat.ethz.ch/pipermail/r-help/2012-February/303977.html
Тут все ответы,
Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода.

ДИ median(A-B ) дает wilcox.test:
> I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T)
> inf=I$conf.int[1]
> sup=I$conf.int[2]
> C<-(I)
> C
Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ



 

Автор: DoctorStat 31.05.2018 - 21:56

Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?

Автор: 100$ 1.06.2018 - 00:30

Цитата(DoctorStat @ 31.05.2018 - 21:56) *
Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?


http://quantile.ru/03/03-SA.pdf

Автор: nikita_zab 5.06.2018 - 11:35

Цитата(DrgLena @ 30.05.2018 - 13:52) *
https://stat.ethz.ch/pipermail/r-help/2012-February/303977.html
Тут все ответы,
Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода.

ДИ median(A-B ) дает wilcox.test:
> I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T)
> inf=I$conf.int[1]
> sup=I$conf.int[2]
> C<-(I)
> C
Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ


Спасибо за ответ.

Мой код выдал

A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253)
B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381)

A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median)
B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median)
quantile(A-B, c(.025, 0.975))

2.5% 97.5%
59 601


Вроде не сильно отличается.

Автор: 100$ 5.06.2018 - 12:10

Цитата(nikita_zab @ 5.06.2018 - 11:35) *
Спасибо за ответ.

Мой код выдал

A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253)
B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381)

A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median)
B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median)
quantile(A-B, c(.025, 0.975))

2.5% 97.5%
59 601


Вроде не сильно отличается.


Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?"

P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11?

Автор: 100$ 5.06.2018 - 13:08

...

Автор: nikita_zab 7.06.2018 - 16:59

Цитата(100$ @ 5.06.2018 - 12:10) *
Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?"

P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11?


Кодярю в свободное от основной деятельности время. Мне кажется, что применяя тот или иной метод - хороший способ разобраться в практических тонкостях.
Спасибо, что дали ссылку на оценку Ходжеса - Лемана, было интересно ознакомится с этим вопросом.

Я взял выборку из ответа, а не из оригинала сообщения, поэтому 2х11. Что собственно говорит и о моей невнимательности.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)