Оформление результатов стат. анализа - Форум врачей-аспирантов

Оформление результатов стат. анализа, какие данные вводить в таблицу?

Vano-34@yandex.r... Vano-34@yandex.ru Просмотр профиля	12.03.2018 - 15:57 Сообщение #1
Группа: Пользователи Сообщений: 1 Регистрация: 9.03.2018 Пользователь №: 31077	Добрый день. Прошу помочь разобраться в таком вопросе. При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильный размах или среднее и ошибку среднего. По механизму самого анализа вроде медиана и интерквартильный размах. С уважением...

nokh Просмотр профиля	12.03.2018 - 23:35 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Vano-34@yandex.ru @ 12.03.2018 - 17:57) При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильнфй размах мли среднее и ошибку среднего. По механизмусамого анализа вроде медиана и интерквартильный размах. Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие. 1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть. 2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы. 3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать... Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса). в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса. Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники. Сообщение отредактировал nokh - 12.03.2018 - 23:49

DrgLena Просмотр профиля	14.03.2018 - 00:47 Сообщение #3
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Именно логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики) и должна преобладать над соблазном приводить средние, и не важно, каким образом они получены они остаются параметрами распределения. Для медицины есть руководство именно о том, как описывать результаты статистического анализа, оно так и называется. Долгое время я использовала первоисточник на английском ( в сети был свободно). How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Thomas A. Lang and Michelle Secic Сейчас книга переведена leo_biostat https://www.ozon.ru/context/detail/id/5633322/ Аналогичные рекомендации описания результатов в зависимости от использования методов статистики имеются в книге Наглядная статистика в медицине - Петри А., Сэбин К. - 2003 год . Оба источника рекомендуют при использовании непараметрических (ранговых критериев) приводить медианы, ДИ медианы и ДИразности медиан. И это вполне логично. Интерпретация медиан не представляет никакой трудности для медиков, гораздо труднее получить и оценить разность медиан (для несвязанных выборок) или медиану разности парных выборок посредством ДИ. Если нет возможности посчитать ДИ разности медиан можно привести медианы и ДИ к ним в каждой из двух групп (Петри). SPSS начиная с 18 версии рассчитывает доверительный интервал Ходжеса-Лемана для медианы разности парных выборок и разности медиан двух независимых выборок. Но у меня только 17. При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия. На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит. Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R. Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences.

nikita_zab Просмотр профиля	27.05.2018 - 16:34 Сообщение #4
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(DrgLena @ 14.03.2018 - 00:47) При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия. На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит. Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R. Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences. Хотелось бы поднять тему. Прошу поделиться кодом R для оценки доверительного интервала разности медиан. Можно ли поступить таким образом? x <- rpois(80, 25) y <- rpois(70, 20) x <- apply(matrix(sample(x, rep=TRUE, 5000length(x)), nrow=5000), 1, median) y <- apply(matrix(sample(y, rep=TRUE, 5000length(y)), nrow=5000), 1, median) quantile(x-y, c(.025, 0.975))

DrgLena

30.05.2018 - 13:52

Сообщение #5

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573

https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html
Тут все ответы,
Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода.

ДИ median(A-B ) дает wilcox.test:
> I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T)
> inf=I$conf.int[1]
> sup=I$conf.int[2]
> C<-(I)
> C
Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

DoctorStat Просмотр профиля	31.05.2018 - 21:56 Сообщение #6
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ? Просто включи мозги => http://doctorstat.narod.ru

100$ Просмотр профиля	1.06.2018 - 00:30 Сообщение #7
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(DoctorStat @ 31.05.2018 - 21:56) Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ? http://quantile.ru/03/03-SA.pdf

nikita_zab Просмотр профиля	5.06.2018 - 11:35 Сообщение #8
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(DrgLena @ 30.05.2018 - 13:52) https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html Тут все ответы, Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода. ДИ median(A-B ) дает wilcox.test: > I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T) > inf=I$conf.int[1] > sup=I$conf.int[2] > C<-(I) > C Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ Спасибо за ответ. Мой код выдал A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253) B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381) A <- apply(matrix(sample(A, rep=TRUE, 5000length(A)), nrow=5000), 1, median) B <- apply(matrix(sample(B, rep=TRUE, 5000length(B)), nrow=5000), 1, median) quantile(A-B, c(.025, 0.975)) 2.5% 97.5% 59 601 Вроде не сильно отличается.

100$ Просмотр профиля	5.06.2018 - 12:10 Сообщение #9
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nikita_zab @ 5.06.2018 - 11:35) Спасибо за ответ. Мой код выдал A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253) B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381) A <- apply(matrix(sample(A, rep=TRUE, 5000length(A)), nrow=5000), 1, median) B <- apply(matrix(sample(B, rep=TRUE, 5000length(B)), nrow=5000), 1, median) quantile(A-B, c(.025, 0.975)) 2.5% 97.5% 59 601 Вроде не сильно отличается. Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?" P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11? Сообщение отредактировал 100$ - 5.06.2018 - 13:11

nikita_zab Просмотр профиля	7.06.2018 - 16:59 Сообщение #10
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(100$ @ 5.06.2018 - 12:10) Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?" P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11? Кодярю в свободное от основной деятельности время. Мне кажется, что применяя тот или иной метод - хороший способ разобраться в практических тонкостях. Спасибо, что дали ссылку на оценку Ходжеса - Лемана, было интересно ознакомится с этим вопросом. Я взял выборку из ответа, а не из оригинала сообщения, поэтому 2х11. Что собственно говорит и о моей невнимательности.

bubnilkin Просмотр профиля	4.07.2018 - 09:24 Сообщение #11
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836	Цитата(nokh @ 13.03.2018 - 00:35) ...Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). уважаемый nokh, не могли бы поделиться ссылками на этот подход?

nokh Просмотр профиля	8.07.2018 - 05:54 Сообщение #12
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(bubnilkin @ 4.07.2018 - 11:24) уважаемый nokh, не могли бы поделиться ссылками на этот подход? Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD

« Предыдущая тема · Медицинская статистика · Следующая тема »