Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Оформление результатов стат. анализа, какие данные вводить в таблицу?
Vano-34@yandex.r...
сообщение 12.03.2018 - 15:57
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 1
Регистрация: 9.03.2018
Пользователь №: 31077



Добрый день.
Прошу помочь разобраться в таком вопросе.
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильный размах или среднее и ошибку среднего.
По механизму самого анализа вроде медиана и интерквартильный размах.
С уважением...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.03.2018 - 23:35
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Vano-34@yandex.ru @ 12.03.2018 - 17:57) *
При анализе значимости с помощью непараметрического критерия Манна-Уитни.
Какие результаты нужно представлять в таблице.
Медиану и интерквартильнфй размах мли среднее и ошибку среднего.
По механизмусамого анализа вроде медиана и интерквартильный размах.

Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие.
1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть.
2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы.
3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать...

Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так:
а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа).
б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса).
в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса.

Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники.

Сообщение отредактировал nokh - 12.03.2018 - 23:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 14.03.2018 - 00:47
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 1318
Регистрация: 27.11.2007
Пользователь №: 4573



Именно логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики) и должна преобладать над соблазном приводить средние, и не важно, каким образом они получены они остаются параметрами распределения.

Для медицины есть руководство именно о том, как описывать результаты статистического анализа, оно так и называется. Долгое время я использовала первоисточник на английском ( в сети был свободно). How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Thomas A. Lang and Michelle Secic
Сейчас книга переведена leo_biostat https://www.ozon.ru/context/detail/id/5633322/

Аналогичные рекомендации описания результатов в зависимости от использования методов статистики имеются в книге Наглядная статистика в медицине - Петри А., Сэбин К. - 2003 год .

Оба источника рекомендуют при использовании непараметрических (ранговых критериев) приводить медианы, ДИ медианы и ДИразности медиан. И это вполне логично. Интерпретация медиан не представляет никакой трудности для медиков, гораздо труднее получить и оценить разность медиан (для несвязанных выборок) или медиану разности парных выборок посредством ДИ.
Если нет возможности посчитать ДИ разности медиан можно привести медианы и ДИ к ним в каждой из двух групп (Петри).

SPSS начиная с 18 версии рассчитывает доверительный интервал Ходжеса-Лемана для медианы разности парных выборок и разности медиан двух независимых выборок. Но у меня только 17.

При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия.
На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит.
Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R.
Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nikita_zab
сообщение 27.05.2018 - 16:34
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 13
Регистрация: 12.03.2017
Пользователь №: 29479



Цитата(DrgLena @ 14.03.2018 - 00:47) *
При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия.
На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит.
Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R.
Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences.


Хотелось бы поднять тему. Прошу поделиться кодом R для оценки доверительного интервала разности медиан.
Можно ли поступить таким образом?

x <- rpois(80, 25)
y <- rpois(70, 20)
x <- apply(matrix(sample(x, rep=TRUE, 5000*length(x)), nrow=5000), 1, median)
y <- apply(matrix(sample(y, rep=TRUE, 5000*length(y)), nrow=5000), 1, median)
quantile(x-y, c(.025, 0.975))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 30.05.2018 - 13:52
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 1318
Регистрация: 27.11.2007
Пользователь №: 4573



https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html
Тут все ответы,
Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода.

ДИ median(A-B ) дает wilcox.test:
> I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T)
> inf=I$conf.int[1]
> sup=I$conf.int[2]
> C<-(I)
> C
Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ


Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 31.05.2018 - 21:56
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 361
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 1.06.2018 - 00:30
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 680
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(DoctorStat @ 31.05.2018 - 21:56) *
Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?


http://quantile.ru/03/03-SA.pdf
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nikita_zab
сообщение 5.06.2018 - 11:35
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 13
Регистрация: 12.03.2017
Пользователь №: 29479



Цитата(DrgLena @ 30.05.2018 - 13:52) *
https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html
Тут все ответы,
Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода.

ДИ median(A-B ) дает wilcox.test:
> I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T)
> inf=I$conf.int[1]
> sup=I$conf.int[2]
> C<-(I)
> C
Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ


Спасибо за ответ.

Мой код выдал

A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253)
B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381)

A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median)
B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median)
quantile(A-B, c(.025, 0.975))

2.5% 97.5%
59 601


Вроде не сильно отличается.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 5.06.2018 - 12:10
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 680
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nikita_zab @ 5.06.2018 - 11:35) *
Спасибо за ответ.

Мой код выдал

A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253)
B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381)

A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median)
B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median)
quantile(A-B, c(.025, 0.975))

2.5% 97.5%
59 601


Вроде не сильно отличается.


Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?"

P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11?

Сообщение отредактировал 100$ - 5.06.2018 - 13:11
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nikita_zab
сообщение 7.06.2018 - 16:59
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 13
Регистрация: 12.03.2017
Пользователь №: 29479



Цитата(100$ @ 5.06.2018 - 12:10) *
Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?"

P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11?


Кодярю в свободное от основной деятельности время. Мне кажется, что применяя тот или иной метод - хороший способ разобраться в практических тонкостях.
Спасибо, что дали ссылку на оценку Ходжеса - Лемана, было интересно ознакомится с этим вопросом.

Я взял выборку из ответа, а не из оригинала сообщения, поэтому 2х11. Что собственно говорит и о моей невнимательности.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 4.07.2018 - 09:24
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 78
Регистрация: 18.01.2010
Пользователь №: 9836



Цитата(nokh @ 13.03.2018 - 00:35) *
...Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа).

уважаемый nokh, не могли бы поделиться ссылками на этот подход?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 8.07.2018 - 05:54
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 1070
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(bubnilkin @ 4.07.2018 - 11:24) *
уважаемый nokh, не могли бы поделиться ссылками на этот подход?

Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему