Оформление результатов стат. анализа, какие данные вводить в таблицу? |
Здравствуйте, гость ( Вход | Регистрация )
Оформление результатов стат. анализа, какие данные вводить в таблицу? |
12.03.2018 - 15:57
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 9.03.2018 Пользователь №: 31077 |
Добрый день.
Прошу помочь разобраться в таком вопросе. При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильный размах или среднее и ошибку среднего. По механизму самого анализа вроде медиана и интерквартильный размах. С уважением... |
|
12.03.2018 - 23:35
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильнфй размах мли среднее и ошибку среднего. По механизмусамого анализа вроде медиана и интерквартильный размах. Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие. 1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть. 2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы. 3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать... Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса). в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса. Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники. Сообщение отредактировал nokh - 12.03.2018 - 23:49 |
|
14.03.2018 - 00:47
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Именно логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики) и должна преобладать над соблазном приводить средние, и не важно, каким образом они получены они остаются параметрами распределения.
Для медицины есть руководство именно о том, как описывать результаты статистического анализа, оно так и называется. Долгое время я использовала первоисточник на английском ( в сети был свободно). How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Thomas A. Lang and Michelle Secic Сейчас книга переведена leo_biostat https://www.ozon.ru/context/detail/id/5633322/ Аналогичные рекомендации описания результатов в зависимости от использования методов статистики имеются в книге Наглядная статистика в медицине - Петри А., Сэбин К. - 2003 год . Оба источника рекомендуют при использовании непараметрических (ранговых критериев) приводить медианы, ДИ медианы и ДИразности медиан. И это вполне логично. Интерпретация медиан не представляет никакой трудности для медиков, гораздо труднее получить и оценить разность медиан (для несвязанных выборок) или медиану разности парных выборок посредством ДИ. Если нет возможности посчитать ДИ разности медиан можно привести медианы и ДИ к ним в каждой из двух групп (Петри). SPSS начиная с 18 версии рассчитывает доверительный интервал Ходжеса-Лемана для медианы разности парных выборок и разности медиан двух независимых выборок. Но у меня только 17. При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия. На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит. Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R. Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences. |
|
27.05.2018 - 16:34
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
При ассиметричных выборках среднее не характеризует выборку, а потому, медиана и квартили дают представление о данных, а разность медиан или медиана разности характеризует различия. На форуме уже обсуждался вопрос разности медиан и предлагалась программа Довинт, но там были какие то проблемы. Проблемы были и в понимании или в переводе, они и сейчас есть. Но, за эти 4 года R уверенно рулит. Предлагаю обсудить, кто что использует для удовлетворения ?руководства?. Особенно интересует мнение leo_biostat и продвинутых в R. Чтобы не было проблем с переводом, вопрос такой, как получить CI for the difference in medians, а также CI for the median of the differences. Хотелось бы поднять тему. Прошу поделиться кодом R для оценки доверительного интервала разности медиан. Можно ли поступить таким образом? x <- rpois(80, 25) y <- rpois(70, 20) x <- apply(matrix(sample(x, rep=TRUE, 5000*length(x)), nrow=5000), 1, median) y <- apply(matrix(sample(y, rep=TRUE, 5000*length(y)), nrow=5000), 1, median) quantile(x-y, c(.025, 0.975)) |
|
30.05.2018 - 13:52
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html
Тут все ответы, Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода. ДИ median(A-B ) дает wilcox.test: > I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T) > inf=I$conf.int[1] > sup=I$conf.int[2] > C<-(I) > C Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ |
|
31.05.2018 - 21:56
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ?
Просто включи мозги => http://doctorstat.narod.ru
|
|
1.06.2018 - 00:30
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Извините за отклонение от темы, но на этом форуме часто упоминается термин бутстреп. Я догадываюсь, что он означает, но у меня нет уверенности, что он работает как надо: дает сходимость, устойчивость и другие полезные качества. Можете привести ссылку, где объясняется правомочность применения бутстрепа в статистике ? http://quantile.ru/03/03-SA.pdf |
|
5.06.2018 - 11:35
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
https://stat.ethz.ch/pipermail/r-help/2012-...ary/303977.html Тут все ответы, Разность медиан (median(A)-median(B)) и ДИ к разности медиан - раньше я использовала package pairwiceCI, а сейчас пакeт iNZightVIT (R должен быть на машине), который рисует график после мультика, сопровождающего bootstrap распределение медианы. Пришпиленную картинку я сделала по тестовому примеру, который дан в ссылке. Вы можете также взять этот же пример и проверить результат своего кода. ДИ median(A-B ) дает wilcox.test: > I=wilcox.test(A,B,conf.lev=0.95,conf.int=TRUE,exact=F,correct=T) > inf=I$conf.int[1] > sup=I$conf.int[2] > C<-(I) > C Тут все однозначно и сходится с ручным расчетом по методу Altman, который также описан в русскоязычной статье ИНТЕРВАЛЬНАЯ ОЦЕНКА МЕДИАНЫ И ЕЕ АВТОМАТИЗАЦИЯ Спасибо за ответ. Мой код выдал A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253) B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381) A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median) B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median) quantile(A-B, c(.025, 0.975)) 2.5% 97.5% 59 601 Вроде не сильно отличается. |
|
5.06.2018 - 12:10
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Спасибо за ответ. Мой код выдал A =c(619, 600, 490, 1076, 654, 955, 563, 955, 827, 873, 1253) B =c(346, 507, 598, 228, 576, 338, 1153, 354, 560, 517, 381) A <- apply(matrix(sample(A, rep=TRUE, 5000*length(A)), nrow=5000), 1, median) B <- apply(matrix(sample(B, rep=TRUE, 5000*length(B)), nrow=5000), 1, median) quantile(A-B, c(.025, 0.975)) 2.5% 97.5% 59 601 Вроде не сильно отличается. Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?" P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11? Сообщение отредактировал 100$ - 5.06.2018 - 13:11 |
|
7.06.2018 - 16:59
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
Весь приличный софт (и R в том числе) в качестве разности медиан выдает разность по Ходжесу - Леману с доверительными интервалами по Тьюки. Вы выдали буквально понятую разность и прикрутили к ней самое простенькое и незатейливое, что есть в природе, - Эфронов доверительный интервал. Прежде чем что-то кодярить, полезно задать себе вопрос : "А как так вышло, что вся рота идет не в ногу, и только прапорщик - в ногу?" P.S. А как так вышло, что в разбираемом примере выборки объемом 11 и 13, а у вас - 2х11? Кодярю в свободное от основной деятельности время. Мне кажется, что применяя тот или иной метод - хороший способ разобраться в практических тонкостях. Спасибо, что дали ссылку на оценку Ходжеса - Лемана, было интересно ознакомится с этим вопросом. Я взял выборку из ответа, а не из оригинала сообщения, поэтому 2х11. Что собственно говорит и о моей невнимательности. |
|
4.07.2018 - 09:24
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
...Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). уважаемый nokh, не могли бы поделиться ссылками на этот подход? |
|
8.07.2018 - 05:54
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
уважаемый nokh, не могли бы поделиться ссылками на этот подход? Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD |
|