Оформление результатов стат. анализа, какие данные вводить в таблицу? |
Здравствуйте, гость ( Вход | Регистрация )
Оформление результатов стат. анализа, какие данные вводить в таблицу? |
12.03.2018 - 15:57
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 9.03.2018 Пользователь №: 31077 |
Добрый день.
Прошу помочь разобраться в таком вопросе. При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильный размах или среднее и ошибку среднего. По механизму самого анализа вроде медиана и интерквартильный размах. С уважением... |
|
12.03.2018 - 23:35
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
При анализе значимости с помощью непараметрического критерия Манна-Уитни. Какие результаты нужно представлять в таблице. Медиану и интерквартильнфй размах мли среднее и ошибку среднего. По механизмусамого анализа вроде медиана и интерквартильный размах. Однозначно только что не (среднее и ошибку среднего) - эта форма осталась в ХХ веке. Остальное - обсуждаемо. Соображения следующие. 1. Важнее сами данные, а не критерий, которым они сравниваются. Мало ли какие механизмы и алгоритмы задействует критерий. Мы должны подавать данные так, чтобы они хорошо представляли выборку и были удобны для сопоставления разных выборок, а как работает критерий - его внутренняя кухня. Хотя логика в подаче данных с единых позиций (в данном случае - с позиций порядковой статистики), конечно есть. 2. Можно рекомендовать ориентироваться на статьи в своей области, опубликованные в англоязычных журналах с высоким импакт-фактором. В разных областях науки существуют свои устоявшиеся каноны подачи информации, порушить которые рецензенты могут не дать, даже если вы более правы. 3. Удобен ли стандарт (медиана и межквартильный размах) для сравнения данных? Беда в том, что не удобен, т.к. для любой пары выборок по этим цифрам нельзя предположить статистическую значимость различий. Куда лучше (среднее и 95% доверительный интервал), т.к. если интервалы не перекрываются, значит скорее всего выборки принадлежат разным генеральным совокупностям (Р<0,05). Но здесь беда в том, что для сильно асимметричных распределений среднее арифметическое плохо характеризует центральную тенденцию, да и 95% ДИ нужно грамотно рассчитать... Лично я в последнее время полностью отказался от медианы и квартилей в описании данных (за исключением цензурированных данных). Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). б) для данных, для которых известно, как именно их распределение отличается от нормального 1) нормализую данные преобразованием, 2) вычисляю среднее и 95% ДИ, 3) полученные 3 значения ретрансформирую в исходную шкалу с помощью наивного обратного преобразования. Это, например, для логнормально распределённых данных (логарифмическое преобразование), для площадей (преобразование квадратного корня), для % (фи-преобразование арксинуса). в) для резко асимметрично распределённых данных, для которых теоретическое распределение неизвестно, использую схему (б), но только с прямым и обратным преобразованием Бокса - Кокса. Именно так я бы представил данные в таблице, а подкрепить различия статистически можно любым хорошим критерием. Критерий Манна - Уитни - "хороший", в том смысле, что мощный: на больших выборках из нормально распределённых генеральных совокупностей только на 5% уступает в мощности критерию Стьюдента. Но мне не нравится сама идея заменять исходные количественные значения (шкалы отношений и интервалов) рангами и таким образом недоиспользовать имеющуюся информацию. Поэтому для количественных, а не исходно порядковых (порядковая шкала) данных лучше провести сравнение точным рандомизационным критерием (Exact permutatuion test) или, если точный вариант невозможен ввиду вычислительных ограничений - рандомизационным критерием Монте-Карло (Monte Carlo permutatuion test). Рандомизационный критерий можно организовать напрямую для разности средних значений. Но если ориентироваться на пакеты с кнопочным интерфейсом - использовать доступные рандомизационные техники. Сообщение отредактировал nokh - 12.03.2018 - 23:49 |
|
4.07.2018 - 09:24
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
...Привожу всегда среднее и 95% ДИ. Но вычисляю их так: а) для не сильно асимметрично распределённых данных (данные в пределах выборки не изменяются на порядки) и для очень малых выборок рассчитываю обычное среднее арифметическое, а 95% ДИ вычисляю непараметрическим бутстрепом (методом процентилей, или чаще ВСа). уважаемый nokh, не могли бы поделиться ссылками на этот подход? |
|
8.07.2018 - 05:54
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
уважаемый nokh, не могли бы поделиться ссылками на этот подход? Этот подход - мой опыт. Про то, что ресэмплинг техники работают с асимметричными распределениями хуже, можно найти у классиков (про складной нож ссылка под рукой, про бутстреп нужно рыться). Подход с трансформацией-ретрансформацией используется широко. Кое-какие ссылки по ретрансформации выкладывал сюда: https://yadi.sk/d/yd9ihstL3KLVuD |
|