Ну вообще-то расчеты тут не верные (ДИ). Если анализируются две группы, то правильнее анализировать ДИ не для двух выборок по отдельности, а для разностей.
В приведенном выше примере мы имеем для разности средних
0,232, 95%ДИ=0,048-0,416. Поскольку нулевое значение находится вне пределов интервала, нулевую гипотезу о равенстве популяционных средних надо отклонить. Иными словами тут будет полный аналог t-теста
Если сравнивать два доверительных интервала, рассчитанных по отдельным выборкам, то мощность теста упадет, как если Вы возьмете и в t-тесте замените оценку стандартного отклонения из двух групп на одну группу.
Однако вопрос важности падения мощности не столь однозначен.
То, что разные тесты дают разные значения р отнюдь не удивительно. Для данного примера (я звездочками пометил менее 0,05):
- Вилкоксон, нормальная аппроксимация р=0,0367 *
- Вилкоксон, аппроксимация по t-критерию р=0,0663
- Критерий Краскела-Уоллеса р=0,0283 *
- Двухвыборочный медианный критерий р=0,0719
- Критерий Ван-дер-Ваардена р=0,0302 *
- Критерий Сэвиджа р=0,0474 *
- Двухвыборочный критерий Колмогорова-Смирнова р=0,0815
- Критерий Купера р=0,4404
Из 8 критериев в 4 менее 0,05, в 4 - более.
На самом деле в этом примере даже не скажешь, каким тестом пользоваться, пока не будешь знать об исходной популяции, ошибках измерения и задаче тестирования. Может - t-критерием, а может - КС. Учитывая малый размер выборки, чистый t-критерий представляется наименее адекватным тестом из мощных, если только нет данных в пользу нормальности распределения значения в исходной популяции. Для Вилкоксона, опять же по тем же причинам лучше использовать Вилкоксона с t-аппроксимацией, а она не дает достоверных отличий.
Вывод отнюдь не так однозначен, как кажется с первого взгляда.