Когда двустороннее P-значение статистики критерия равно удвоенному одностороннему, а когда нет?
Когда распределение статистики симметричное
Спасибо. Так и предполагал. Вопрос был вызван тем, что данный факт обходится вниманием в руководствах.
Если не сильно затруднит, можно привести примеры широко распространенных критериев (параметрических, непараметрических, согласия распределений), распределение статистики которых является симметричным и является несимметричным?
От себя приведу пример критерия с несимметричным распределением - точный метод Фишера, методики вычисления односторонних P-значений которого не удалось найти в литературе. Тем не менее многие программы данное вычисление производят.
Еще интересно, как влияет на результат (в смысле данной темы) "нормализация" статистики.
Если необходимо только двустороннее P-значение (которое является суммой односторонних), то различие односторонних значений не имеет значения. А вот если односторонние значения различны, то, очевидно, из вычисленного двустороннего значения "выудить" одностороннее в данном случае уже будет затруднительно.
На вскидку такие критерии (кроме Фишера, хи2 тоже асимметричный) мне в голову не приходят - поскольку остальные часто используемые критерии являются симметричными, как это видно из того, большинство при больших n имеют нормальную аппроксимацию.
Честно говоря, я никогда не понимал теоретического обоснования односторонних критериев (мы знаем, что х не может быть меньше у, но нулевая гипотеза, что х и у пришли из одного распределения - логическое противоречие), посему серьезно этим вопросом не занимался
А вопрос-то интересный.
Пусть проверяется нулевая гипотеза "среднее одной выборки > среднего другой выборки". Обычно заведомо известно, что среднее действительно больше. Нужно показать, значимо ли. Гипотеза явно односторонняя. Получить должны, скажем, p = 0,049. На уровне 0,05 различие значимо. Однако авторы (и ПО) советуют применять всегда двусторонний тест. Т.е. мы сознательно огрубляем гипотезу до "среднее одной выборки не равно среднему другой выборки". И получить должны, по идее (для критерия с симметричной функцией распределения), p = 0,098. Т.е. на принятом уровне значимости 0,05 мы имеем недоказанность различий, хотя на самом деле, по логике, они имеют место.
Вот меня-то и смущает гипотеза "среднее популяции из которой пришла выборка 1 > среднего популяции из которой пришла выборка 2". Это больше напоминает альтернативную гипотезу (выборки из разных популяций), чем нулевую (выборки из одной популяции). Ведь почти все статистическое тестирование расчитано на то, что мы пытаемся ответить на вопрос "а могли ли получиться подобные различия, если бы мы брали выборки из одной популяции" и вот односторонний критерий добавляет, "мы учитываем при этом только положительные отклонения" (а почему не учитывать отрицательные?).
Соответственно, что среднее "действительно больше" известно только в рамках альтернативной, но никак не нулевой гипотезы, ибо в рамках нулевой средние равны. Соответственно, односторонний критерий просто игнорирует часть возможных (в рамках нулевой гипотезы) выборок. Почему - непонятно.
По опыту про односторонние критерии обычно вспоминают тогда, когда заветную границу в 0.05 перейти не удалось, а очень хочется
Согласен.
А, может быть, еще и авторы руководств не всегда имеют формулы (алгоритмы) расчета односторонних значений. Ведь проще сказать: "Советуем использовать двустороннее..." (см., например, у Флейса), чем дать все формулы и предоставить пользователю/читателю выбрать.
Действительно в руководствах одно- или двусторонность критериев обсуждается в общем, без конкретики для разных критериев: односторонние вероятности умножать на 2 для двусторонних, двусторонние - делить если надо... Хотя где-то встречал, что удвоение односторонней вероятности дает консервативную оценку двусторонней. Более внимательно к этому относятся при оценке точных значений P, поэтому у меня сложилось впечатление, что простых формул для соответствующих расчетов нет, по крайней мере - для анализа таблиц частот, и настоящие одно- или двусторонние оценки P можно получить только перестановкой (permutation). В таком случае, принципиально важен тот факт, что аппроксимация распределения статистики как, например, более близким для конкретных данных асимметричным распределением, так и более далеким симметричным - все равно остается аппроксимацией. И односторонние оценки будут рассчитываться не для точного распределения, а для приближения. А потому, возможно, нет особого смысла мудрить с чуть более точными значениями P, можно и умножать/делить на 2. Т.е. в ряду: «точная оценка односторонней P --- оценка-аппроксимация односторонней P --- оценка-аппроксимация, полученная делением двусторонней P» центральное звено является промежуточным между точным но ресурсоемким и неточным но быстрым. Нужно ли это звено практику? А что касается принципиальной возможности использования односторонних критериев - это уже скорее из области философии науки, и нужно ли всем ученым быть жесткими минимаксерами ?
Я не думаю, что вопрос закрыт.
Чтобы выяснить, что же все-таки мы считаем, обратимся к руководствам и ПО.
Введем 2 выборки в Excel
1 выборка: 1 3 2 3 1 1 2
2 выборка: 4 5 3 4 5 6 4
Посчитаем с помощью "Пакета анализа" Excel критерий Стьюдента. Получаем (как и следовало ожидать)
одностороннее P = 0,0001254896...
двустороннее P = 0,0002509792...
Теперь подставим те же исходные данные в формулу расчета критерия Стьюдента. Получаем (как не ожидалось)
P = 0,9998745...
Согласно Тюрину с соавт., значимыми признаются и малые, и большие значения статистики, поэтому, видимо, справедлива формула
p-значение = Min(P, 1 - P)
Подставляем. Получаем
P = 0,0001254896...
Итак, стандартная общеупотребительная формула все-таки считает ОДНОСТОРОННЕЕ значение. Хотя читателям об этом обычно не сообщается.
Те же самые рассуждения, примеры и выводы (за исключением чисел, естественно) относятся и к F-критерию.
Далее, еще пара примеров. Стандартный хи-квадрат критерий для дихотомических выборок считает двустороннее значение. Не менее стандартный z-критерий считает одностороннее.
Что считает критерий Вилкоксона, в рассматриваемом смысле, не совсем понятно, т.к., кроме Excel, никакими программами анализа данных не обладаю, поэтому был бы благодарен счастливым обладателям больших программ за прояснение ситуации.
Про общеупотребительную формулу, считающую одностороннюю вероятность не понятно. Возможно потому что не считаю в Excel'е статистику - не знаю что там за формулы. Для t-критерия должны выдаваться только степень свободы и значение t - оно ведь будет одинаковым независимо от одно-двусторонности. А одно- или двусторонняя P считается далее по этому t...?
Приведенные данные примера не очень удобны чтобы разбираться, лучше бы иметь значение P в диапазоне, который более-менее подробно табулирован в руководствах. Менее 0,001 - очень мало.
Из бесплатных пакетов очень рекомендую попробовать KyPlot. Она есть в списке бесплатных программ, который вы здесь раньше выкладывали. Прямая ссылка:
http://freestatistics.altervista.org/kyp2b15.zip
Все никак не собирусь написать про те программки из списка, которые пробовал. А KyPlot'ом пользуюсь лет 5 - гениальная вещь. Проверял расчеты по таблицам сопряженности, непараметрику, пару вариантов факторного анализа - сходится с другими пакетами или ручными расчетами. Безграничные возможности создания сложной научной графики - готовлю в ней рисунки для публикаций. Там есть и t-критерий и критерий Вилкоксона (к сожалению асимптотика), все промежуточные расчеты подшиваются - видно как что делалось. Программа понимает файлы экселя напрямую - можете использовать уже готовые примеры.
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)