Увы, Р-значение НЕ есть вероятность нулевой гипотезы!
Увы, это - самая распространенная и принципиальная ошибка! Она присутствует даже в книге Гланца "Медико-биологическая статистика". В последних ее английских изданиях эта ошибка исправлена, но их перевод на русский не предвидится.
Р-значение есть вероятность получить наблюдаемые значения (данные) и все остальные (из всех возможных), еще более экстремальные или еще менее вероятные ПРИ УСЛОВИИ, что справедлива Нулевая Гипотеза Ho.
Квинтэссенцию традиционного статистического (частотного) мышления (умозаключения) можно интерпретировать так:
Чем меньше P-значение, тем сильнее (весомее) доводы (свидетельства, доказательства) против Hо. Тем больше сомнение в Ho. Однако P-значение не является прямой (непосредственной) мерой таких доказательств.
Многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение, игнорируя клиническую (практическую) ценность (важность) полученных ими данных.
Когда они получают малые Р-значения, которые указывают на статистически значимое различие между новым и стандартным способами лечения, они дико радуются, ликуют, танцуют на улицах, с шумом открывают бутылки с шампанским и публикуют свои результаты в журналах класса «А».
Когда же они получают большие Р-значения, то они рвут на себе волосы, срывают с себя одежды, посыпают голову пеплом, стенают и рыдают и публикуют свои результаты в журналах класса «С».
Поскольку Р-значение вычисляется в предположении, что верна нулевая гипотеза, то оно не может представлять вероятность (верности) нулевой гипотезы.
Р-значение не есть «Вероятность нулевой гипотезы».
Р-значение не есть «Вероятность того, что вы совершите ошибку (первого рода), если отклоните нулевую гипотезу».
Р-значение не есть «Вероятность того, что наблюдаемые данные произошли случайно».
Р-значение не есть «Вероятность получить наблюдаемые данные при условии справедливости нулевой гипотезы».
Подробнее, чем еще НЕ является Р-значение, см.:
http://en.wikipedia.org/wiki/P-valueНаиболее часто в качестве критического порога используется уровень значимости α = 0,05. И статистический анализ в конечном итоге сводится к сравнению наблюдаемого P-значения с этим α и результаты обычно представляются виде неравенств: P > 0,05 или P < 0,05. Преодоление этого порогового уровня (P < 0,05) всего лишь в одной выборке считается достаточным для вывода о значимости наблюдаемого эффекта.
В последнем случае часто употребляется даже более сильное утверждение: «эффект достоверен». Наряду с этим повсеместно (за редчайшими исключениями) используется уровень (вероятность) доверия 0,95 и строятся 95%-ые интервалы доверия.
М. Кендалл упоминал, что Фишер составил таблицы критических значений (для уровней значимости 0,05; 0,02 и 0,01) из соображений компактности и удобства пользования, а также с целью избежать проблемы авторства с Карлом Пирсоном, которого он недолюбливал. Кроме того, Фишер остановил свой выбор на этих критических значениях, основываясь на личном опыте работы с сельскохозяйственными растениями на Ротамстедской сельскохозяйственной станции. По этому поводу есть стать: "Фишер невиновен, но ответственен".
Причем сам Фишер писал: "В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений". R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956. Такой подход иногда интепретируют как призыв использовать "гибкие" Р-значения.
Есть статья: Sterne J.A.C., Davey Smith G. Sifting the evidence - what's wrong with significance tests? BMJ 322(2001)227-231. В ней авторы настаивают: "P-значение близкое к 0,05 не является сильным свидетельством (доказательством) против нулевой гипотезы. Сильными свидетельствами против Н0 следует признавать значения P < 0,001. В публикациях надо представлять точные P-значения без соотнесения их с какими-либо пороговыми (критическими) значениями (0,05). Наравне с P-значениями нужно указывать доверительные интервалы. Следует избегать слов «значимый» или «незначимый» (и тем более - «достоверный»).
Дабы приостановить дискредитацию медицинских исследований ложными «открытиями», нужны более убедительные доказательства".
Удивительно, но факт: еще полвека назад к этому призывал великий Колмогоров:
"При практическом употреблении вычисленных значений вероятности мы неизбежно приходим к вопросу о том, какими (сколь малыми) значениями вероятностей мы можем пренебречь. На практике этот вопрос решается каждый раз по-разному, в зависимости от того, насколько велика необходимость быстрого перехода от накопления надежных данных к их действительному употреблению. В математической статистике вероятность, которой решено пренебрегать в данном исследовании, называют уровнем значимости. Хотя в статистике обычно рекомендуют пользоваться уровнями значимости от 0,05 - при предварительных ориентировочных исследованиях и до 0,001 - при окончательных серьезных выводах, часто достижима значительно большая значимость вероятностных выводов". Этот текст воспроизведен в однотомной энциклопедии: Вероятность и математическая статистика. Энциклопедия. Издательство Большая Российская энциклопедия. 2003г. 912 стр. ISBN 5-7107-7433-2. См. раздел петитом в конце книги: "Хрестоматия по теории вероятностей и математической статистике".
Итак, еще раз: P-значение не есть вероятность нулевой гипотезы! P-значение есть вероятность получить наблюдаемые (выборочные) данные и все остальные еще более экстремальные (еще менее вероятные)
ПРИ УСЛОВИИ, что справедлива нулевая гипотеза P{D|H0} ≠ P{H0|D}. Т.е. Р-значение есть СУММА (или интеграл) вероятности (или плотности распределения) получить наблюдаемые данные и все остальные еще менее вероятные или все еще более отклоняющиеся от того, что ожидается согласно Но.
"Критерий значимости [P-значение] не позволяет нам (не дает никаких оснований) делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности" (Фишер, 1935, с. 35).
Р. А. Фишер. Математика дамы, дегустирующей чай. В сб.: Современные проблемы математики. ? М.: Знание, 1981. "Никакой отдельно взятый эксперимент, как бы значим он ни был сам по себе, не может считаться достаточным для доказательства какого-либо реального факта ? «один шанс на миллион» все равно будет обязательно осуществляться не реже и не чаще, чем ему положено, как бы мы ни удивлялись, произойди такое с нами".
Именно поэтому нам нужна Бейзовская (Бейзианская) методология. В подавляющем большинстве реальных ситуаций мы не располагаем какой-либо информацией об априорных вероятностях нулевой и альтернативной гипотез. В таких случаях не остается ничего иного, как предположить, что априори обе гипотезы H0 и H1 равновероятны (принцип индифферентности, или принцип недостаточных оснований).
При таком предположении для искомой апостериорной вероятности Hо удается оценить лишь ее нижнюю границу.
Бейзианцы научились КАЛИБРОВАТЬ Р-значение, т.е. вычислять НИЖНЮЮ границу для Р(Но|D) - для вероятности Но при условии получения наблюдаемых данных.
Для Р=0,05 Р(Но|D)>0,5; для Р=0,01 Р(Но|D)>0,1 и для Р=0,001 Р(Но|D)>0,02.
Мое мнение таково:
Если наблюдаемое P-значение получается в диапазоне от 0,05 до 0,01, то мало надежды, что этот результат воспроизведется при последующих повторениях опыта. В таком случае скорее всего стоит признать результат практически незначимым и прекратить дальнейшие исследования и не тратить время, усилия и средства на дальнейшие (повторные), скорее всего бесплодные, эксперименты.
Если наблюдаемое P-значение лежит в диапазоне от 0,01 до 0,001, то вопрос, продолжать ли опыты или нет, зависит от Вашей профессиональной интуиции. Если у Вас (как у профессионала, обогащенного жизненным опытом и опытом научной работы) есть (внестатистические) основания полагать, что результаты Вашего исследования жизненно важны, то продолжайте их.
Когда P-значение получается меньшим 0,001, тогда появляется надежда, что этот результат воспроизведется. Продолжайте свои исследования. В любом случае, руководствуясь Научным Методом, Вы обязаны МНОГОКРАТНО ПОВТОРЯТЬ опыты и исследовать их воспроизводимость.
Всем всех благ,
Никита Николаевич Хромов-Борисов
Nikita.KhromovBorisov@gmail.com