Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Вероятность для диссертационного исследования
Zhenya
сообщение 2.07.2008 - 05:41
Сообщение #1





Группа: Пользователи
Сообщений: 1
Регистрация: 2.07.2008
Пользователь №: 5131



Скажите, пожалуйста, уместно ли в диссертационной работе приводить вероятность ошибки по кэффициенту Стъюдента P<0,1, P<0,2. Как трактуется такой результат, достоверны ли изменения и как посчитать такую вероятность, если число степеней свободы больше табличных данных?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.07.2008 - 07:22
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



P - не вероятность ошибки, а вероятность нулевой гипотезы Но (нет различий, связей или зависимостей). Форма записи "P<..." выглядит архаично и уходит корнями во времена, когда люди пользовались не статистическими программами, а таблицами критических значений. Сейчас принято приводить точное значение P (оно может понадобиться коллегам для мета-анализа) и указывать в методическом разделе программу с помощью которой оно было рассчитано. Также следует приводить значение статистического критерия и число степеней свободы для него. Напрмер: t=1,84, df=23, P=0,079. Число степеней свободы (degree of freedom - df) также приводится нижним индексом к критерию в квадратных скобках (t[23]=1,84; P=0.079), а в отечественных работах часто обозначается греческой буквой "ню" вместо df.

Результаты исследования должны быть прозрачными. Поэтому в диссертационной работе лучше приводить все результаты статистических проверок независимо от статистической значимости, а обсуждать те, которые сочтете нужным. Громозкие выкладки выносить в приложения. В статьях, исключительно для краткости, возможны другие варианты.

Прикладная математическая статистика базируется на теории вероятностей, в которой достоверным событием называется событие с вероятностью Р=1, а невозможным с Р=0. Достоверно, например, выпадение числа от 1 до 6 при бросании обычного игрального кубика, а невозможно - выпадение 7. В статистическом оценивании P находится в интервале от 0 до 1, поэтому правильнее говорить не о достоверности, а о статистической значимости различий (связей, зависимостей). Чтобы принимать решения в условиях такой неопределенности ввели уровень значимости "альфа". Если P меньше или равно альфа, оно интерпретируется как P=0, если больше - как P=1. Выбор уровня значимости - внестатистическое решение и принято научным сообществом по договоренности. Сейчас оптимальным считается альфа=0,05, но для строго контролируемых экспериментов оно может быть слишком либеральным (нужно 0,01 и меньше), а для разведочного анализа - слишком строгим (достаточно 0,1). Обычно можно: при P<=0,05 отвергать нулевую гипотезу Но и считать различия статистически значимыми, при P>0,10 - принимать Но и считать различия незначимыми, в промежуточных случаях (0,05<P<=0,10) обсуждать тенденцию к различиям. Но это также зависит от конкретики: например если новый препарат одно замечательно вылечивает, но статистически незначимо приводит к повышению риска смерти лабораторных животных (P=0.12) - ясно, что по этому препарату нужно как минимум продолжить исследования.

Если число степеней свободы больше табличных данных нужно или использовать консервативный подход - брать большее из табулированных, или воспользоваться программой: статистическим пакетом или вероятностным калькулятором (встречался неплохой бесплатный). Плав давал ссылку на интересный онлайновый ресурс: http://statpages.org/index.html#Comparisons.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nikita
сообщение 30.08.2008 - 20:20
Сообщение #3





Группа: Пользователи
Сообщений: 8
Регистрация: 30.08.2008
Пользователь №: 5242



Увы, Р-значение НЕ есть вероятность нулевой гипотезы!
Увы, это - самая распространенная и принципиальная ошибка! Она присутствует даже в книге Гланца "Медико-биологическая статистика". В последних ее английских изданиях эта ошибка исправлена, но их перевод на русский не предвидится.
Р-значение есть вероятность получить наблюдаемые значения (данные) и все остальные (из всех возможных), еще более экстремальные или еще менее вероятные ПРИ УСЛОВИИ, что справедлива Нулевая Гипотеза Ho.
Квинтэссенцию традиционного статистического (частотного) мышления (умозаключения) можно интерпретировать так:
Чем меньше P-значение, тем сильнее (весомее) доводы (свидетельства, доказательства) против Hо. Тем больше сомнение в Ho. Однако P-значение не является прямой (непосредственной) мерой таких доказательств.
Многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение, игнорируя клиническую (практическую) ценность (важность) полученных ими данных.
Когда они получают малые Р-значения, которые указывают на статистически значимое различие между новым и стандартным способами лечения, они дико радуются, ликуют, танцуют на улицах, с шумом открывают бутылки с шампанским и публикуют свои результаты в журналах класса «А».
Когда же они получают большие Р-значения, то они рвут на себе волосы, срывают с себя одежды, посыпают голову пеплом, стенают и рыдают и публикуют свои результаты в журналах класса «С».
Поскольку Р-значение вычисляется в предположении, что верна нулевая гипотеза, то оно не может представлять вероятность (верности) нулевой гипотезы.
Р-значение не есть «Вероятность нулевой гипотезы».
Р-значение не есть «Вероятность того, что вы совершите ошибку (первого рода), если отклоните нулевую гипотезу».
Р-значение не есть «Вероятность того, что наблюдаемые данные произошли случайно».
Р-значение не есть «Вероятность получить наблюдаемые данные при условии справедливости нулевой гипотезы».
Подробнее, чем еще НЕ является Р-значение, см.: http://en.wikipedia.org/wiki/P-value
Наиболее часто в качестве критического порога используется уровень значимости α = 0,05. И статистический анализ в конечном итоге сводится к сравнению наблюдаемого P-значения с этим α и результаты обычно представляются виде неравенств: P > 0,05 или P < 0,05. Преодоление этого порогового уровня (P < 0,05) всего лишь в одной выборке считается достаточным для вывода о значимости наблюдаемого эффекта.
В последнем случае часто употребляется даже более сильное утверждение: «эффект достоверен». Наряду с этим повсеместно (за редчайшими исключениями) используется уровень (вероятность) доверия 0,95 и строятся 95%-ые интервалы доверия.
М. Кендалл упоминал, что Фишер составил таблицы критических значений (для уровней значимости 0,05; 0,02 и 0,01) из соображений компактности и удобства пользования, а также с целью избежать проблемы авторства с Карлом Пирсоном, которого он недолюбливал. Кроме того, Фишер остановил свой выбор на этих критических значениях, основываясь на личном опыте работы с сельскохозяйственными растениями на Ротамстедской сельскохозяйственной станции. По этому поводу есть стать: "Фишер невиновен, но ответственен".
Причем сам Фишер писал: "В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений". R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956. Такой подход иногда интепретируют как призыв использовать "гибкие" Р-значения.
Есть статья: Sterne J.A.C., Davey Smith G. Sifting the evidence - what's wrong with significance tests? BMJ 322(2001)227-231. В ней авторы настаивают: "P-значение близкое к 0,05 не является сильным свидетельством (доказательством) против нулевой гипотезы. Сильными свидетельствами против Н0 следует признавать значения P < 0,001. В публикациях надо представлять точные P-значения без соотнесения их с какими-либо пороговыми (критическими) значениями (0,05). Наравне с P-значениями нужно указывать доверительные интервалы. Следует избегать слов «значимый» или «незначимый» (и тем более - «достоверный»).
Дабы приостановить дискредитацию медицинских исследований ложными «открытиями», нужны более убедительные доказательства".

Удивительно, но факт: еще полвека назад к этому призывал великий Колмогоров:

"При практическом употреблении вычисленных значений вероятности мы неизбежно приходим к вопросу о том, какими (сколь малыми) значениями вероятностей мы можем пренебречь. На практике этот вопрос решается каждый раз по-разному, в зависимости от того, насколько велика необходимость быстрого перехода от накопления надежных данных к их действительному употреблению. В математической статистике вероятность, которой решено пренебрегать в данном исследовании, называют уровнем значимости. Хотя в статистике обычно рекомендуют пользоваться уровнями значимости от 0,05 - при предварительных ориентировочных исследованиях и до 0,001 - при окончательных серьезных выводах, часто достижима значительно большая значимость вероятностных выводов". Этот текст воспроизведен в однотомной энциклопедии: Вероятность и математическая статистика. Энциклопедия. Издательство Большая Российская энциклопедия. 2003г. 912 стр. ISBN 5-7107-7433-2. См. раздел петитом в конце книги: "Хрестоматия по теории вероятностей и математической статистике".

Итак, еще раз: P-значение не есть вероятность нулевой гипотезы! P-значение есть вероятность получить наблюдаемые (выборочные) данные и все остальные еще более экстремальные (еще менее вероятные)
ПРИ УСЛОВИИ, что справедлива нулевая гипотеза P{D|H0} ≠ P{H0|D}. Т.е. Р-значение есть СУММА (или интеграл) вероятности (или плотности распределения) получить наблюдаемые данные и все остальные еще менее вероятные или все еще более отклоняющиеся от того, что ожидается согласно Но.
"Критерий значимости [P-значение] не позволяет нам (не дает никаких оснований) делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности" (Фишер, 1935, с. 35).

Р. А. Фишер. Математика дамы, дегустирующей чай. В сб.: Современные проблемы математики. ? М.: Знание, 1981. "Никакой отдельно взятый эксперимент, как бы значим он ни был сам по себе, не может считаться достаточным для доказательства какого-либо реального факта ? «один шанс на миллион» все равно будет обязательно осуществляться не реже и не чаще, чем ему положено, как бы мы ни удивлялись, произойди такое с нами".

Именно поэтому нам нужна Бейзовская (Бейзианская) методология. В подавляющем большинстве реальных ситуаций мы не располагаем какой-либо информацией об априорных вероятностях нулевой и альтернативной гипотез. В таких случаях не остается ничего иного, как предположить, что априори обе гипотезы H0 и H1 равновероятны (принцип индифферентности, или принцип недостаточных оснований).
При таком предположении для искомой апостериорной вероятности Hо удается оценить лишь ее нижнюю границу.

Бейзианцы научились КАЛИБРОВАТЬ Р-значение, т.е. вычислять НИЖНЮЮ границу для Р(Но|D) - для вероятности Но при условии получения наблюдаемых данных.

Для Р=0,05 Р(Но|D)>0,5; для Р=0,01 Р(Но|D)>0,1 и для Р=0,001 Р(Но|D)>0,02.

Мое мнение таково:

Если наблюдаемое P-значение получается в диапазоне от 0,05 до 0,01, то мало надежды, что этот результат воспроизведется при последующих повторениях опыта. В таком случае скорее всего стоит признать результат практически незначимым и прекратить дальнейшие исследования и не тратить время, усилия и средства на дальнейшие (повторные), скорее всего бесплодные, эксперименты.

Если наблюдаемое P-значение лежит в диапазоне от 0,01 до 0,001, то вопрос, продолжать ли опыты или нет, зависит от Вашей профессиональной интуиции. Если у Вас (как у профессионала, обогащенного жизненным опытом и опытом научной работы) есть (внестатистические) основания полагать, что результаты Вашего исследования жизненно важны, то продолжайте их.

Когда P-значение получается меньшим 0,001, тогда появляется надежда, что этот результат воспроизведется. Продолжайте свои исследования. В любом случае, руководствуясь Научным Методом, Вы обязаны МНОГОКРАТНО ПОВТОРЯТЬ опыты и исследовать их воспроизводимость.

Всем всех благ,
Никита Николаевич Хромов-Борисов
Nikita.KhromovBorisov@gmail.com
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.09.2008 - 17:43
Сообщение #4





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Nikita @ 30.08.2008 - 20:20) *
Чем меньше P-значение, тем сильнее (весомее) доводы (свидетельства, доказательства) против Hо. Тем больше сомнение в Ho. Однако P-значение не является прямой (непосредственной) мерой таких доказательств.

А что является такой мерой?
Цитата(Nikita @ 30.08.2008 - 20:20) *
Многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на Р-значение, игнорируя клиническую (практическую) ценность (важность) полученных ими данных.

На русском языке нет современных книг по статистическому анализу медицинских данных, подобных изданным в последние годы за рубежом. К сожалению. Подробности см. практически во всех темах настоящего форума. При наличии таких изданий нам не о чем тут было бы говорить. Отсюда и привычка не читать толковых источников - по причине отсутствия оных.
Цитата(Nikita @ 30.08.2008 - 20:20) *
Именно поэтому нам нужна Бейзовская (Бейзианская) методология. В подавляющем большинстве реальных ситуаций мы не располагаем какой-либо информацией об априорных вероятностях нулевой и альтернативной гипотез.

Противоречие! Разве Байесовская методология не опирается на некоторую априорную информацию?
Цитата(Nikita @ 30.08.2008 - 20:20) *
При таком предположении для искомой апостериорной вероятности Hо удается оценить лишь ее нижнюю границу.

А вот тут уместно дать подробный алгоритм расчета этой самой нижней границы. Просим!

Нет-нет, этого недостаточно:
Цитата(Nikita @ 30.08.2008 - 20:20) *
Бейзианцы научились КАЛИБРОВАТЬ Р-значение, т.е. вычислять НИЖНЮЮ границу для Р(Но|D) - для вероятности Но при условии получения наблюдаемых данных.

Для Р=0,05 Р(Но|D)>0,5; для Р=0,01 Р(Но|D)>0,1 и для Р=0,001 Р(Но|D)>0,02.

Научились. Мы тоже хотим научиться. Как из P-значения и, возможно, каких-то еще параметров получить нижнюю границу?
Цитата(Nikita @ 30.08.2008 - 20:20) *
Мое мнение таково:
Если наблюдаемое P-значение получается в диапазоне от 0,05 до 0,01, то мало надежды, что этот результат воспроизведется при последующих повторениях опыта.

Если P-значение получается [неважно каким], логично ожидать того же P-значения и в последующих опытах. Нет?


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.09.2008 - 22:36
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



> Nikita
Спасибо за разъяснения. Не планируете ли написать по биометрии что-нибудь современное? Хотя бы в виде приложения как в Генетике популяций Кайданова. С тем же байесовым подходом действительно большой пробел. Да и генетическая статистика далеко убежала.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.09.2008 - 17:37
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



На самом деле интерпретация байезианской статистики несколько странная. С точки зрения байезианской статистики любые данные рассматриваются в свете того, что известно о проблеме, соответственно любые утверждения типа "Если наблюдаемое P-значение получается в диапазоне от 0,05 до 0,01, то мало надежды, что этот результат воспроизведется при последующих повторениях опыта" являются малообоснованными, просто потому, что они базируются на "неправильных" условных вероятностях. Не учитывается самое основное в байезианской статистики - априорная вероятность справедливости гипотезы. Если априорная вероятность высока (скажем, 0,5), то апостериорная вероятность и при р=0,05 будет достаточно высокой. С другой стороны, при р=0,001 априорная вероятность не будет играть большой роли, поскольку в большинстве случаев (кроме крайно маловероятных гипотез) фактов в пользу альтернативной гипотезы будет больше.
Утверждение о том, что нулевая и альтернативная гипотезы являются равновероятными является сомнительным, если не сказать больше. Это все равно, что утверждать, что любое химическое вещество, которое мы попытаемся использовать в медицине имеет 50% вероятность оказаться лекарством (с одной стороны). Более того, подобная интерпретация байесовского подхода просто игнорирует накопленные научные данные, а именно необходимость учета предыдущих знаний потребовала обращения к байесовской статистике.
В реальности байесовский подход заключается в расчете апостериорных вероятностей для всего диапазона возможных априорных вероятностей и анализа полученного распределения.
Посему. Либо надо утверждать, что являешься байезианцем и начинать объяснения с описания (распределения) априорной вероятности, либо надо оставаться на фреквентистских позициях и тогда стоит говорить об адекватном планировании эксперимента (заблаговременное определение вероятностей ошибок I и II рода и определение дизайна для осуществления эксперимента). Попытки деления диапазона значений р на уровни без привязки к конкретным знаниям, это смешение "французского с нижегородским". Даже Р. Фишер, который разрабатывал статистическую методологию пытаясь справиться с субъективизмом байезианства (а байесовская статистика значительно старше "обычной" сейчас фреквентистской, все ж таки с конца XVIII века существует), тем не менее предлагал оценивать р с учетом экспертных знаний о предмете.
Да, и еще, оценка данных не должна зависеть от "клиническ[ой] (практическую) ценност[и] (важност[и]) полученных ... данных". Она может зависеть от априорной убежденности в справедливости гипотезы, но никак не от "клинической ценности", иначе, значит, если результат в области онкологии мы используем что? р=0,05 или р=0,001? ... Мы считаем, что нам лучше пропустить недействующий препарат или наоборот не выпустить действующий?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 5.09.2008 - 06:05
Сообщение #7





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 3.09.2008 - 22:36) *
> Nikita
Спасибо за разъяснения. Не планируете ли написать по биометрии что-нибудь современное? Хотя бы в виде приложения как в Генетике популяций Кайданова. С тем же байесовым подходом действительно большой пробел. Да и генетическая статистика далеко убежала.

Можно реплику? Подход описан тут: Sellke T., Bayarri M.J., Berger J.O. Calibration of p values for testing precise null hypotheses // The American Statistician, February 2001, vol. 55, no. 1, pp. 62-71. Работа доступна за деньги, но можно загрузить драфт. Например, отсюда http://www.stat.duke.edu/~berger/papers/99-13b.ps.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.09.2008 - 15:32
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 5.09.2008 - 07:05) *
Можно реплику? Подход описан тут: Sellke T., Bayarri M.J., Berger J.O. Calibration of p values for testing precise null hypotheses // The American Statistician, February 2001, vol. 55, no. 1, pp. 62-71. Работа доступна за деньги, но можно загрузить драфт. Например, отсюда http://www.stat.duke.edu/~berger/papers/99-13b.ps.

Статья интересная, но меня смущает то, что опять-таки делается предположение "возьмем неинформативные априорные вероятности", но делается это в середине статьи (где вывод формулы), а в начале кажется, что Байесовская статистика позволяет "правильно" откалибровать р-оценку.
В современной (медицинской) науке, наверное, надо очень долго не заглядывать в публикации для того, чтобы предположить, что авторы исследований ничего не знают об изучаемом предмете (именно это предполагается при использовании неинформативных априорных вероятностей).
На самом деле, лица использующие статистику все время пытаются "автоматизировать" анализ данных, а сделать это невозможно. Либо надо признать субъективизм в интерпретации данных (байезианство) и тот факт, что разные авторы могут сделать разные выводы на основании одних и тех же фактов, либо надо "изгнать демона субъективизма" и жить с пониманием того, что результаты исследований являются истинными только в случае бесконечно большого повторения эксперимента (классический фреквентизм Пирсона и Неймана, который просто в лоб противоречит требованиям этических комитетов к организации клинических испытаний). Как отмечает Browne «Когда современные байезианцы включают «априорное распределение вероятности истинности гипотезы», они на самом деле создают метафизическую модель изменений воззрений?.Результат?.не может быть проверен на свою достоверность иначе как указанием на то, что он «кажется» разумным для потребителя?Реальная проблема заключается в том, что ни классическая, ни байезианская статистика не способны предоставить те ответы, которые хотят иметь клиницисты. Проблемы классических методов очевидны ? мне бы хотелось, чтобы им была альтернатива?»
Правда, современные байезианцы предлагают отказаться вообще от расчета вероятностей и сконцентрироваться на силе доказательств (Байесовский фактор), что требует (как и стандартный подход) оценки вероятности данных при предположении справедливости нулевой гипотезы и при предположении справедливости альтернативной гипотезы. При этом, учитывая, что альтернативных гипотез может быть масса, берут т.н. минимальный фактор, который предполагает, что альтернативная гипотеза - популяционные различия равны наблюдаемым. Затем, имея байесовский фактор, возвращаются к тому, что известно о предмете и оценивают вероятность нулевой (альтернативной) гипотезы с помощью этого фактора...
Иными словами, как не крути, попытка уйти от субъективизма и "автоматизировать" процесс оценки научных гипотез ни к чему хорошему не приводит.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему