Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Критерий для проверки гипотезы
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Диагностик
Здравствуйте, уважаемые! Помогите со следующим вопросом, в постановки задачи использую медицинскую трактовку.
Известно что вероятность выздоровления от некой болезни равна 0,17. Некто применив опытный препарат, добился выздоровления 4-х больных в группе из 10-ти человек. По какому критерию можно проверить гипотезу о реальном действии этого препарата? На самом деле получен эффект, или результат входит в зону статистического разброса? Спасибо.
anserovtv
Биномиальный критерий: значимость 0,074.
Мощность критерия - 0,29.
Для достижения мощности 0,8 нужно не менее 30 наблюдений.
p2004r
Цитата(Диагностик @ 9.10.2015 - 00:59) *
Здравствуйте, уважаемые! Помогите со следующим вопросом, в постановки задачи использую медицинскую трактовку.
Известно что вероятность выздоровления от некой болезни равна 0,17. Некто применив опытный препарат, добился выздоровления 4-х больных в группе из 10-ти человек. По какому критерию можно проверить гипотезу о реальном действии этого препарата? На самом деле получен эффект, или результат входит в зону статистического разброса? Спасибо.


Всегда полезно начать с бустрепа

Код
> cumsum(table(replicate(500000, 4-sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)
      -5       -4       -3       -2       -1        0        1        2
0.000002 0.000032 0.000310 0.002680 0.016972 0.074242 0.233534 0.526848
       3        4
0.844584 1.000000


И тут действительно 0.074242

А вот превышение контроля над опытом будет достигнуто

Код
cumsum(table(replicate(500000, -sum(sample(d, replace=T))+sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)
     -10       -9       -8       -7       -6       -5       -4       -3
0.000012 0.000260 0.002432 0.012868 0.046812 0.127544 0.270548 0.463350
      -2       -1        0        1        2        3        4        5
0.662684 0.823728 0.924762 0.974092 0.992732 0.998286 0.999692 0.999962
       6        7
0.999994 1.000000


в 0.924762 доле экспериментов "2 группы по 10"
Диагностик
Цитата(p2004r @ 9.10.2015 - 17:18) *
Всегда полезно начать с бустрепа

Кому, и для чего?
Меня интересуют вполне адекватные критерии.
Игорь
Цитата(Диагностик @ 9.10.2015 - 00:59) *
Известно что вероятность выздоровления от некой болезни равна 0,17.

Есть данные, в группе какой численности получено число 0,17? Ход мыслей таков - я веду к сравнению долей. http://www.apteka.ua/article/14437
Диагностик
Цитата(Игорь @ 9.10.2015 - 21:17) *
Есть данные, в группе какой численности получено число 0,17?

Считайте что к очень многочисленной. Рассматривается задача не о проверки гипотезы принадлежности двух выборок к одному распределению, а в проверке гипотезы о принадлежности одной выборки к известному распределению.
p2004r
Цитата(Диагностик @ 9.10.2015 - 16:00) *
Кому, и для чего?
Меня интересуют вполне адекватные критерии.


Для того кто не хочет всякий бред потом публиковать естественно.

Ну опубликуйте свое мнение что бутстреп "неадекватный критерий" "в печати", повеселите публику.
Диагностик
Цитата(p2004r @ 9.10.2015 - 22:29) *
Ну опубликуйте свое мнение что бутстреп "неадекватный критерий" "в печати", повеселите публику.

Вы уже публиковали обратное? Публика веселилась?
p2004r
Цитата(Диагностик @ 9.10.2015 - 18:21) *
Вы уже публиковали обратное? Публика веселилась?



Это за меня опубликовали другие люди (и довольно давно, так что пора "вылазить из дупла" smile.gif, например Эфрон ( https://en.wikipedia.org/wiki/Bradley_Efron ) .

А учебный случай который вы предложили разобрать очень прост (если конечно считать не важным нечеткую формулировку).

Вы предлагаете как H0 генсовокупность с матожиданием 0.17 "выздоровления" против состояния "болезнь", из которой была извлечена выборка размером 10.

Это собственно и есть

Код
sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83))


как извлечение одной такой выборки.

Извлекая таких выборок много (500000) и подсчитывая сколько "выздоровлений" произошло, мы получаем распределение генсовокупности с матожиданием болезни 0.17 для размера выборки 10.

Код
plot(table(replicate(500000, sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)


Некто получил 4 случая "выздоровления" из 10 и нам надо посчитать насколько это случайно. И тут задача сводиться к ситуации "какова вероятность получить 4 и более случаев при вероятность выздоровления 0.17"

Код
> cumsum(rev(table(replicate(500000, sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000))
       9        8        7        6        5        4        3        2
0.000002 0.000012 0.000276 0.002674 0.016582 0.073574 0.233256 0.527852
       1        0
0.845112 1.000000


И достижение 4 и более "выздоровевших" происходит с вероятностью 0.073574

Вот с мощностью вопрос. Её по определению считаем из бета ошибок распределения которое заявлено для H1.

Код
> d <- c(rep(1,4), rep(0, 10-4))
> d
[1] 1 1 1 1 0 0 0 0 0 0
> 1 - cumsum(table(replicate(500000, sum(sample(d, replace=T))))/500000)
       0        1        2        3        4        5        6        7
0.993854 0.953564 0.833100 0.618356 0.367922 0.166198 0.054828 0.012326
       8        9       10
0.001588 0.000110 0.000000
> 1 - cumsum(table(replicate(500000, sum(sample(d, replace=T))))/500000)
       0        1        2        3        4        5        6        7
0.993934 0.953680 0.833478 0.619520 0.368914 0.167292 0.055216 0.012122
       8        9       10
0.001616 0.000098 0.000000


никак не менее 0.36 мощность получается для подтверждения 4х случаев выздоровления для выборки размером 10. Но для 3 случаев "выздоровления" уже частота обнаружения (мощность) 0.61.
Игорь
Цитата(Диагностик @ 9.10.2015 - 16:31) *
Считайте что к очень многочисленной.

Ссылку дайте, я сам посмотрю.

Цитата(Диагностик @ 9.10.2015 - 16:31) *
Рассматривается задача не о проверки гипотезы принадлежности двух выборок к одному распределению,

Такая постановка вопроса позволяет использовать непараметрический тест. Вы ссылку на украинский источник посмотрели?

Цитата(Диагностик @ 9.10.2015 - 16:31) *
а в проверке гипотезы о принадлежности одной выборки к известному распределению.

А такая - параметрический. Тогда необходимо уточнить - к какому? Какими параметрами описывается данное распределение?
Диагностик
р2004r, вы так ловко оперируете мощностью критерия что я поражён. К своему сожалению, я до такого ещё не дорос. По моей задаче какое будет решение?
Диагностик
Цитата(Игорь @ 10.10.2015 - 03:47) *
А такая - параметрический. Тогда необходимо уточнить - к какому? Какими параметрами описывается данное распределение?

n=10, р=0,17.
p2004r
Цитата(Диагностик @ 10.10.2015 - 08:33) *
р2004r, вы так ловко оперируете мощностью критерия что я поражён. К своему сожалению, я до такого ещё не дорос. По моей задаче какое будет решение?


Если проведенный опыт должен подтвердить именно "минимум 4 из 10", то выборка размером 10 случаев дает вероятность обнаружить это 0.36. Если вопрос состоит "получить случаев выздоровления в выборке размером 10 больше чем в генсовокупности с вероятностью 0.17", то вероятность обнаружить это 0.92.

Очевидно, что раз речь идет о подтверждении эксперимента, то оценить точное значение вероятности "выздороветь" стоит не с помощью проверки гипотезы, а с помощью построения доверительного интервала для вероятности выздороветь по единичному опыту "4 из 10". Вот так доверительный интервал будет сужаться при росте размера выборки.

Код
> quantile(replicate(500000, sum(sample(d, 10, replace=T))), probs=c(0.025, 0.975))
2.5% 97.5%
    1     7
> quantile(replicate(500000, sum(sample(d, 20, replace=T)))/2, probs=c(0.025, 0.975))
2.5% 97.5%
    2     6
> quantile(replicate(500000, sum(sample(d, 30, replace=T)))/3, probs=c(0.025, 0.975))
    2.5%    97.5%
2.333333 5.666667
> quantile(replicate(500000, sum(sample(d, 40, replace=T)))/4, probs=c(0.025, 0.975))
2.5% 97.5%
  2.5   5.5
> quantile(replicate(500000, sum(sample(d, 50, replace=T)))/5, probs=c(0.025, 0.975))
2.5% 97.5%
  2.6   5.4
> quantile(replicate(500000, sum(sample(d, 100, replace=T)))/10, probs=c(0.025, 0.975))
2.5% 97.5%
  3.1   5.0



А если задастся именно уровнем ошибок I рода около 5%, то достигается мощность 80% при размере выборки около 30 (наблюдается не менее 9 "выздоровлений").

Код
> cumsum(rev(table(replicate(500000, sum(sample(c(1,0), 30, replace=T, prob=c(0.17, 1-0.17)))))/500000))
      16       15       14       13       12       11       10        9
0.000008 0.000038 0.000166 0.000620 0.002326 0.007734 0.022162 0.056192
       8        7        6        5        4        3        2        1
0.123548 0.237848 0.401208 0.593662 0.774332 0.904724 0.973418 0.996230
       0
1.000000
> 1-cumsum(table(replicate(500000, sum(sample(c(1,0), 30, replace=T, prob=c(0.4, 1-0.4)))))/500000)
       1        2        3        4        5        6        7        8
0.999996 0.999956 0.999660 0.998496 0.994272 0.982776 0.956062 0.905318
       9       10       11       12       13       14       15       16
0.822962 0.707704 0.568512 0.421056 0.285846 0.175272 0.096544 0.047998
      17       18       19       20       21       22       23       24
0.021244 0.008220 0.002742 0.000804 0.000170 0.000036 0.000006 0.000000
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.