Версия для печати темы
Форум врачей-аспирантов _ Медицинская статистика _ Критерий для проверки гипотезы
Автор: Диагностик 9.10.2015 - 00:59
Здравствуйте, уважаемые! Помогите со следующим вопросом, в постановки задачи использую медицинскую трактовку.
Известно что вероятность выздоровления от некой болезни равна 0,17. Некто применив опытный препарат, добился выздоровления 4-х больных в группе из 10-ти человек. По какому критерию можно проверить гипотезу о реальном действии этого препарата? На самом деле получен эффект, или результат входит в зону статистического разброса? Спасибо.
Автор: anserovtv 9.10.2015 - 09:30
Биномиальный критерий: значимость 0,074.
Мощность критерия - 0,29.
Для достижения мощности 0,8 нужно не менее 30 наблюдений.
Автор: p2004r 9.10.2015 - 12:18
Цитата(Диагностик @ 9.10.2015 - 00:59)
Здравствуйте, уважаемые! Помогите со следующим вопросом, в постановки задачи использую медицинскую трактовку.
Известно что вероятность выздоровления от некой болезни равна 0,17. Некто применив опытный препарат, добился выздоровления 4-х больных в группе из 10-ти человек. По какому критерию можно проверить гипотезу о реальном действии этого препарата? На самом деле получен эффект, или результат входит в зону статистического разброса? Спасибо.
Всегда полезно начать с бустрепа
Код
> cumsum(table(replicate(500000, 4-sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)
-5 -4 -3 -2 -1 0 1 2
0.000002 0.000032 0.000310 0.002680 0.016972 0.074242 0.233534 0.526848
3 4
0.844584 1.000000
И тут действительно 0.074242
А вот превышение контроля над опытом будет достигнуто
Код
cumsum(table(replicate(500000, -sum(sample(d, replace=T))+sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)
-10 -9 -8 -7 -6 -5 -4 -3
0.000012 0.000260 0.002432 0.012868 0.046812 0.127544 0.270548 0.463350
-2 -1 0 1 2 3 4 5
0.662684 0.823728 0.924762 0.974092 0.992732 0.998286 0.999692 0.999962
6 7
0.999994 1.000000
в 0.924762 доле экспериментов "2 группы по 10"
Автор: Диагностик 9.10.2015 - 16:00
Цитата(p2004r @ 9.10.2015 - 17:18)
Всегда полезно начать с бустрепа
Кому, и для чего?
Меня интересуют вполне адекватные критерии.
Автор: Игорь 9.10.2015 - 16:17
Цитата(Диагностик @ 9.10.2015 - 00:59)
Известно что вероятность выздоровления от некой болезни равна 0,17.
Есть данные, в группе какой численности получено число 0,17? Ход мыслей таков - я веду к сравнению долей. http://www.apteka.ua/article/14437
Автор: Диагностик 9.10.2015 - 16:31
Цитата(Игорь @ 9.10.2015 - 21:17)
Есть данные, в группе какой численности получено число 0,17?
Считайте что к очень многочисленной. Рассматривается задача не о проверки гипотезы принадлежности двух выборок к одному распределению, а в проверке гипотезы о принадлежности одной выборки к известному распределению.
Автор: p2004r 9.10.2015 - 17:29
Цитата(Диагностик @ 9.10.2015 - 16:00)
Кому, и для чего?
Меня интересуют вполне адекватные критерии.
Для того кто не хочет всякий бред потом публиковать естественно.
Ну опубликуйте свое мнение что бутстреп "неадекватный критерий" "в печати", повеселите публику.
Автор: Диагностик 9.10.2015 - 18:21
Цитата(p2004r @ 9.10.2015 - 22:29)
Ну опубликуйте свое мнение что бутстреп "неадекватный критерий" "в печати", повеселите публику.
Вы уже публиковали обратное? Публика веселилась?
Автор: p2004r 9.10.2015 - 19:39
Цитата(Диагностик @ 9.10.2015 - 18:21)
Вы уже публиковали обратное? Публика веселилась?
Это за меня опубликовали другие люди (и довольно давно, так что пора "вылазить из дупла"
, например Эфрон ( https://en.wikipedia.org/wiki/Bradley_Efron ) .
А учебный случай который вы предложили разобрать очень прост (если конечно считать не важным нечеткую формулировку).
Вы предлагаете как H0 генсовокупность с матожиданием 0.17 "выздоровления" против состояния "болезнь", из которой была извлечена выборка размером 10.
Это собственно и есть
Код
sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83))
как извлечение одной такой выборки.
Извлекая таких выборок много (500000) и подсчитывая сколько "выздоровлений" произошло, мы получаем распределение генсовокупности с матожиданием болезни 0.17 для размера выборки 10.
Код
plot(table(replicate(500000, sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000)
Некто получил 4 случая "выздоровления" из 10 и нам надо посчитать насколько это случайно. И тут задача сводиться к ситуации "какова вероятность получить 4 и более случаев при вероятность выздоровления 0.17"
Код
> cumsum(rev(table(replicate(500000, sum(sample(c(1,0), 10, replace=T, prob=c(0.17, 0.83)))))/500000))
9 8 7 6 5 4 3 2
0.000002 0.000012 0.000276 0.002674 0.016582 0.073574 0.233256 0.527852
1 0
0.845112 1.000000
И достижение 4 и более "выздоровевших" происходит с вероятностью 0.073574
Вот с мощностью вопрос. Её по определению считаем из бета ошибок распределения которое заявлено для H1.
Код
> d <- c(rep(1,4), rep(0, 10-4))
> d
[1] 1 1 1 1 0 0 0 0 0 0
> 1 - cumsum(table(replicate(500000, sum(sample(d, replace=T))))/500000)
0 1 2 3 4 5 6 7
0.993854 0.953564 0.833100 0.618356 0.367922 0.166198 0.054828 0.012326
8 9 10
0.001588 0.000110 0.000000
> 1 - cumsum(table(replicate(500000, sum(sample(d, replace=T))))/500000)
0 1 2 3 4 5 6 7
0.993934 0.953680 0.833478 0.619520 0.368914 0.167292 0.055216 0.012122
8 9 10
0.001616 0.000098 0.000000
никак не менее 0.36 мощность получается для подтверждения 4х случаев выздоровления для выборки размером 10. Но для 3 случаев "выздоровления" уже частота обнаружения (мощность) 0.61.
Автор: Игорь 9.10.2015 - 22:47
Цитата(Диагностик @ 9.10.2015 - 16:31)
Считайте что к очень многочисленной.
Ссылку дайте, я сам посмотрю.
Цитата(Диагностик @ 9.10.2015 - 16:31)
Рассматривается задача не о проверки гипотезы принадлежности двух выборок к одному распределению,
Такая постановка вопроса позволяет использовать непараметрический тест. Вы ссылку на украинский источник посмотрели?
Цитата(Диагностик @ 9.10.2015 - 16:31)
а в проверке гипотезы о принадлежности одной выборки к известному распределению.
А такая - параметрический. Тогда необходимо уточнить - к какому? Какими параметрами описывается данное распределение?
Автор: Диагностик 10.10.2015 - 08:33
р2004r, вы так ловко оперируете мощностью критерия что я поражён. К своему сожалению, я до такого ещё не дорос. По моей задаче какое будет решение?
Автор: Диагностик 10.10.2015 - 08:35
Цитата(Игорь @ 10.10.2015 - 03:47)
А такая - параметрический. Тогда необходимо уточнить - к какому? Какими параметрами описывается данное распределение?
n=10, р=0,17.
Автор: p2004r 10.10.2015 - 08:54
Цитата(Диагностик @ 10.10.2015 - 08:33)
р2004r, вы так ловко оперируете мощностью критерия что я поражён. К своему сожалению, я до такого ещё не дорос. По моей задаче какое будет решение?
Если проведенный опыт должен подтвердить именно "минимум 4 из 10", то выборка размером 10 случаев дает вероятность обнаружить это 0.36. Если вопрос состоит "получить случаев выздоровления в выборке размером 10 больше чем в генсовокупности с вероятностью 0.17", то вероятность обнаружить это 0.92.
Очевидно, что раз речь идет о подтверждении эксперимента, то оценить точное значение вероятности "выздороветь" стоит не с помощью проверки гипотезы, а с помощью построения доверительного интервала для вероятности выздороветь по единичному опыту "4 из 10". Вот так доверительный интервал будет сужаться при росте размера выборки.
Код
> quantile(replicate(500000, sum(sample(d, 10, replace=T))), probs=c(0.025, 0.975))
2.5% 97.5%
1 7
> quantile(replicate(500000, sum(sample(d, 20, replace=T)))/2, probs=c(0.025, 0.975))
2.5% 97.5%
2 6
> quantile(replicate(500000, sum(sample(d, 30, replace=T)))/3, probs=c(0.025, 0.975))
2.5% 97.5%
2.333333 5.666667
> quantile(replicate(500000, sum(sample(d, 40, replace=T)))/4, probs=c(0.025, 0.975))
2.5% 97.5%
2.5 5.5
> quantile(replicate(500000, sum(sample(d, 50, replace=T)))/5, probs=c(0.025, 0.975))
2.5% 97.5%
2.6 5.4
> quantile(replicate(500000, sum(sample(d, 100, replace=T)))/10, probs=c(0.025, 0.975))
2.5% 97.5%
3.1 5.0
А если задастся именно уровнем ошибок I рода около 5%, то достигается мощность 80% при размере выборки около 30 (наблюдается не менее 9 "выздоровлений").
Код
> cumsum(rev(table(replicate(500000, sum(sample(c(1,0), 30, replace=T, prob=c(0.17, 1-0.17)))))/500000))
16 15 14 13 12 11 10 9
0.000008 0.000038 0.000166 0.000620 0.002326 0.007734 0.022162 0.056192
8 7 6 5 4 3 2 1
0.123548 0.237848 0.401208 0.593662 0.774332 0.904724 0.973418 0.996230
0
1.000000
> 1-cumsum(table(replicate(500000, sum(sample(c(1,0), 30, replace=T, prob=c(0.4, 1-0.4)))))/500000)
1 2 3 4 5 6 7 8
0.999996 0.999956 0.999660 0.998496 0.994272 0.982776 0.956062 0.905318
9 10 11 12 13 14 15 16
0.822962 0.707704 0.568512 0.421056 0.285846 0.175272 0.096544 0.047998
17 18 19 20 21 22 23 24
0.021244 0.008220 0.002742 0.000804 0.000170 0.000036 0.000006 0.000000
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)