![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Поскольку в другой теме было много споров о разных ДИ для долей и огрномный список цитат, решил - для иллюстрации - провести вычислительный эксперимент.
Итак. Были смоделированы популяции в которой содержится х объектов одного класса и 1-х объектов другого класса (х менялась от 1 до 10%). Из этой популяции брались случайные выборки размером 40 объектов. Оценивалось количество объектов одного и другого класса в выборке и рассчитывались доверительные интервалы по Клопперу-Пирсону, Агрести-Коулу и по распределению Пуассона (значения менее 0 заменялись на нулевые). Таких выборок бралось 10 000 и затем рассчитывался вероятность покрытия популяционного значения доверительным интервалом и средняя ширина доверительного интервала. Что в результате (это небольшой размер выборки и малая вероятнсть: Ширина 95%ДИ Покрытие pi__ КП__ АК__ Пу__ КП__ АК__ Пу__ 1% 0,104 0,118 0,110 0,993 0,993 0,993 2% 0,119 0,130 0,126 0,992 0,951 0,992 3% 0,132 0,141 0,141 0,994 0,970 0,994 4% 0,146 0,152 0,156 0,979 0,979 0,979 5% 0,157 0,162 0,169 0,986 0,952 0,986 6% 0,168 0,170 0,181 0,991 0,970 0,991 7% 0,177 0,178 0,192 0,981 0,981 0,981 8% 0,186 0,185 0,203 0,988 0,965 0,988 9% 0,195 0,192 0,214 0,953 0,974 0,970 10% 0,203 0,198 0,223 0,972 0,962 0,972 При малых значениях популяционной вероятности (менее 8%) интервал Клоппера-Пирсона является более узким, при больших - боле узкий интервал Агрести-Коула. Покрытие прыгает, почти всюду больше номинального уровня 95%, однако среднее покрытие для КП - 98,3%, для Агрести - 97,0% и для Пуассона - 98,5%. Агрести-Коула немного ближе к номинальному уровню. Однако если смотреть на данные реально, принципиальных различий между этими тремя методами нет. В большинстве случаев они дают одинаковые результаты и, как и показано в других работах, КП немного более консервативен, а АК немного более широкий при малых значениях популяционной вероятности. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Исследуются частоты клеток с ядерными и цитоплазматическими нарушениями. Количество проанализированных клеток составляет 500, 1000 или чаще 2000. По некоторым показателям выборки крайне неоднородны (размах от промилле до процентов), что подтверждается G-критерием. Нужно найти доверительный интервал. Если объединить все данные внутри выборки и найти ДИ, скажем, по Клопперу-Пирсону, то это будет некорректно: выборка гетерогенная. Если найти ДИ бутстрепом индивидуальных частот - не будет учтена информация, что эти частоты оценены с разной точностью (по 500-2000 клеток). Как лучше всего поступить в этом случае?
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Исследуются частоты клеток с ядерными и цитоплазматическими нарушениями. Количество проанализированных клеток составляет 500, 1000 или чаще 2000. По некоторым показателям выборки крайне неоднородны (размах от промилле до процентов), что подтверждается G-критерием. Нужно найти доверительный интервал. Если объединить все данные внутри выборки и найти ДИ, скажем, по Клопперу-Пирсону, то это будет некорректно: выборка гетерогенная. Если найти ДИ бутстрепом индивидуальных частот - не будет учтена информация, что эти частоты оценены с разной точностью (по 500-2000 клеток). Как лучше всего поступить в этом случае? Я чего-то не понял. Если частоты в выборках разные, то объединять их нельзя, поскольку они пришли из разных популяций. Соответственно, оценивается диапазон возможных "родительских" популяций для каждой выборки, например ДИ Клоппера-Пирсона (или Пуассона, если промилле). А то, что ширина интервалов будет разной, ну так это естественно... |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Я чего-то не понял. Если частоты в выборках разные, то объединять их нельзя, поскольку они пришли из разных популяций. Соответственно, оценивается диапазон возможных "родительских" популяций для каждой выборки, например ДИ Клоппера-Пирсона (или Пуассона, если промилле). А то, что ширина интервалов будет разной, ну так это естественно... Имел в виду другое. Разные выборки я не объединяю, просто их несколько и для каждой хочу найти ДИ. Но проверяя каждую из этих выборок на внутреннюю однородность G-критерием (G2) часто обнаруживаю значимую гетерогенность. Получается, что раз выборка гетерогенная, то объединять клетки от всех особей в пределах выборки некорректно и правильнее рассчитывать ДИ по индивидуальным частотам входящих в выборку особей. Но значения этих частот получены с разной точностью. Например, в выборке из 15 особей: 10 особей имели по 2 клетки с ядерными аномалиями на 2000 проанализированных клеток (т.е. по 0,1%), 3 особи - по 5 клеток из 1000 проанализированных (по 0,5%), 2 особи - по 10 клеток из 500 проанализированных (по 2%). Я могу рассчитать ДИ для частоты каждой входящей в выборку особи, но не знаю как правильно рассчитать ДИ средней частоты клеток с аномалиями для всей этой выборки. (Если забыть о количестве проанализированных от каждой особи клеток и искать ДИ бутстрепом индивидуальных частот, то имеющаяся информация будет недоиспользована). Может здесь подойдет какая-то техника из мета-анализа? Сообщение отредактировал nokh - 3.07.2009 - 21:24 |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Например, в выборке из 15 особей: 10 особей имели по 2 клетки с ядерными аномалиями на 2000 проанализированных клеток (т.е. по 0,1%), 3 особи - по 5 клеток из 1000 проанализированных (по 0,5%), 2 особи - по 10 клеток из 500 проанализированных (по 2%). а что не отражает такой бутстреп? Код vyb1<-c(c(1,1),rep(0,2000-2)) vyb2<-c(rep(1,5),rep(0,1000-5)) vyb3<-c(rep(1,10),rep(0,500-10)) exp <- function () { c(replicate(10, sum(sample(vyb1, 2000, replace = TRUE))), 2*replicate(3, sum(sample(vyb2, 1000, replace = TRUE))), 4*replicate(2, sum(sample(vyb3, 500, replace = TRUE)))) } hist(colMeans(replicate(100000, exp()))) ну или что там считать надо с выборкой? Код > replicate(10, exp())
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 2 0 2 3 3 4 3 1 2 2 [2,] 1 4 2 4 1 1 1 1 3 2 [3,] 1 1 2 3 1 3 3 4 0 2 [4,] 0 0 3 5 1 0 0 3 2 3 [5,] 5 4 0 4 1 4 1 2 2 2 [6,] 1 3 0 2 2 4 3 3 1 0 [7,] 2 0 3 2 2 1 0 0 1 2 [8,] 3 1 4 3 0 2 1 2 1 1 [9,] 2 2 2 3 0 0 4 3 3 1 [10,] 1 4 3 3 3 0 0 0 0 3 [11,] 8 16 10 4 8 12 18 14 4 12 [12,] 12 6 10 14 20 14 18 20 18 18 [13,] 8 16 18 6 10 16 10 10 8 4 [14,] 56 52 56 68 44 16 44 52 72 36 [15,] 48 40 36 36 24 52 32 48 36 36 Сообщение отредактировал p2004r - 23.11.2011 - 19:28 ![]() |
|
![]() |
![]() |
![]() ![]() |