Доверительный интервал долей - Форум врачей-аспирантов

Доверительный интервал долей

плав Просмотр профиля	20.10.2008 - 13:03 Сообщение #1
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Поскольку в другой теме было много споров о разных ДИ для долей и огрномный список цитат, решил - для иллюстрации - провести вычислительный эксперимент. Итак. Были смоделированы популяции в которой содержится х объектов одного класса и 1-х объектов другого класса (х менялась от 1 до 10%). Из этой популяции брались случайные выборки размером 40 объектов. Оценивалось количество объектов одного и другого класса в выборке и рассчитывались доверительные интервалы по Клопперу-Пирсону, Агрести-Коулу и по распределению Пуассона (значения менее 0 заменялись на нулевые). Таких выборок бралось 10 000 и затем рассчитывался вероятность покрытия популяционного значения доверительным интервалом и средняя ширина доверительного интервала. Что в результате (это небольшой размер выборки и малая вероятнсть: Ширина 95%ДИ Покрытие pi__ КП__ АК__ Пу__ КП__ АК__ Пу__ 1% 0,104 0,118 0,110 0,993 0,993 0,993 2% 0,119 0,130 0,126 0,992 0,951 0,992 3% 0,132 0,141 0,141 0,994 0,970 0,994 4% 0,146 0,152 0,156 0,979 0,979 0,979 5% 0,157 0,162 0,169 0,986 0,952 0,986 6% 0,168 0,170 0,181 0,991 0,970 0,991 7% 0,177 0,178 0,192 0,981 0,981 0,981 8% 0,186 0,185 0,203 0,988 0,965 0,988 9% 0,195 0,192 0,214 0,953 0,974 0,970 10% 0,203 0,198 0,223 0,972 0,962 0,972 При малых значениях популяционной вероятности (менее 8%) интервал Клоппера-Пирсона является более узким, при больших - боле узкий интервал Агрести-Коула. Покрытие прыгает, почти всюду больше номинального уровня 95%, однако среднее покрытие для КП - 98,3%, для Агрести - 97,0% и для Пуассона - 98,5%. Агрести-Коула немного ближе к номинальному уровню. Однако если смотреть на данные реально, принципиальных различий между этими тремя методами нет. В большинстве случаев они дают одинаковые результаты и, как и показано в других работах, КП немного более консервативен, а АК немного более широкий при малых значениях популяционной вероятности.

Ответов

la.vi.na. Просмотр профиля	23.11.2011 - 15:12 Сообщение #2
Группа: Пользователи Сообщений: 4 Регистрация: 23.11.2011 Пользователь №: 23321	Здравствуйте хочу вернуться к этой теме. У меня подобное цитогенетическое исследование на растениях. До сих пор я считала различия исходя количества клеток как N., в силу того, что признак нарушение может проявиться "1" или не проявиться "0" в клетке, то есть признак является дихотомическим именно по отношению к клетке. Ведь разные частоты могут быть и в пределах одной особи (в разных корешках одного растения) в равной степени подверженных исследуемому фактору. В связи с этим имеются вопросы: 1. Как будет все-таки оценивать значимость различий между выборками. если использовать предложенный мета-анализ, то пожалуйста, напишите как он реализуется в Statistica 6.0. или Эксель 2. Я оцениваю разность долей между опытом и контролем, использую метод Фишера через фи преобразование или Хи квадрат, с поправкой Йейтса по таблицам сопряженности 2х2. Итак, получаю в некоторых вариантах значимые различия на уровне p<0,05. Для графического отображения подсчитываю ДИ для каждой частоты методом Клоппера-Пирсона для этого же уровня значимости и обнаруживаю, что в некоторых случаях, где по критерию были значимые различия, ДИ перекрываются. Чему верить? Рецензент попросил отметить ошибки или ДИ на графике, а разве ошибки изображают в виде усов? Как поступить? Буду признательна за ответы!

nokh

23.11.2011 - 17:59

Сообщение #3

Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(la.vi.na. @ 23.11.2011 - 17:12)

1. Как будет все-таки оценивать значимость различий между выборками. если использовать предложенный мета-анализ, то пожалуйста, напишите как он реализуется в Statistica 6.0. или Эксель
2. Я оцениваю разность долей между опытом и контролем, использую метод Фишера через фи преобразование или Хи квадрат, с поправкой Йейтса по таблицам сопряженности 2х2. Итак, получаю в некоторых вариантах значимые различия на уровне p<0,05. Для графического отображения подсчитываю ДИ для каждой частоты методом Клоппера-Пирсона для этого же уровня значимости и обнаруживаю, что в некоторых случаях, где по критерию были значимые различия, ДИ перекрываются. Чему верить? Рецензент попросил отметить ошибки или ДИ на графике, а разве ошибки изображают в виде усов? Как поступить?
Буду признательна за ответы!

1. Поскольку написание запланированной статьи отложилось на неопределённый срок, пуассоновскую регрессию для описанной задачи не использовал. Буду пробовать когда прижмёт.

2. С частотами сложность одна - что использовать в качестве единицы анализа: (1) Клетку или (2) Индивида (у вас, как я понял, это даже не растение а корешок).

(1) Клетка. Для того чтобы работать с клеткой нужно быть уверенным в полной однородности материала. Для этого составляется большая таблица сопряжённости 2хn, где 2 - это входы для абсолютных частот клеток с нарушениями и без, а n - разные индивиды. Анализируется хи-квадратом Пирсона или лучше отношением правдоподобия (G-критерий=критерий G-квадрат). Если индивиды не отличаются статистически значимо друг от друга (выборка однородна) - можно объединять данные по клеткам от всех индивидов в одну кучу. Т.е. для всей выборки будут только 2 числа: клетки с нарушениями и без нарушений. По ним и рассчитать долю с клеток с нарушениями. В этом случае рассчитывать ДИ для выборки следует, например, по Клопперу-Пирсону (есть и другие формулы, но я тоже считаю по К-П). Их и приводить на графике. Сравнивать такую выборку с другой такой же однородной выборкой следует также через анализ таблиц сопряжённости, как вы и делаете.

(2) Индивид. Если тест на однородность выборки не проходят, значит существует дополнительный источник изменчивости, который необходимо учитывать - индивидуальная вариабельность внутри выборки. Объединять всё нельзя. В этом случае можно поступить так: рассчитать доли клеток с нарушениями для каждого индивида, фи-преобразовать (преобразование арксинуса), рассчитать среднее арифметическое и 95%-ный ДИ для него (нормальная аппроксимация), а затем ретрансформировать полученные значения обратно в доли (или в %). Их и приводить на графике. ДИ будет тем сильнее асимметричен, чем сильнее средняя частота отклоняется от 0,5. Сравнивать такие неоднородные выборки следует с использованием в качестве отдельных значений фи-преобразованных частот, например, t-критерием Стьюдента или его модификацией Вэлча для неравных дисперсий (в зависимости от результатов проверки на равенство дисперсий F-критерием Снедекора).
Точно не помню, но такая схема выбора критериев для проверки (без упоминаний ДИ) давалась кажется в рекомендациях ВОЗ по тестам на мутагенность. Выделил "можно", т.к. можно и иначе: через логлинейную модель или даже через обобщённую линейную модель - в этом случае вся информация будет использована по максимуму и это будет самый правильный и мощный анализ. Но иначе пока не пробовал - обходился и так.

По поводу различий по ДИ и по тестам. И в случае (1), и в случае (2) ДИ рассчитываются на основании данных только по одной выборке. Т.е. имеющаяся информация недоиспользуется. При сравнении двух выборок в тесте учитывается одновременно информация об обеих выборках, т.е. такой подход обладает большей мощностью. Поэтому верить нужно именно результатам проверки с помощью соответствующих критериев, даже если ДИ немного и перекрываются. Популярность ДИ связана с тем, что можно легко сравнивать, скажем, свои данные с литературными, не запрашивая у авторов оригинальных данных. Однако этот подход уступает в мощности.

И ещё по графикам. По какой-то существующей традиции данные, представленные частотами принято представлять на графиках в виде столбчатых диаграмм. В этом случае столбики закрашивают разными цветами, и приводят только верхнюю границу ДИ, тогда как нижнюю или не приводят вовсе (думая что она равна верхней или ничего не думая) или она закрашивается штриховкой. Не повторяйте ошибок этих, зачастую именитых, неучей. В подавляющем большинстве случаев для средних частот (как бы их не считали) ДИ асимметричны, а значит нужно искать софт, в котором это можно задать. В Statistica через кнопочный интерфейс этого сделать нельзя (может можно программировать на Statistica Basic); я пользуюсь бесплатной версией KyPlot и получается очень красиво:

Сообщение отредактировал nokh - 23.11.2011 - 18:27

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

la.vi.na. Просмотр профиля	24.11.2011 - 06:02 Сообщение #4
Группа: Пользователи Сообщений: 4 Регистрация: 23.11.2011 Пользователь №: 23321	nokh спасибище за развернутый ответ! [quote name='nokh' date='23.11.2011 - 20:59' post='12357'] "можно и иначе: через логлинейную модель или даже через обобщённую линейную модель" Где-то слышала,что можно логит-регрессию к таким данным применить, но сама не разобралась как правильно составить матрицу и интерпретировать результаты. А вот если посчитать отношения шансов (опытов к контролю), построить к ним ДИ, чем дальше отличается логит-регрессия? Картинка с гистограммами симпатишная, я обычно значимость, посчитанную по критерию звездочками указываю. А вот когда ДИ то банально в Excel планки погрешностей задаю как пользовательские и соответственно задаю разницу между ДИ и средней (частотой)

nokh Просмотр профиля	3.12.2011 - 16:16 Сообщение #5
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(la.vi.na. @ 24.11.2011 - 08:02) ... Где-то слышала,что можно логит-регрессию к таким данным применить, но сама не разобралась как правильно составить матрицу и интерпретировать результаты... Тоже не разбирался, пока вполне обходился описанными подходами.

Сообщений в этой теме

плав Доверительный интервал долей 20.10.2008 - 13:03

плав Теперь сделал при большем размере выборки - 150 о... 20.10.2008 - 21:13

nokh Исследуются частоты клеток с ядерными и цитоплазма... 24.06.2009 - 05:30

плав Цитата(nokh @ 24.06.2009 - 06:30) Ис... 3.07.2009 - 17:26

nokh Цитата(плав @ 3.07.2009 - 20:26) Я ч... 3.07.2009 - 21:07

плав Цитата(nokh @ 3.07.2009 - 22:07) Име... 3.07.2009 - 23:17

p2004r Цитата(nokh @ 3.07.2009 - 21:07) Нап... 23.11.2011 - 19:24

nokh Цитата(p2004r @ 23.11.2011 - 21:24) ... 23.11.2011 - 19:54

p2004r Цитата(nokh @ 23.11.2011 - 19:54) Да... 23.11.2011 - 20:18

p2004r Цитата(nokh @ 23.11.2011 - 19:54) Кс... 23.11.2011 - 20:38

nokh Благодарю, попробую. 4.07.2009 - 08:16

la.vi.na. Здравствуйте хочу вернуться к этой теме. У меня по... 23.11.2011 - 15:12

nokh Цитата(la.vi.na. @ 23.11.2011 - 17:1... 23.11.2011 - 17:59

la.vi.na. nokh спасибище за развернутый ответ! [quote n... 24.11.2011 - 06:02

nokh Цитата(la.vi.na. @ 24.11.2011 - 08:0... 3.12.2011 - 16:16

nokh Благодарю за готовый код! Теперь когда понадоб... 23.11.2011 - 20:47

p2004r Цитата(nokh @ 23.11.2011 - 20:47) Бл... 23.11.2011 - 22:42

« Предыдущая тема · Медицинская статистика · Следующая тема »