Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Доверительный интервал долей в Excel
Naum
сообщение 28.09.2008 - 20:48
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 28.09.2008
Из: Екатеринбург
Пользователь №: 5317



Пожалуйста, научите считать доверительный интервал в Excel! понимаю, что очень глупая просьба, но....
Я изучала распространенность бронхиальной астмы в городе Н - получилось следующее: опрошенных 567, больных из них 37, распространенность 6,53%. По области, в которой находится город Н, распространенность от 5,7% до 5,9%. Рецензент, прочитав мою статью, прислала следующее: "При сопоставлении распространенности БА необходимо сравнивать известные популяционные величины и доверительный интервал данного исследования, а не точечную оценку. Так, 95% ДИ для распространенности БА 37/567=6.53% составляет 4.75-8.89. Данный интервал включает величины распространенности БА в городах области (5.7-5.9%), следовательно, различий в распространенности БА в сравниваемых регионах нет". Как получился этот ДИ 4,75-8,89? Недавно нашла на этом форуме как считать критерий Стьюдента в Excel - описано было очень подробно, шаг за шагом, доступно для таких чайников как я - супер! если можно, то в таком же ключе напишите
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Naum
сообщение 29.09.2008 - 20:01
Сообщение #2





Группа: Пользователи
Сообщений: 6
Регистрация: 28.09.2008
Из: Екатеринбург
Пользователь №: 5317



Цитата(DoctorStat @ 29.09.2008 - 12:38) *
Объем выборки равен n=567. Количество больных в выборке равно m=37. Распространенность астмы (доля больных) в городе равна p=37/567=0,0653
Стандартная ошибка доли равна s=sqrt[p(1-p)/n]=кв.корень[0,0653*(1-0,0653)/567]=0,01
Объем выборки n=567 достаточно большой ( n*p=37>5 и n*(1-p)=530>5 ), чтобы можно было применить центральную предельную теорему. Из нее следует, что оценка доли p подчиняется нормальному распределению со средним p и стандартным отклонением s. Следовательно 95%-ый доверительный интервал для доли p равен =[p-2*s, p+2*s]=[ 0,0653-2*0,01, 0,0653+2*0,01]=[0,0453, 0,0853]

Спасибо огромное rolleyes.gif

Цитата(плав @ 29.09.2008 - 13:57) *
На самом деле ответ на вопрос, как считать доверительный интервал для долей не так уж прост - много копий сломано вокруг этой темы. Действительно, в случае большой выборки можно использовать нормальную аппроксимацию (метод Вальда), единственно, что доверительный интервал равен [h-1.96s;p+1.96s], округление значения z нормального распределения для вероятности 0,025 до двух используется для ускорения расчетов и в статьях не приемлимо.
Для упрощения работы я создал Экселевскую табличку, которая рассчитывает наиболее важные интервалы и креплю ее к этому посту (свернутую rar'ом по требованиям форума). Там (очевидно) надо поменять количество обследованных (N) и количество лиц с признаком (k), остальное все считается автоматом. Интересующиеся могут оценить формулы из формул экселя.
Результат для данного случая:
4,64% 8,88% Метод Клоппера-Пирсона
4,49% 8,56% Нормальная аппроксимация (Вальд)
4,77% 8,87% Метод Вилсона
4,59% 8,99% По распределению Пуассона (через хи2)
4,75% 8,89% Откорректированный метод Вальда
Кстати, рецензент использовал откорректированную нормальную аппроксимацию (откорректированный метод Вальда).
Agresti считает, что откорректированный метод Вальда является наиболее простым и точным. Он отличается от нормальной аппроксимации (в случае 95%ДИ) изменениями при расчете р. Новое значение равно р'=(k+2)/(N+4). Далее используется формула нормальной аппроксимации только в ней заменяется р на р', а N при расчете s на N+4.

Спасибо)))) табличка просто супер!

Цитата(Игорь @ 29.09.2008 - 10:13) *
Два пути:
1. Загружаете программу Two-by-two по ссылке http://www.med.uio.no/imb/stat/two-by-two/installation.html. В архиве программы будет файл Clopper-Pearson.xls, который производит искомые расчеты.
2. Загружаете программу AtteStat по ссылке http://attestatsoft.com. Интересующая Вас опция находится в модуле "Описательная статистика". Называется "Доля". В Справочной системе - необходимые ссылки.
Данные вводятся так:
37 1
530 0
Первый столбец - численности классов, второй интервал классов. Отмечаете, что тип данных - группированные.

В силу того, что формулы вычисления доверительного интервала доли могут быть различными, результат может незначительно отличаться от приведенного Вами. Для сравнения возможно использование и других критериев для бинарных выборок.

спасибо большое)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nikita
сообщение 17.10.2008 - 02:05
Сообщение #3





Группа: Пользователи
Сообщений: 8
Регистрация: 30.08.2008
Пользователь №: 5242



Цитата(Naum @ 29.09.2008 - 20:01) *
Спасибо огромное rolleyes.gif



Спасибо)))) табличка просто супер!

Увы, не разделяю Ваших восторгов. Табличка - пример недопустимой неряшливости. Подставьте в нее N=10 (или даже 100) и k=0 и увидите, что получается. По Clopper-Pearson, слава богу (вернее, слава Святославу), табличка считает все правильно. Но и тут недочет. Программка приучает пользователя использовать только одну (снисходительную) вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень) - 95%. А на самом деле надо приучаться вычислять интервалы накрытия (синонимы: интервалы доверия или доверительные интервалы) как минимум для все трех традиционных уровней 95%, 99% и 99,9%. Посчитайте несколько раз и убедитесь, что это имеет смысл. Тогда мы получаем элемент того, что в литературе называют "функцией доверия" - confidence fuction or P-value function) и вслед за Колмогоровым и другими я предпочитаю ориентироваться на уровень накрытия = 99,9% и, соответственно, на уровень значимости альфа а=0,001.
Про а=0,05 и 95% вообще предлагаю забыть как про страшный сон.
Итак, в предлагаемой табличке нахваливаемый "откорректированный" (adjusted - подогнанный, уточненный, модифицированный) метод Вальда выдает полную чушь: левая (нижняя) граница интервала накрытия оказывется отрицательной: -4,34% ! Я-то считал, что методы Wilson и adjusted Wald - это одно и тоже, а тут они представлены как различные методы, которые выдают разные результаты. Это наглядный пример того, что создатели программ обязаны приводить в явном виде формулы, задействовавнные в программе или (на худой конец) давать ссылки на доступные источники. Кроме того, создатели программ обязаны сообщать, проверяли ли они правильность вычислений и (или) апробировали ее путем сравнения с "эталонными" программами. В противном случае, авторы программ обязаны указывать, что они ни за что не отвечают и пользователь использует ее на свой страх и риск (есть такая формулировочка).
Часто рекомендуемый метод Agresti-Coul (в основном за свою простоту, которая, как известно хуже клептомании) в данном случае тоже выдает отрицательную левую границу: -4,3%. Сосчитано с помощью программки на сайте: http://www.ausvet.com.au/epitools/content....ge=CIProportion К тому же этот метод строго говоря пригоден только для доверительной вероятности 95%.
Короче, метод Clopper-Pearson можно считать вполне универсальным, но использовать лучше электронную таблицу Clopper-Pearson.xls или AtteStat, о которых писал Игорь. Но в AtteStat надо произвести 13 мелких операций, а в Clopper-Pearson - всего 3 или 4. Есть еще аналогичный апплет: Exact Binomial and Poisson Confidence Intervals на сайте: http://statpages.org/confint.html Его можно сохранить как web-старницу и работать offline.
Можно использовать и STATISTICA, но в ней надо знать, что построение интервалов накрытия запрятано в разделе Анализ Мощности.
Путь, который надо проделать, чтобы добраться до него, длинноват:
Statistics -> Power Analysis -> Interval Estimation -> One proportion, Z, Chi-square Test -> Observed proportion + Sample Size + Conf. Level
Но это еще полбеды:
"Observed proportion' означает, что пользователь должен где-то на стороне вычислить наблюдаемую долю (непонятно, с какой точностью, с каким разделителем десятичных частей и т.п.). - лишние хлопоты...
"Conf Level" ограничен значением 0.99 (99%). Однако, знающие люди подсказали, что можно вводить любой Conf.Level, если набирать его вручную.
Удивительно, но факт: в SPSS процедура построения интервалов накрытия отсутствует.
Я предлагаю избегать эмоциональной окраски в статистичексих терминах. Поэтому я и пытаюсь навязать более индиферентный термин: Интервал Накрытия, тем более, что он более отражает его суть. И это не моя прихоть, зачастую его так и называют cover (covsring) interval.
Он означает, что если мы многократно повторим наши наблюдения, то ПРИМЕРНО в (1-α)×100% случаев интервалы, получаемые с помощью данной процедуры, будут накрывать оцениваемое (никому неизвестное) значение параметра θ. То есть с уверенностью (надежностью) (1-α)×100% мы можем надеяться, что вычисленный нами ДИ для данной выборки «поймает» (накроет) искомое значение θ.
Но в α×100% случаев мы можем «промахнуться». И промах этот может случиться как раз с данной конкретной выборкой.
Поэтому опять и опять мы приходим к выводу о неизбежности (необходимости) многократно повторять опыты (или наблюдения). Это похоже на игру (развлечение, аттракцион), которая была в пионерлагерях или домах отдыха - набрасывание колец на штырь. Только у колец "случайный" диаметр.
Наглядно и познавательно это промоделировано в обучающей программе WinStats: http://math.exeter.edu/rparris/winstats.html
В этой связи мне нравится интерпертация интервалов накрытия в терминах достижений нашей жизни:
"Смысл «95%-й доверительной вероятности» можно интерпретировать в терминах достижений Вашей жизни. Если Вы за всю свою жизнь построили много 95%-х ДИ (и если в каждом случае были удовлетворены необходимые условия), то приблизительно 95% этих ДИ действительно содержали соответствующие им средние значения. Обучаясь на курсах гольфа в доме престарелых и вспоминая свою жизнь, Вы чувствуете удовлетворение от того, что в 95% случаев Ваши ДИ были правильными. К этому чувству примешивается также огорчение, поскольку 5% интервалов были неверны. И Вы никогда не сможете узнать, в каких случаях результаты Вашего труда были верны, а в каких нет!" Сигел Э. Практическая бизнес-статистика. ? М.: Издательский дом «Вильямс», 2004. ? 1056 с. (с. 418-419). Sic transit gloria mundi. Такова истинная сущность статистических выводов.
Всем всех благ,
Никита

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Naum   Доверительный интервал долей в Excel   28.09.2008 - 20:48
- - Игорь   Цитата(Naum @ 28.09.2008 - 20:48) По...   29.09.2008 - 08:13
- - DoctorStat   Объем выборки равен n=567. Количество больных в вы...   29.09.2008 - 10:38
- - плав   На самом деле ответ на вопрос, как считать доверит...   29.09.2008 - 11:57
- - Игорь   Цитата(плав @ 29.09.2008 - 11:57) На...   29.09.2008 - 13:48
|- - плав   Цитата(Игорь @ 29.09.2008 - 14:48) Н...   29.09.2008 - 20:46
- - Naum   Цитата(DoctorStat @ 29.09.2008 - 12...   29.09.2008 - 20:01
|- - Nikita   Цитата(Naum @ 29.09.2008 - 20:01) Сп...   17.10.2008 - 02:05
|- - плав   Цитата(Nikita @ 17.10.2008 - 03:05) ...   18.10.2008 - 10:09
|- - Nikita   Цитата(плав @ 18.10.2008 - 10:09) Пр...   19.10.2008 - 15:35
|- - плав   Цитата(Nikita @ 19.10.2008 - 16:35) ...   19.10.2008 - 21:18
- - Игорь   Пару-тройку реплик, если можно. Цитата(Nikita ...   19.10.2008 - 16:28
- - Nikita   Я перед Плав повинился, а Плав струсил. Хотя ничто...   23.10.2008 - 19:23
- - плав   1) Ну вот, опять очень хочется доказать, что работ...   24.10.2008 - 00:08
- - Nikita   Jonathan A C Sterne, George Davey Smith. Sifting ...   27.10.2008 - 00:35
- - плав   Цитата(Nikita @ 27.10.2008 - 00:35) ...   29.10.2008 - 16:17


Тема закрытаОткрыть тему