![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2008 Из: Екатеринбург Пользователь №: 5317 ![]() |
Пожалуйста, научите считать доверительный интервал в Excel! понимаю, что очень глупая просьба, но....
Я изучала распространенность бронхиальной астмы в городе Н - получилось следующее: опрошенных 567, больных из них 37, распространенность 6,53%. По области, в которой находится город Н, распространенность от 5,7% до 5,9%. Рецензент, прочитав мою статью, прислала следующее: "При сопоставлении распространенности БА необходимо сравнивать известные популяционные величины и доверительный интервал данного исследования, а не точечную оценку. Так, 95% ДИ для распространенности БА 37/567=6.53% составляет 4.75-8.89. Данный интервал включает величины распространенности БА в городах области (5.7-5.9%), следовательно, различий в распространенности БА в сравниваемых регионах нет". Как получился этот ДИ 4,75-8,89? Недавно нашла на этом форуме как считать критерий Стьюдента в Excel - описано было очень подробно, шаг за шагом, доступно для таких чайников как я - супер! если можно, то в таком же ключе напишите |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 28.09.2008 Из: Екатеринбург Пользователь №: 5317 ![]() |
Объем выборки равен n=567. Количество больных в выборке равно m=37. Распространенность астмы (доля больных) в городе равна p=37/567=0,0653 Стандартная ошибка доли равна s=sqrt[p(1-p)/n]=кв.корень[0,0653*(1-0,0653)/567]=0,01 Объем выборки n=567 достаточно большой ( n*p=37>5 и n*(1-p)=530>5 ), чтобы можно было применить центральную предельную теорему. Из нее следует, что оценка доли p подчиняется нормальному распределению со средним p и стандартным отклонением s. Следовательно 95%-ый доверительный интервал для доли p равен =[p-2*s, p+2*s]=[ 0,0653-2*0,01, 0,0653+2*0,01]=[0,0453, 0,0853] Спасибо огромное ![]() На самом деле ответ на вопрос, как считать доверительный интервал для долей не так уж прост - много копий сломано вокруг этой темы. Действительно, в случае большой выборки можно использовать нормальную аппроксимацию (метод Вальда), единственно, что доверительный интервал равен [h-1.96s;p+1.96s], округление значения z нормального распределения для вероятности 0,025 до двух используется для ускорения расчетов и в статьях не приемлимо. Для упрощения работы я создал Экселевскую табличку, которая рассчитывает наиболее важные интервалы и креплю ее к этому посту (свернутую rar'ом по требованиям форума). Там (очевидно) надо поменять количество обследованных (N) и количество лиц с признаком (k), остальное все считается автоматом. Интересующиеся могут оценить формулы из формул экселя. Результат для данного случая: 4,64% 8,88% Метод Клоппера-Пирсона 4,49% 8,56% Нормальная аппроксимация (Вальд) 4,77% 8,87% Метод Вилсона 4,59% 8,99% По распределению Пуассона (через хи2) 4,75% 8,89% Откорректированный метод Вальда Кстати, рецензент использовал откорректированную нормальную аппроксимацию (откорректированный метод Вальда). Agresti считает, что откорректированный метод Вальда является наиболее простым и точным. Он отличается от нормальной аппроксимации (в случае 95%ДИ) изменениями при расчете р. Новое значение равно р'=(k+2)/(N+4). Далее используется формула нормальной аппроксимации только в ней заменяется р на р', а N при расчете s на N+4. Спасибо)))) табличка просто супер! Два пути: 1. Загружаете программу Two-by-two по ссылке http://www.med.uio.no/imb/stat/two-by-two/installation.html. В архиве программы будет файл Clopper-Pearson.xls, который производит искомые расчеты. 2. Загружаете программу AtteStat по ссылке http://attestatsoft.com. Интересующая Вас опция находится в модуле "Описательная статистика". Называется "Доля". В Справочной системе - необходимые ссылки. Данные вводятся так: 37 1 530 0 Первый столбец - численности классов, второй интервал классов. Отмечаете, что тип данных - группированные. В силу того, что формулы вычисления доверительного интервала доли могут быть различными, результат может незначительно отличаться от приведенного Вами. Для сравнения возможно использование и других критериев для бинарных выборок. спасибо большое) |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 30.08.2008 Пользователь №: 5242 ![]() |
Спасибо огромное ![]() Спасибо)))) табличка просто супер! Увы, не разделяю Ваших восторгов. Табличка - пример недопустимой неряшливости. Подставьте в нее N=10 (или даже 100) и k=0 и увидите, что получается. По Clopper-Pearson, слава богу (вернее, слава Святославу), табличка считает все правильно. Но и тут недочет. Программка приучает пользователя использовать только одну (снисходительную) вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень) - 95%. А на самом деле надо приучаться вычислять интервалы накрытия (синонимы: интервалы доверия или доверительные интервалы) как минимум для все трех традиционных уровней 95%, 99% и 99,9%. Посчитайте несколько раз и убедитесь, что это имеет смысл. Тогда мы получаем элемент того, что в литературе называют "функцией доверия" - confidence fuction or P-value function) и вслед за Колмогоровым и другими я предпочитаю ориентироваться на уровень накрытия = 99,9% и, соответственно, на уровень значимости альфа а=0,001. Про а=0,05 и 95% вообще предлагаю забыть как про страшный сон. Итак, в предлагаемой табличке нахваливаемый "откорректированный" (adjusted - подогнанный, уточненный, модифицированный) метод Вальда выдает полную чушь: левая (нижняя) граница интервала накрытия оказывется отрицательной: -4,34% ! Я-то считал, что методы Wilson и adjusted Wald - это одно и тоже, а тут они представлены как различные методы, которые выдают разные результаты. Это наглядный пример того, что создатели программ обязаны приводить в явном виде формулы, задействовавнные в программе или (на худой конец) давать ссылки на доступные источники. Кроме того, создатели программ обязаны сообщать, проверяли ли они правильность вычислений и (или) апробировали ее путем сравнения с "эталонными" программами. В противном случае, авторы программ обязаны указывать, что они ни за что не отвечают и пользователь использует ее на свой страх и риск (есть такая формулировочка). Часто рекомендуемый метод Agresti-Coul (в основном за свою простоту, которая, как известно хуже клептомании) в данном случае тоже выдает отрицательную левую границу: -4,3%. Сосчитано с помощью программки на сайте: http://www.ausvet.com.au/epitools/content....ge=CIProportion К тому же этот метод строго говоря пригоден только для доверительной вероятности 95%. Короче, метод Clopper-Pearson можно считать вполне универсальным, но использовать лучше электронную таблицу Clopper-Pearson.xls или AtteStat, о которых писал Игорь. Но в AtteStat надо произвести 13 мелких операций, а в Clopper-Pearson - всего 3 или 4. Есть еще аналогичный апплет: Exact Binomial and Poisson Confidence Intervals на сайте: http://statpages.org/confint.html Его можно сохранить как web-старницу и работать offline. Можно использовать и STATISTICA, но в ней надо знать, что построение интервалов накрытия запрятано в разделе Анализ Мощности. Путь, который надо проделать, чтобы добраться до него, длинноват: Statistics -> Power Analysis -> Interval Estimation -> One proportion, Z, Chi-square Test -> Observed proportion + Sample Size + Conf. Level Но это еще полбеды: "Observed proportion' означает, что пользователь должен где-то на стороне вычислить наблюдаемую долю (непонятно, с какой точностью, с каким разделителем десятичных частей и т.п.). - лишние хлопоты... "Conf Level" ограничен значением 0.99 (99%). Однако, знающие люди подсказали, что можно вводить любой Conf.Level, если набирать его вручную. Удивительно, но факт: в SPSS процедура построения интервалов накрытия отсутствует. Я предлагаю избегать эмоциональной окраски в статистичексих терминах. Поэтому я и пытаюсь навязать более индиферентный термин: Интервал Накрытия, тем более, что он более отражает его суть. И это не моя прихоть, зачастую его так и называют cover (covsring) interval. Он означает, что если мы многократно повторим наши наблюдения, то ПРИМЕРНО в (1-α)×100% случаев интервалы, получаемые с помощью данной процедуры, будут накрывать оцениваемое (никому неизвестное) значение параметра θ. То есть с уверенностью (надежностью) (1-α)×100% мы можем надеяться, что вычисленный нами ДИ для данной выборки «поймает» (накроет) искомое значение θ. Но в α×100% случаев мы можем «промахнуться». И промах этот может случиться как раз с данной конкретной выборкой. Поэтому опять и опять мы приходим к выводу о неизбежности (необходимости) многократно повторять опыты (или наблюдения). Это похоже на игру (развлечение, аттракцион), которая была в пионерлагерях или домах отдыха - набрасывание колец на штырь. Только у колец "случайный" диаметр. Наглядно и познавательно это промоделировано в обучающей программе WinStats: http://math.exeter.edu/rparris/winstats.html В этой связи мне нравится интерпертация интервалов накрытия в терминах достижений нашей жизни: "Смысл «95%-й доверительной вероятности» можно интерпретировать в терминах достижений Вашей жизни. Если Вы за всю свою жизнь построили много 95%-х ДИ (и если в каждом случае были удовлетворены необходимые условия), то приблизительно 95% этих ДИ действительно содержали соответствующие им средние значения. Обучаясь на курсах гольфа в доме престарелых и вспоминая свою жизнь, Вы чувствуете удовлетворение от того, что в 95% случаев Ваши ДИ были правильными. К этому чувству примешивается также огорчение, поскольку 5% интервалов были неверны. И Вы никогда не сможете узнать, в каких случаях результаты Вашего труда были верны, а в каких нет!" Сигел Э. Практическая бизнес-статистика. ? М.: Издательский дом «Вильямс», 2004. ? 1056 с. (с. 418-419). Sic transit gloria mundi. Такова истинная сущность статистических выводов. Всем всех благ, Никита |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Увы, не разделяю Ваших восторгов. Табличка - пример недопустимой неряшливости. Подставьте в нее N=10 (или даже 100) и k=0 и увидите, что получается. По Clopper-Pearson, слава богу (вернее, слава Святославу), табличка считает все правильно. Но и тут недочет. Программка приучает пользователя использовать только одну (снисходительную) вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень) - 95%. А на самом деле надо приучаться вычислять интервалы накрытия (синонимы: интервалы доверия или доверительные интервалы) как минимум для все трех традиционных уровней 95%, 99% и 99,9%. Посчитайте несколько раз и убедитесь, что это имеет смысл. Тогда мы получаем элемент того, что в литературе называют "функцией доверия" - confidence fuction or P-value function) и вслед за Колмогоровым и другими я предпочитаю ориентироваться на уровень накрытия = 99,9% и, соответственно, на уровень значимости альфа а=0,001. Про а=0,05 и 95% вообще предлагаю забыть как про страшный сон. Итак, в предлагаемой табличке нахваливаемый "откорректированный" (adjusted - подогнанный, уточненный, модифицированный) метод Вальда выдает полную чушь: левая (нижняя) граница интервала накрытия оказывется отрицательной: -4,34% ! Я-то считал, что методы Wilson и adjusted Wald - это одно и тоже, а тут они представлены как различные методы, которые выдают разные результаты. Это наглядный пример того, что создатели программ обязаны приводить в явном виде формулы, задействовавнные в программе или (на худой конец) давать ссылки на доступные источники. Кроме того, создатели программ обязаны сообщать, проверяли ли они правильность вычислений и (или) апробировали ее путем сравнения с "эталонными" программами. В противном случае, авторы программ обязаны указывать, что они ни за что не отвечают и пользователь использует ее на свой страх и риск (есть такая формулировочка). Всем всех благ, Никита Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете А) "Программка приучает пользователя использовать только одну (снисходительную) вероятность " - любой, кто попытался бы немного посмотреть на экселевский файл обнаружил бы, что ширина доверительного интервала (ячейка H1) легко меняется. Критик этого не попробовал - у него была другая задача. Б) "Подставьте в нее N=10 (или даже 100) и k=0 и увидите" просто плохое знание применимости разных методов. При нулевом количестве положительных исходов, да и вообще при близком к нулю и единице, биномиальные вероятности не применимы - надо пользоваться распредлением Пуассона. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает). При желании автор мог бы указать, что при k=0 просто нельзя пользоваться оценкой долей, равной k/N, а надо пользоваться, например, методом Лапсласа, но он, вероятно, этого просто не знает. И, кстати, он, наверное, знает другие методы Вальда? Если да, то очень хотелось бы увидеть формулы. В) "создатели программ обязаны приводить в явном виде формулы" - между прочим, в Экселе формулы представлены в явном виде. Если неизвестно, что можно щелкнуть по ячейке и вся формула появится, даже крупный специалист по критике чужих статистических методов может разобраться Г) Необнократное повторение идеи о преимуществе метода Клоппера-Пирсона на чем-нибудь основывается? Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрубились бы скачать указанные в посте выше ссылки и поняли бы, что в литературе присутствует иное мнение. В целом. Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите, а то, право слово, постоянные ссылки на "великого Колмогорова" и "р=0,001" уже утомили (кстати, а граница р=0,0015 Вас чем не устраивает? А?). |
|
![]() |
![]() |
![]() ![]() |