Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Доверительный интервал долей в Excel
Naum
сообщение 28.09.2008 - 20:48
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 28.09.2008
Из: Екатеринбург
Пользователь №: 5317



Пожалуйста, научите считать доверительный интервал в Excel! понимаю, что очень глупая просьба, но....
Я изучала распространенность бронхиальной астмы в городе Н - получилось следующее: опрошенных 567, больных из них 37, распространенность 6,53%. По области, в которой находится город Н, распространенность от 5,7% до 5,9%. Рецензент, прочитав мою статью, прислала следующее: "При сопоставлении распространенности БА необходимо сравнивать известные популяционные величины и доверительный интервал данного исследования, а не точечную оценку. Так, 95% ДИ для распространенности БА 37/567=6.53% составляет 4.75-8.89. Данный интервал включает величины распространенности БА в городах области (5.7-5.9%), следовательно, различий в распространенности БА в сравниваемых регионах нет". Как получился этот ДИ 4,75-8,89? Недавно нашла на этом форуме как считать критерий Стьюдента в Excel - описано было очень подробно, шаг за шагом, доступно для таких чайников как я - супер! если можно, то в таком же ключе напишите
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Naum
сообщение 29.09.2008 - 20:01
Сообщение #2





Группа: Пользователи
Сообщений: 6
Регистрация: 28.09.2008
Из: Екатеринбург
Пользователь №: 5317



Цитата(DoctorStat @ 29.09.2008 - 12:38) *
Объем выборки равен n=567. Количество больных в выборке равно m=37. Распространенность астмы (доля больных) в городе равна p=37/567=0,0653
Стандартная ошибка доли равна s=sqrt[p(1-p)/n]=кв.корень[0,0653*(1-0,0653)/567]=0,01
Объем выборки n=567 достаточно большой ( n*p=37>5 и n*(1-p)=530>5 ), чтобы можно было применить центральную предельную теорему. Из нее следует, что оценка доли p подчиняется нормальному распределению со средним p и стандартным отклонением s. Следовательно 95%-ый доверительный интервал для доли p равен =[p-2*s, p+2*s]=[ 0,0653-2*0,01, 0,0653+2*0,01]=[0,0453, 0,0853]

Спасибо огромное rolleyes.gif

Цитата(плав @ 29.09.2008 - 13:57) *
На самом деле ответ на вопрос, как считать доверительный интервал для долей не так уж прост - много копий сломано вокруг этой темы. Действительно, в случае большой выборки можно использовать нормальную аппроксимацию (метод Вальда), единственно, что доверительный интервал равен [h-1.96s;p+1.96s], округление значения z нормального распределения для вероятности 0,025 до двух используется для ускорения расчетов и в статьях не приемлимо.
Для упрощения работы я создал Экселевскую табличку, которая рассчитывает наиболее важные интервалы и креплю ее к этому посту (свернутую rar'ом по требованиям форума). Там (очевидно) надо поменять количество обследованных (N) и количество лиц с признаком (k), остальное все считается автоматом. Интересующиеся могут оценить формулы из формул экселя.
Результат для данного случая:
4,64% 8,88% Метод Клоппера-Пирсона
4,49% 8,56% Нормальная аппроксимация (Вальд)
4,77% 8,87% Метод Вилсона
4,59% 8,99% По распределению Пуассона (через хи2)
4,75% 8,89% Откорректированный метод Вальда
Кстати, рецензент использовал откорректированную нормальную аппроксимацию (откорректированный метод Вальда).
Agresti считает, что откорректированный метод Вальда является наиболее простым и точным. Он отличается от нормальной аппроксимации (в случае 95%ДИ) изменениями при расчете р. Новое значение равно р'=(k+2)/(N+4). Далее используется формула нормальной аппроксимации только в ней заменяется р на р', а N при расчете s на N+4.

Спасибо)))) табличка просто супер!

Цитата(Игорь @ 29.09.2008 - 10:13) *
Два пути:
1. Загружаете программу Two-by-two по ссылке http://www.med.uio.no/imb/stat/two-by-two/installation.html. В архиве программы будет файл Clopper-Pearson.xls, который производит искомые расчеты.
2. Загружаете программу AtteStat по ссылке http://attestatsoft.com. Интересующая Вас опция находится в модуле "Описательная статистика". Называется "Доля". В Справочной системе - необходимые ссылки.
Данные вводятся так:
37 1
530 0
Первый столбец - численности классов, второй интервал классов. Отмечаете, что тип данных - группированные.

В силу того, что формулы вычисления доверительного интервала доли могут быть различными, результат может незначительно отличаться от приведенного Вами. Для сравнения возможно использование и других критериев для бинарных выборок.

спасибо большое)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nikita
сообщение 17.10.2008 - 02:05
Сообщение #3





Группа: Пользователи
Сообщений: 8
Регистрация: 30.08.2008
Пользователь №: 5242



Цитата(Naum @ 29.09.2008 - 20:01) *
Спасибо огромное rolleyes.gif



Спасибо)))) табличка просто супер!

Увы, не разделяю Ваших восторгов. Табличка - пример недопустимой неряшливости. Подставьте в нее N=10 (или даже 100) и k=0 и увидите, что получается. По Clopper-Pearson, слава богу (вернее, слава Святославу), табличка считает все правильно. Но и тут недочет. Программка приучает пользователя использовать только одну (снисходительную) вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень) - 95%. А на самом деле надо приучаться вычислять интервалы накрытия (синонимы: интервалы доверия или доверительные интервалы) как минимум для все трех традиционных уровней 95%, 99% и 99,9%. Посчитайте несколько раз и убедитесь, что это имеет смысл. Тогда мы получаем элемент того, что в литературе называют "функцией доверия" - confidence fuction or P-value function) и вслед за Колмогоровым и другими я предпочитаю ориентироваться на уровень накрытия = 99,9% и, соответственно, на уровень значимости альфа а=0,001.
Про а=0,05 и 95% вообще предлагаю забыть как про страшный сон.
Итак, в предлагаемой табличке нахваливаемый "откорректированный" (adjusted - подогнанный, уточненный, модифицированный) метод Вальда выдает полную чушь: левая (нижняя) граница интервала накрытия оказывется отрицательной: -4,34% ! Я-то считал, что методы Wilson и adjusted Wald - это одно и тоже, а тут они представлены как различные методы, которые выдают разные результаты. Это наглядный пример того, что создатели программ обязаны приводить в явном виде формулы, задействовавнные в программе или (на худой конец) давать ссылки на доступные источники. Кроме того, создатели программ обязаны сообщать, проверяли ли они правильность вычислений и (или) апробировали ее путем сравнения с "эталонными" программами. В противном случае, авторы программ обязаны указывать, что они ни за что не отвечают и пользователь использует ее на свой страх и риск (есть такая формулировочка).
Часто рекомендуемый метод Agresti-Coul (в основном за свою простоту, которая, как известно хуже клептомании) в данном случае тоже выдает отрицательную левую границу: -4,3%. Сосчитано с помощью программки на сайте: http://www.ausvet.com.au/epitools/content....ge=CIProportion К тому же этот метод строго говоря пригоден только для доверительной вероятности 95%.
Короче, метод Clopper-Pearson можно считать вполне универсальным, но использовать лучше электронную таблицу Clopper-Pearson.xls или AtteStat, о которых писал Игорь. Но в AtteStat надо произвести 13 мелких операций, а в Clopper-Pearson - всего 3 или 4. Есть еще аналогичный апплет: Exact Binomial and Poisson Confidence Intervals на сайте: http://statpages.org/confint.html Его можно сохранить как web-старницу и работать offline.
Можно использовать и STATISTICA, но в ней надо знать, что построение интервалов накрытия запрятано в разделе Анализ Мощности.
Путь, который надо проделать, чтобы добраться до него, длинноват:
Statistics -> Power Analysis -> Interval Estimation -> One proportion, Z, Chi-square Test -> Observed proportion + Sample Size + Conf. Level
Но это еще полбеды:
"Observed proportion' означает, что пользователь должен где-то на стороне вычислить наблюдаемую долю (непонятно, с какой точностью, с каким разделителем десятичных частей и т.п.). - лишние хлопоты...
"Conf Level" ограничен значением 0.99 (99%). Однако, знающие люди подсказали, что можно вводить любой Conf.Level, если набирать его вручную.
Удивительно, но факт: в SPSS процедура построения интервалов накрытия отсутствует.
Я предлагаю избегать эмоциональной окраски в статистичексих терминах. Поэтому я и пытаюсь навязать более индиферентный термин: Интервал Накрытия, тем более, что он более отражает его суть. И это не моя прихоть, зачастую его так и называют cover (covsring) interval.
Он означает, что если мы многократно повторим наши наблюдения, то ПРИМЕРНО в (1-α)×100% случаев интервалы, получаемые с помощью данной процедуры, будут накрывать оцениваемое (никому неизвестное) значение параметра θ. То есть с уверенностью (надежностью) (1-α)×100% мы можем надеяться, что вычисленный нами ДИ для данной выборки «поймает» (накроет) искомое значение θ.
Но в α×100% случаев мы можем «промахнуться». И промах этот может случиться как раз с данной конкретной выборкой.
Поэтому опять и опять мы приходим к выводу о неизбежности (необходимости) многократно повторять опыты (или наблюдения). Это похоже на игру (развлечение, аттракцион), которая была в пионерлагерях или домах отдыха - набрасывание колец на штырь. Только у колец "случайный" диаметр.
Наглядно и познавательно это промоделировано в обучающей программе WinStats: http://math.exeter.edu/rparris/winstats.html
В этой связи мне нравится интерпертация интервалов накрытия в терминах достижений нашей жизни:
"Смысл «95%-й доверительной вероятности» можно интерпретировать в терминах достижений Вашей жизни. Если Вы за всю свою жизнь построили много 95%-х ДИ (и если в каждом случае были удовлетворены необходимые условия), то приблизительно 95% этих ДИ действительно содержали соответствующие им средние значения. Обучаясь на курсах гольфа в доме престарелых и вспоминая свою жизнь, Вы чувствуете удовлетворение от того, что в 95% случаев Ваши ДИ были правильными. К этому чувству примешивается также огорчение, поскольку 5% интервалов были неверны. И Вы никогда не сможете узнать, в каких случаях результаты Вашего труда были верны, а в каких нет!" Сигел Э. Практическая бизнес-статистика. ? М.: Издательский дом «Вильямс», 2004. ? 1056 с. (с. 418-419). Sic transit gloria mundi. Такова истинная сущность статистических выводов.
Всем всех благ,
Никита

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 18.10.2008 - 10:09
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Nikita @ 17.10.2008 - 03:05) *
Увы, не разделяю Ваших восторгов. Табличка - пример недопустимой неряшливости. Подставьте в нее N=10 (или даже 100) и k=0 и увидите, что получается. По Clopper-Pearson, слава богу (вернее, слава Святославу), табличка считает все правильно. Но и тут недочет. Программка приучает пользователя использовать только одну (снисходительную) вероятность накрытия (синонимы: вероятность доверия, доверительная вероятность, доверительный уровень) - 95%. А на самом деле надо приучаться вычислять интервалы накрытия (синонимы: интервалы доверия или доверительные интервалы) как минимум для все трех традиционных уровней 95%, 99% и 99,9%. Посчитайте несколько раз и убедитесь, что это имеет смысл. Тогда мы получаем элемент того, что в литературе называют "функцией доверия" - confidence fuction or P-value function) и вслед за Колмогоровым и другими я предпочитаю ориентироваться на уровень накрытия = 99,9% и, соответственно, на уровень значимости альфа а=0,001.
Про а=0,05 и 95% вообще предлагаю забыть как про страшный сон.
Итак, в предлагаемой табличке нахваливаемый "откорректированный" (adjusted - подогнанный, уточненный, модифицированный) метод Вальда выдает полную чушь: левая (нижняя) граница интервала накрытия оказывется отрицательной: -4,34% ! Я-то считал, что методы Wilson и adjusted Wald - это одно и тоже, а тут они представлены как различные методы, которые выдают разные результаты. Это наглядный пример того, что создатели программ обязаны приводить в явном виде формулы, задействовавнные в программе или (на худой конец) давать ссылки на доступные источники. Кроме того, создатели программ обязаны сообщать, проверяли ли они правильность вычислений и (или) апробировали ее путем сравнения с "эталонными" программами. В противном случае, авторы программ обязаны указывать, что они ни за что не отвечают и пользователь использует ее на свой страх и риск (есть такая формулировочка).
Всем всех благ,
Никита

Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете
А) "Программка приучает пользователя использовать только одну (снисходительную) вероятность " - любой, кто попытался бы немного посмотреть на экселевский файл обнаружил бы, что ширина доверительного интервала (ячейка H1) легко меняется. Критик этого не попробовал - у него была другая задача.
Б) "Подставьте в нее N=10 (или даже 100) и k=0 и увидите" просто плохое знание применимости разных методов. При нулевом количестве положительных исходов, да и вообще при близком к нулю и единице, биномиальные вероятности не применимы - надо пользоваться распредлением Пуассона. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает).
При желании автор мог бы указать, что при k=0 просто нельзя пользоваться оценкой долей, равной k/N, а надо пользоваться, например, методом Лапсласа, но он, вероятно, этого просто не знает. И, кстати, он, наверное, знает другие методы Вальда? Если да, то очень хотелось бы увидеть формулы.
В) "создатели программ обязаны приводить в явном виде формулы" - между прочим, в Экселе формулы представлены в явном виде. Если неизвестно, что можно щелкнуть по ячейке и вся формула появится, даже крупный специалист по критике чужих статистических методов может разобраться
Г) Необнократное повторение идеи о преимуществе метода Клоппера-Пирсона на чем-нибудь основывается? Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрубились бы скачать указанные в посте выше ссылки и поняли бы, что в литературе присутствует иное мнение.

В целом. Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите, а то, право слово, постоянные ссылки на "великого Колмогорова" и "р=0,001" уже утомили (кстати, а граница р=0,0015 Вас чем не устраивает? А?).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Nikita
сообщение 19.10.2008 - 15:35
Сообщение #5





Группа: Пользователи
Сообщений: 8
Регистрация: 30.08.2008
Пользователь №: 5242



Цитата(плав @ 18.10.2008 - 10:09) *
Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете
А) Критик этого не попробовал - у него была другая задача.
Б) ? просто плохое знание применимости разных методов. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает). При желании автор мог бы указать ?
?даже крупный специалист по критике чужих статистических методов может разобраться?
Г) Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрубились бы скачать указанные в посте выше ссылки и поняли бы?
Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите ?

О tempora, o mores!
Стыд-то какой! Стиль-то какой! Фи? Не хватало нам еще подраться? Давайте, не будем позориться, а то так мы с Вами всех форумчан распугаем. Мы спокойно можем встретиться ? благо живем в одном городе ? и обсудить спорные вопросы, смотря в глаза друг другу.
Глубокоуважаемый ..., приношу Вам свои наиглубочайшие и наиискреннейшие соболезнования. Обещаю впредь не давать повода для такой неадекватной реакции.
Но и от Вас я требую незамедлительно и публично извиниться предо мной. После этого забудем этот неприличный казус как страшный сон (и на плавуху бывает проруха).
Возможно мне следовало представиться раньше. Исправляю оплошность. Я, Никита Николаевич Хромов-Борисов, дважды ветеран (войны и труда), химик, генетик и биометрик, соавтор учебника ?Биометрия? и автор ?биометрического? Приложения к учебнику Л.З. Кайданова ?Генетика популяций?. ?Биометрия? награждена дважды: Университетской премией и дипломом Минобраза СССР. Если не 40, то уж всяко больше 30-и лет я преподаю биометрию разного уровня сложности (читаю лекции, веду практикумы и консультации по биометрии) для биологов и медиков. Не только в СПбГУ, но и в Бразилии (около 5 лет) и в Швеции (3 месяца). Да и соавторы у меня достойные:
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. ? 264 с.
?Один из лучших российских учебников по биометрике. В нем рассмотрены все основные статистические методы, применяемые при анализе биомедицинских данных. Авторы учебника - известные специалисты по биометрике, преподающие в российских и зарубежных университетах и занимающиеся научными исследованиями в данной области? (В.П. Леонов). http://www.biometrica.tomsk.ru/
Хромов-Борисов Н.Н. Биометрические аспекты популяционнной генетики. Новые генетические механизмы и их роль в генетико-популяционных процессах. Список рекомендуемой литературы. В кн.: Кайданов Л.З. Генетика популяций. ? М.: Высшая школа, 1996. - 320c.

?Без преувеличения можно сказать, что это лучший учебник по генетике популяций! Интересен он еще и тем, что Приложение в этом учебнике содержит 50 страниц посвященных биометрическим аспектам популяционной генетики. Автор Приложения - Н.Н.Хромов-Борисов, который несколько лет проработал в одном из бразильских университетов. Настоятельно рекомендую всем нашим читателям обязательно познакомиться с этим Приложением! Оно написано специалистом, влюбленным в свой предмет! Вы найдете здесь многочисленные исторические экскурсы о выдающихcя ученых, оставивших свой след в популяционной биометрике. Заслуживает внимания и эпиграф к этим Приложениям: "К статистике давно в душе питаю страсть я, И геология внушает мне участье..." Кто автор этих строк, вы узнаете, прочитав этот прекрасный учебник? (В.П. Леонов). http://www.biometrica.tomsk.ru/

Н.В.Глотов, А.А.Филатов, Н.Н. Хромов-Борисов. Сборник задач по биометрии. - Л.: Изд-во Ленингр. ун-та, 1985. ? 98 с.
Недавняя изящная работа о красоте в науке: Хромов-Борисов Н. Н., Saffi J., Henriques J. A. P. Упорядоченный посев и пуассонер ? высокоточная техника количественной микробиологии. Медицина. XXI век ? 2 {11} 2008. ? С. 92-97.
Хромов-Борисов Н.Н., Лаззаротто Г.Б., Кист Т.Б.Л. Биометрические задачи в популяционных исследованиях. Методы популяционной биологии (Материалы докладов VII Всероссийского популяционного семинара (Часть 2). 16-21 февраля 2004 г. Сыктывкар. С. 62-86.

Smolyanitsky A. G., Ivanov P. L., Kornienko L. V., Zamaraev V. S., Perepechina I. O., Komarovsky Yu. A., Pushkarev V. P. Towards Russian reference population data on STR loci. International Congress Series, Vol. 1261, Progress in Forensic Genetics, 2004. V.10, 242-242.
Smolyanitsky A. G., Popov V. L., Zaslavsky G. I., Rogozin I. B., Henriques J. A. P., Kist T. B. L., Scheil H.-G. Statistical pattern analysis of D1S80 alleles in Northwestern Russians and worldwide database using COLLAPSE software. International Congress Series, Vol. 1239, Progress in Forensic Genetics, 2003, V. 9, p. 665-671.
Picada J. N., Henriques J. A. P., Khromov-Borisov N.N. Dose finding in the Ames Salmonella assay. Mutation Res., 2000, V. 435, p. 36-47.
Khromov-Borisov N.N., Rogozin I. B., Henriques J. A. P., de Serres F. J. Similarity pattern analysis in mutational distributions. Mutation Res., 1999, V. 430, p. 55-74.

Khromov-Borisov N.N., Henriques J.A.P. Good statistics practice (GSP) in genetic toxicology. Mutation Res., 1998, V. 405, p. 97-108. Erratum: Mutation Res., 1999, V. 423, 189.

Ivashchenko T.E., Glazkov P.B., Baranov V.S., Khromov-Borisov N.N. Population study of CTG trinucleotide repeats in the gene for myotonic protein kinase I. Russian. J. Genet., 1997, V. 33, p.1098-1101.
Khromov-Borisov N. N. Biometrical aspects of measuring mutation rates. Methods in Cell Biology, 1978, Vol. 20, p. 20-24.
Компьютерные программы:
И.Б.Рогозин, Хромов-Борисов Н.Н. COLLAPSE ? анализ паттерна сходства в популяционных данных.
Khromov-Borisov N.N. Kist T.B.L., Lazzarotto G.B. SANCT ? structural analysis of contingency tables.
Kochetkov N.K., Budowsky E.I., Domkin V.D., Khromov-Borisov N.N. On the structure of polynucleotides obtained by condensation of nucleoside-2?(3?)-phosphates with polyphosphoric ester. Biochim. Biophys. Acta, 1964, V. 80, N 1, p.145-148.
Переводы книг:
Нолтинг Б. Новейшие методы исследования биосистем. ? М.: Техносфера, 2005. ? 245 с.
Сомпайрак Л. Что такое рак? - М.: Техносфера, 2006. ? 230 с.
МакКонки Э. Геном человека. ? М.: Техносфера, 2008. ? 287 с.
Цитата(плав @ 18.10.2008 - 10:09) *
Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете
А) "Программка приучает пользователя использовать только одну (снисходительную) вероятность " - любой, кто попытался бы немного посмотреть на экселевский файл обнаружил бы, что ширина доверительного интервала (ячейка H1) легко меняется. Критик этого не попробовал - у него была другая задача.

Программу Clopper.xls скачали уже почти 40 человек. Господа, поднимите руки, кто из Вас догадался, что именно ячейка H1, а не ячейка D2 предназначена для задания доверительного уровня (синоним: доверительная вероятность). [Плав, извините, ?ширина? ДИ ? это нечто иное]. Я не догадался и безуспешно пытался изменить содержимое ячейки D2. Так что, Плав, признаю ? я был неправ. Но где гарантия, что другие форумчане тоже такие недогадливые? Очевидно, что нужна некая поясняющая сопроводиловка.
Цитата(плав @ 18.10.2008 - 10:09) *
Б) "Подставьте в нее N=10 (или даже 100) и k=0 и увидите" просто плохое знание применимости разных методов. При нулевом количестве положительных исходов, да и вообще при близком к нулю и единице, биномиальные вероятности не применимы - надо пользоваться распределением Пуассона. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает).

Отнюдь. Общеизвестна формула для вычисления вероятности k ?успехов? при N испытаниях в схеме Бернулли с параметром h (который есть вероятность ?успеха?):
p(k)={N!/[k!(N-k)]!} hk(1-h)N-k. По определению: x! (факториал x) есть произведение: x(x-1)(x-2)?1. При этом 0! = 1.
Подставим в эту формулу N и k=0 и получим:
p(0) = Pr{k=0} = {N!/[0!(N-0)!]} h0(1-h)N-0. По определению: z0 = 1. Следовательно p(0)=(1-h)N.
Теперь мы можем построить ТОЧНЫЙ двухсторонний (1-a)x100% ДИ для НЕИЗВЕСТНОГО параметра h. Как обычно выбираем ДИ с равными ?хвостами?. Это означает, что вероятности ненакрытия оцениваемого (неизвестного нам) параметра  этим интервалом слева и справа от него одинаковы и равны a/2.
Полагаем (1-h)N = a/2 и решаем это уравнение относительно. В результате получаем выражение для правой (верхней) границы искомого интервала: hright=1-(a/2)1/N. Левая (нижняя) граница очевидно равна нулю: hleft=0.
Итак, границами искомого ДИ для частного случая, когда k=0, являются:
[0; 1-(a/2)1/N].
Это и есть частный, но наглядный пример того, как работает процедура Клоппера-Пирсона для построения ТОЧНЫХ ДИ для параметра распределения Бернулли .
Краткая, четкая и ясная статья на эту тему есть в Wiki:
http://en.wikipedia.org/wiki/Binomial_prop...idence_interval
Но ссылки на web-калькуляторы тут далеко не лучшие.
Повторяю, это ? ТОЧНОЕ решение. Все остальные, основанные на известной АППРОКСИМАЦИИ биномиального распределения нормальным распределением в случае больших значений Nh(1-h), или основанные на аппроксимации биномиального распределения распределением Пуассона в случае малых значений Nh неизбежно являются ПРИБЛИЖЕННЫМИ, отнюдь не точными.
Как давно подметили Логин Николаевич Большев и Николай Васильевич Смирнов в своем гениальном труде ?Таблицы математической статистики?: ?С точки зрения обычных требований вычислительной математики и математической статистики точность нормального и пуассоновского приближений следует признать недостаточной (название этих приближений ?удовлетворительными? во многих вероятностных и статистических приложениях является следствием снисходительности авторов и часто основано на небольшом количестве удачно подобранных примеров, демонстрирующих ?удовлетворительное согласие? (3-е изд., 1983. - с. 68).

При желании автор мог бы указать, что при k=0 просто нельзя пользоваться оценкой долей, равной k/N, а надо пользоваться, например, методом Лапласа, но он, вероятно, этого просто не знает.
Отнюдь. При k=0, k/N есть точечная оценка для доли, и никакого запрета на ее использование не существует.
Оценка по Лапласу (k+1)/(N+2) относится к Бейзовской идеологии и методологии.
На русском языке это хорошо изложено в книге Борель Эм., Дельтейль Р., Юрон Р. Вероятности, ошибки. Пер. с франц. А.Л.Вайнштейна и Н.С.Четверикова. Серия ``Библиотечка иностранных книг для экономистов и статистиков``. М.: Статистика, 1972г. 176 с.
Цитата(плав @ 18.10.2008 - 10:09) *
В) "создатели программ обязаны приводить в явном виде формулы" - между прочим, в Экселе формулы представлены в явном виде. Если неизвестно, что можно щелкнуть по ячейке и вся формула появится, даже крупный специалист по критике чужих статистических методов может разобраться.

Как это нередко бывает, тут спор о словах: что считать ?явным видом?, т.е. наглядным и доступным пониманию. Дорогие форумчане, поднимите руки, кто из Вас способен сходу разобраться в подобных экселевских формула?
Немаловажно также, чтобы ячейки с вычислительными формулами были бы защищены.
Цитата(плав @ 18.10.2008 - 10:09) *
Г) Неоднократное повторение идеи о преимуществе метода Клоппера-Пирсона на чем-нибудь основывается? Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрудились бы скачать указанные в посте выше ссылки и поняли бы, что в литературе присутствует иное мнение.

Есть гораздо более серьезные и глубокие сравнительные исследования. В указанной Игорем работе Pires, Amado обсуждаются 20 методов:
Pires A.M., Amado C. Interval estimators for a binomial proportion: Comparison of twenty methods // REVSTAT - Statistical Journal, June 2008, vol. 6, no. 2, pp. 165-197.
Доступна по адресу: http://www.ine.pt/revstat/pdf/rs080204.pdf

Наиболее серьезными являются:
Brown, L.D., Cai, T. & DasGupta, A. (2001). Interval estimation for a binomial proportion (with discussion). Statistical Science 16, 101-133.
Brown, L.D., Cai, T. & DasGupta, A. (2002). Confidence intervals for a binomial proportion and asymptotic expansions. The Annals of Statistics 30, 160-201.
Они свободно доступны по адресам:
http://www-stat.wharton.upenn.edu/~tcai/pa...al-StatSci.html
http://www-stat.wharton.upenn.edu/~tcai/pa...ial-Annals.html
Новейшие работы:
Frank TUYL, Richard GERLACH, Kerrie MENGERSEN A Comparison of Bayes?Laplace, Jeffreys, and Other Priors: The Case of Zero Events. The American Statistician, February 2008, Vol. 62, No. 1, p. 40-44.

Диссертация: Frank Tuyl Estimation of binomial parameter: In defence of Bayes (1763). Scholl of Mathematics and Physical Sciences, The University of Newcastle, 2007. ? 369 pp.

Вопросы обучения обсуждают:
Michael Henderson; Mary C. Meyer Exploring the Confidence Interval for a Binomial Parameter in a First Course in Statistical Computing. The American Statistician, Vol. 55, No. 4. (Nov., 2001), pp. 337-344.

Кое-что полезное можно почерпнуть у румын:
Tudor DRUGAN, Sorana BOLBOACĂ, Lorentz JANTSCHI, Andrei ACHIMAŞ CADARIU Binomial Distribution Sample Confidence Intervals Estimation. 1. Sampling and Medical Key Parameters Calculation. Leonardo Electronic Journal of Practices and Technologies, Issue 3, July-December 2003, p. 45-74.
Sorana-Daniela BOLBOACĂ, Andrei B. ACHIMAŞ CADARIU, Binomial Distribution Sample Confidence Intervals Estimation 2. Proportion-like Medical Key Parameters,
Leonardo Electronic Journal of Practices and Technologies, 2:3 (July-December), 2003, p. 75-110.
Доступны по адресам: http://lejpt.academicdirect.org/A03/045_074.pdf
http://lejpt.academicdirect.org/A03/075_110.pdf
http://lejpt.academicdirect.org/A03/075_110.htm
http://lori.academicdirect.org/
http://sorana.academicdirect.ro/
У них же есть некий софт.

Если кого интересует, моя коллекция статей только про ДИ для долей превышает 100 Mb. Могу прислать ? не консервировать же мне их.

Да, еcть работы Agresti, уже в заголовке которых объявляется, что приближенное ?лучше? точного:
Agresti A., Coull B.A. Approximate is better than ??exact?? for interval estimation of binomial proportions. The American Statistician 1998; 52: 119?26.

Agresti A. Dealing with discreteness: making ?exact? confidence intervals for proportions, diferences of proportions, and odds ratios more exact. StatisticalMethods in Medical Research 2003; 12: 3-21.

Многое из того, что он рекомендует, реализовано в StatXact. Но как во всем этом разобраться пользователю? Речь идет не только о ДИ для долей, но и для их разностей, отношений (RR) и для отношений шансов (OR). Поэтому, если что-то рекомендовать, то очевидно надо рекомендовать более или менее универсальное.
Вот таким достаточно универсальным и является метод Клоппера-Пирсона. С ним не надо заморачиваться с тем, какие значения Nh(1-h) можно считать настолько ?большими?, чтобы можно было безбоязненно применять нормальную аппроксимацию; какие Nh можно считать настолько ?малыми?, чтобы можно было безбоязненно применять пуассоновскую аппроксимацию. При этом для различных доверительных вероятностей эти решения получаются различными.
Чем озабочены математики? Тем, что точные ДИ являются консервативными, т.е. часто получаемые границы накрывают оцениваемый параметр h с вероятностью, большей, нежели номинальное (заранее выбранное) 1-a. Но в наших делах лучше ?перестраховаться?, т.е. быть немного консерваторами, чем пытаться ?улучшить?, т.е. подогнать эту вероятность поближе к вожделенному 1-a.

В этой связи стоит прислушаться к мнению Cyrus Mehta и др. - крупнейших специалистов по точным методам статистики, создателей StatXact:
?Мы считаем, везде, где это только возможно, лучше сообщать точное Р-значение. Оно может быть консервативным, но оно же гарантирует удержание предела для вероятности ошибки первого рода на требуем уровне? (Руководство к StatXact-8, c. 1235).

Если озаботиться дидактическим аспектом проблемы, то именно метод Клопера-Пирсона разъяснить достаточно просто. Его суть ? ?выворачивание наизнанку? формулы для распределения вероятностей для биномиального распределения или другими словами, обращение этой формулы. Для нахождения Р-значения при проверке нулевой гипотезы Н0 о равенстве параметра h некоему определенному значению h*: Но: h=h* нужно вычислить вероятность получить наблюдаемое (выборочное) значение hнабл. при условии, что Н0 верна, и к нему добавить вероятности получить все другие значения, еще менее вероятные (при том же условии справедливости Н0). А для нахождения границ ДИ надо выражение для суммы таких вероятностей приравнять заранее выбранному значению a/2 и решить такое уравнение относительно h.
Так же легко понять суть метода Wilson. Он есть решение квадратного уравнения (hнабл ? h*)/{sqrt[hнабл(1-hнабл)/N]}= +_ za/2. Его надо решить относительно h* в качестве неизвестного. При возведении этого выражения в квадрат достаточно его легко преобразовать к каноническому виду квадратного уравнения типа ax2 + bx + с = 0. Два его корня и есть границы искомого ДИ.

Цитата(плав @ 18.10.2008 - 10:09) *
В целом. Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите, а то, право слово, постоянные ссылки на "великого Колмогорова" и "р=0,001" уже утомили (кстати, а граница р=0,0015 Вас чем не устраивает? А?).


Совершенно верно: фиксированные значения α=0,01; α=0,001 и т.п. являются лишь некими вешками, ориентирами. Ср.: ?Никакой отдельно взятый эксперимент, как бы значим он ни был сам по себе, не может считаться достаточным для доказательства какого-либо реального факта ? ?один шанс на миллион? все равно будет обязательно осуществляться не реже и не чаще, чем ему положено, как бы мы ни удивлялись, произойди такое с нами?. Р. А. Фишер. Математика дамы, дегустирующей чай. В сб.: Современные проблемы математики. ? М.: Знание, 1981.
Забавно, как возникли эти злополучные пресловутые 0,05; 0,01. М. Кендалл вспоминал, что Фишер составил таблицы критических значений (для уровней значимости 0,05; 0,02 и 0,01) из соображений компактности и удобства пользования, а также с целью избежать проблемы авторства с Карлом Пирсоном, которого он недолюбливал.
При обсуждении ?гибких? Р-значений авторы обычно ссылаются все на того же Фишера: ?В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений?. R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956.
Мой Учитель по генетике Михаил Ефимович Лобашёв говаривал: ?Делайте все, что хотите, только не забывайте о последствиях и об ответственности?.

О полезном. Предлагаю модераторам попытаться совместными усилиями создать современное руководство по аналитической статистике. Наш опыт показывает, что лучше всего работать коллективом. Пусть будет хоть 10-20 авторов, но надо придти к консенсусу и выдать на-гора достойный продукт.
?Вероятность того, что кто-то одновременно является математиком и естествоиспытателем и что такой человек захочет и сумеет написать учебник, настолько мала, что таких специалистов следует специально разыскивать по всей планете, чтобы встретить такой редкий случай?
Штейнгауз Г. Математика ? посредник между духом и материей. ? М.: БИНОМ. Лаборатория знаний, 2005. ? 351 с.

Всем всех благ. С уважением, Никита Николаевич Хромов-Борисов. Nikita.KhromovBorisov@gmail.com
PS Забыл еще упомянуть, что я член Общественного экспертного совета по статистике, организованного Василием Петровичем Леоновым, членом которого является и уважаемый

Сообщение отредактировал плав - 14.08.2010 - 12:24
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Naum   Доверительный интервал долей в Excel   28.09.2008 - 20:48
- - Игорь   Цитата(Naum @ 28.09.2008 - 20:48) По...   29.09.2008 - 08:13
- - DoctorStat   Объем выборки равен n=567. Количество больных в вы...   29.09.2008 - 10:38
- - плав   На самом деле ответ на вопрос, как считать доверит...   29.09.2008 - 11:57
- - Игорь   Цитата(плав @ 29.09.2008 - 11:57) На...   29.09.2008 - 13:48
|- - плав   Цитата(Игорь @ 29.09.2008 - 14:48) Н...   29.09.2008 - 20:46
- - Naum   Цитата(DoctorStat @ 29.09.2008 - 12...   29.09.2008 - 20:01
|- - Nikita   Цитата(Naum @ 29.09.2008 - 20:01) Сп...   17.10.2008 - 02:05
|- - плав   Цитата(Nikita @ 17.10.2008 - 03:05) ...   18.10.2008 - 10:09
|- - Nikita   Цитата(плав @ 18.10.2008 - 10:09) Пр...   19.10.2008 - 15:35
|- - плав   Цитата(Nikita @ 19.10.2008 - 16:35) ...   19.10.2008 - 21:18
- - Игорь   Пару-тройку реплик, если можно. Цитата(Nikita ...   19.10.2008 - 16:28
- - Nikita   Я перед Плав повинился, а Плав струсил. Хотя ничто...   23.10.2008 - 19:23
- - плав   1) Ну вот, опять очень хочется доказать, что работ...   24.10.2008 - 00:08
- - Nikita   Jonathan A C Sterne, George Davey Smith. Sifting ...   27.10.2008 - 00:35
- - плав   Цитата(Nikita @ 27.10.2008 - 00:35) ...   29.10.2008 - 16:17


Тема закрытаОткрыть тему