Цитата(плав @ 18.10.2008 - 10:09)

Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете
А) Критик этого не попробовал - у него была другая задача.
Б) ? просто плохое знание применимости разных методов. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает). При желании автор мог бы указать ?
?даже крупный специалист по критике чужих статистических методов может разобраться?
Г) Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрубились бы скачать указанные в посте выше ссылки и поняли бы?
Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите ?
О tempora, o mores!
Стыд-то какой! Стиль-то какой! Фи? Не хватало нам еще подраться? Давайте, не будем позориться, а то так мы с Вами всех форумчан распугаем. Мы спокойно можем встретиться ? благо живем в одном городе ? и обсудить спорные вопросы, смотря в глаза друг другу.
Глубокоуважаемый ..., приношу Вам свои наиглубочайшие и наиискреннейшие соболезнования. Обещаю впредь не давать повода для такой неадекватной реакции.
Но и от Вас я требую незамедлительно и публично извиниться предо мной. После этого забудем этот неприличный казус как страшный сон (и на плавуху бывает проруха).
Возможно мне следовало представиться раньше. Исправляю оплошность. Я, Никита Николаевич Хромов-Борисов, дважды ветеран (войны и труда), химик, генетик и биометрик, соавтор учебника ?Биометрия? и автор ?биометрического? Приложения к учебнику Л.З. Кайданова ?Генетика популяций?. ?Биометрия? награждена дважды: Университетской премией и дипломом Минобраза СССР. Если не 40, то уж всяко больше 30-и лет я преподаю биометрию разного уровня сложности (читаю лекции, веду практикумы и консультации по биометрии) для биологов и медиков. Не только в СПбГУ, но и в Бразилии (около 5 лет) и в Швеции (3 месяца). Да и соавторы у меня достойные:
Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. ? 264 с.
?Один из лучших российских учебников по биометрике. В нем рассмотрены все основные статистические методы, применяемые при анализе биомедицинских данных. Авторы учебника - известные специалисты по биометрике, преподающие в российских и зарубежных университетах и занимающиеся научными исследованиями в данной области? (В.П. Леонов).
http://www.biometrica.tomsk.ru/ Хромов-Борисов Н.Н. Биометрические аспекты популяционнной генетики. Новые генетические механизмы и их роль в генетико-популяционных процессах. Список рекомендуемой литературы. В кн.: Кайданов Л.З. Генетика популяций. ? М.: Высшая школа, 1996. - 320c.
?Без преувеличения можно сказать, что это лучший учебник по генетике популяций! Интересен он еще и тем, что Приложение в этом учебнике содержит 50 страниц посвященных биометрическим аспектам популяционной генетики. Автор Приложения - Н.Н.Хромов-Борисов, который несколько лет проработал в одном из бразильских университетов. Настоятельно рекомендую всем нашим читателям обязательно познакомиться с этим Приложением! Оно написано специалистом, влюбленным в свой предмет! Вы найдете здесь многочисленные исторические экскурсы о выдающихcя ученых, оставивших свой след в популяционной биометрике. Заслуживает внимания и эпиграф к этим Приложениям: "К статистике давно в душе питаю страсть я, И геология внушает мне участье..." Кто автор этих строк, вы узнаете, прочитав этот прекрасный учебник? (В.П. Леонов).
http://www.biometrica.tomsk.ru/ Н.В.Глотов, А.А.Филатов, Н.Н. Хромов-Борисов. Сборник задач по биометрии. - Л.: Изд-во Ленингр. ун-та, 1985. ? 98 с.
Недавняя изящная работа о красоте в науке: Хромов-Борисов Н. Н., Saffi J., Henriques J. A. P. Упорядоченный посев и пуассонер ? высокоточная техника количественной микробиологии. Медицина. XXI век ? 2 {11} 2008. ? С. 92-97.
Хромов-Борисов Н.Н., Лаззаротто Г.Б., Кист Т.Б.Л. Биометрические задачи в популяционных исследованиях. Методы популяционной биологии (Материалы докладов VII Всероссийского популяционного семинара (Часть 2). 16-21 февраля 2004 г. Сыктывкар. С. 62-86.
Smolyanitsky A. G., Ivanov P. L., Kornienko L. V., Zamaraev V. S., Perepechina I. O., Komarovsky Yu. A., Pushkarev V. P. Towards Russian reference population data on STR loci. International Congress Series, Vol. 1261, Progress in Forensic Genetics, 2004. V.10, 242-242.
Smolyanitsky A. G., Popov V. L., Zaslavsky G. I., Rogozin I. B., Henriques J. A. P., Kist T. B. L., Scheil H.-G. Statistical pattern analysis of D1S80 alleles in Northwestern Russians and worldwide database using COLLAPSE software. International Congress Series, Vol. 1239, Progress in Forensic Genetics, 2003, V. 9, p. 665-671.
Picada J. N., Henriques J. A. P., Khromov-Borisov N.N. Dose finding in the Ames Salmonella assay. Mutation Res., 2000, V. 435, p. 36-47.
Khromov-Borisov N.N., Rogozin I. B., Henriques J. A. P., de Serres F. J. Similarity pattern analysis in mutational distributions. Mutation Res., 1999, V. 430, p. 55-74.
Khromov-Borisov N.N., Henriques J.A.P. Good statistics practice (GSP) in genetic toxicology. Mutation Res., 1998, V. 405, p. 97-108. Erratum: Mutation Res., 1999, V. 423, 189.
Ivashchenko T.E., Glazkov P.B., Baranov V.S., Khromov-Borisov N.N. Population study of CTG trinucleotide repeats in the gene for myotonic protein kinase I. Russian. J. Genet., 1997, V. 33, p.1098-1101.
Khromov-Borisov N. N. Biometrical aspects of measuring mutation rates. Methods in Cell Biology, 1978, Vol. 20, p. 20-24.
Компьютерные программы:
И.Б.Рогозин, Хромов-Борисов Н.Н. COLLAPSE ? анализ паттерна сходства в популяционных данных.
Khromov-Borisov N.N. Kist T.B.L., Lazzarotto G.B. SANCT ? structural analysis of contingency tables.
Kochetkov N.K., Budowsky E.I., Domkin V.D., Khromov-Borisov N.N. On the structure of polynucleotides obtained by condensation of nucleoside-2?(3?)-phosphates with polyphosphoric ester. Biochim. Biophys. Acta, 1964, V. 80, N 1, p.145-148.
Переводы книг:
Нолтинг Б. Новейшие методы исследования биосистем. ? М.: Техносфера, 2005. ? 245 с.
Сомпайрак Л. Что такое рак? - М.: Техносфера, 2006. ? 230 с.
МакКонки Э. Геном человека. ? М.: Техносфера, 2008. ? 287 с.
Цитата(плав @ 18.10.2008 - 10:09)

Прежде, чем начинать поучать всех рекомендую хоть немного смотреть на то, что критикуете. Ваша позиция (1) я умный, (2) все остальные дураки, доводит Вас до глупых ошибок и выставляет Вас как раз в обратном свете
А) "Программка приучает пользователя использовать только одну (снисходительную) вероятность " - любой, кто попытался бы немного посмотреть на экселевский файл обнаружил бы, что ширина доверительного интервала (ячейка H1) легко меняется. Критик этого не попробовал - у него была другая задача.
Программу Clopper.xls скачали уже почти 40 человек. Господа, поднимите руки, кто из Вас догадался, что именно ячейка H1, а не ячейка D2 предназначена для задания доверительного уровня (синоним: доверительная вероятность). [Плав, извините, ?ширина? ДИ ? это нечто иное]. Я не догадался и безуспешно пытался изменить содержимое ячейки D2. Так что, Плав, признаю ? я был неправ. Но где гарантия, что другие форумчане тоже такие недогадливые? Очевидно, что нужна некая поясняющая сопроводиловка.
Цитата(плав @ 18.10.2008 - 10:09)

Б) "Подставьте в нее N=10 (или даже 100) и k=0 и увидите" просто плохое знание применимости разных методов. При нулевом количестве положительных исходов, да и вообще при близком к нулю и единице, биномиальные вероятности не применимы - надо пользоваться распределением Пуассона. Критик этого не знает? но тогда он занимается не своим делом, либо знает, но ему очень хочется показать, какой он умный за счет других (кстати, это видно и во всех других постах, но на вопросы автор никогда не отвечает).
Отнюдь. Общеизвестна формула для вычисления вероятности k ?успехов? при N испытаниях в схеме Бернулли с параметром h (который есть вероятность ?успеха?):
p(k)={N!/[k!(N-k)]!} h
k(1-h)
N-k. По определению: x! (факториал x) есть произведение: x(x-1)(x-2)?1. При этом 0! = 1.
Подставим в эту формулу N и k=0 и получим:
p(0) = Pr{k=0} = {N!/[0!(N-0)!]} h
0(1-h)
N-0. По определению: z
0 = 1. Следовательно p(0)=(1-h)
N.
Теперь мы можем построить ТОЧНЫЙ двухсторонний (1-a)x100% ДИ для НЕИЗВЕСТНОГО параметра h. Как обычно выбираем ДИ с равными ?хвостами?. Это означает, что вероятности ненакрытия оцениваемого (неизвестного нам) параметра этим интервалом слева и справа от него одинаковы и равны a/2.
Полагаем (1-h)
N = a/2 и решаем это уравнение относительно. В результате получаем выражение для правой (верхней) границы искомого интервала: h
right=1-(a/2)
1/N. Левая (нижняя) граница очевидно равна нулю: h
left=0.
Итак, границами искомого ДИ для частного случая, когда k=0, являются:
[0; 1-(a/2)
1/N].
Это и есть частный, но наглядный пример того, как работает процедура Клоппера-Пирсона для построения ТОЧНЫХ ДИ для параметра распределения Бернулли .
Краткая, четкая и ясная статья на эту тему есть в Wiki:
http://en.wikipedia.org/wiki/Binomial_prop...idence_intervalНо ссылки на web-калькуляторы тут далеко не лучшие.
Повторяю, это ? ТОЧНОЕ решение. Все остальные, основанные на известной АППРОКСИМАЦИИ биномиального распределения нормальным распределением в случае больших значений Nh(1-h), или основанные на аппроксимации биномиального распределения распределением Пуассона в случае малых значений Nh неизбежно являются ПРИБЛИЖЕННЫМИ, отнюдь не точными.
Как давно подметили Логин Николаевич Большев и Николай Васильевич Смирнов в своем гениальном труде ?Таблицы математической статистики?: ?С точки зрения обычных требований вычислительной математики и математической статистики точность нормального и пуассоновского приближений следует признать недостаточной (название этих приближений ?удовлетворительными? во многих вероятностных и статистических приложениях является следствием снисходительности авторов и часто основано на небольшом количестве удачно подобранных примеров, демонстрирующих ?удовлетворительное согласие? (3-е изд., 1983. - с. 68).
При желании автор мог бы указать, что при k=0 просто нельзя пользоваться оценкой долей, равной k/N, а надо пользоваться, например, методом Лапласа, но он, вероятно, этого просто не знает.
Отнюдь. При k=0, k/N есть точечная оценка для доли, и никакого запрета на ее использование не существует.
Оценка по Лапласу (k+1)/(N+2) относится к Бейзовской идеологии и методологии.
На русском языке это хорошо изложено в книге Борель Эм., Дельтейль Р., Юрон Р. Вероятности, ошибки. Пер. с франц. А.Л.Вайнштейна и Н.С.Четверикова. Серия ``Библиотечка иностранных книг для экономистов и статистиков``. М.: Статистика, 1972г. 176 с.
Цитата(плав @ 18.10.2008 - 10:09)

В) "создатели программ обязаны приводить в явном виде формулы" - между прочим, в Экселе формулы представлены в явном виде. Если неизвестно, что можно щелкнуть по ячейке и вся формула появится, даже крупный специалист по критике чужих статистических методов может разобраться.
Как это нередко бывает, тут спор о словах: что считать ?явным видом?, т.е. наглядным и доступным пониманию. Дорогие форумчане, поднимите руки, кто из Вас способен сходу разобраться в подобных экселевских формула?
Немаловажно также, чтобы ячейки с вычислительными формулами были бы защищены.
Цитата(плав @ 18.10.2008 - 10:09)

Г) Неоднократное повторение идеи о преимуществе метода Клоппера-Пирсона на чем-нибудь основывается? Дайте, пожалуйста, ссылку на свою работу, опубликованную в приличном журнале, где бы Вы доказали (например, Монте-Карло), что этот метод лучше? Потрудились бы скачать указанные в посте выше ссылки и поняли бы, что в литературе присутствует иное мнение.
Есть гораздо более серьезные и глубокие сравнительные исследования. В указанной Игорем работе Pires, Amado обсуждаются 20 методов:
Pires A.M., Amado C. Interval estimators for a binomial proportion: Comparison of twenty methods // REVSTAT - Statistical Journal, June 2008, vol. 6, no. 2, pp. 165-197.
Доступна по адресу:
http://www.ine.pt/revstat/pdf/rs080204.pdfНаиболее серьезными являются:
Brown, L.D., Cai, T. & DasGupta, A. (2001). Interval estimation for a binomial proportion (with discussion). Statistical Science 16, 101-133.
Brown, L.D., Cai, T. & DasGupta, A. (2002). Confidence intervals for a binomial proportion and asymptotic expansions. The Annals of Statistics 30, 160-201.
Они свободно доступны по адресам:
http://www-stat.wharton.upenn.edu/~tcai/pa...al-StatSci.htmlhttp://www-stat.wharton.upenn.edu/~tcai/pa...ial-Annals.htmlНовейшие работы:
Frank TUYL, Richard GERLACH, Kerrie MENGERSEN A Comparison of Bayes?Laplace, Jeffreys, and Other Priors: The Case of Zero Events. The American Statistician, February 2008, Vol. 62, No. 1, p. 40-44.
Диссертация: Frank Tuyl Estimation of binomial parameter: In defence of Bayes (1763). Scholl of Mathematics and Physical Sciences, The University of Newcastle, 2007. ? 369 pp.
Вопросы обучения обсуждают:
Michael Henderson; Mary C. Meyer Exploring the Confidence Interval for a Binomial Parameter in a First Course in Statistical Computing. The American Statistician, Vol. 55, No. 4. (Nov., 2001), pp. 337-344.
Кое-что полезное можно почерпнуть у румын:
Tudor DRUGAN, Sorana BOLBOACĂ, Lorentz JANTSCHI, Andrei ACHIMAŞ CADARIU Binomial Distribution Sample Confidence Intervals Estimation. 1. Sampling and Medical Key Parameters Calculation. Leonardo Electronic Journal of Practices and Technologies, Issue 3, July-December 2003, p. 45-74.
Sorana-Daniela BOLBOACĂ, Andrei B. ACHIMAŞ CADARIU, Binomial Distribution Sample Confidence Intervals Estimation 2. Proportion-like Medical Key Parameters,
Leonardo Electronic Journal of Practices and Technologies, 2:3 (July-December), 2003, p. 75-110.
Доступны по адресам:
http://lejpt.academicdirect.org/A03/045_074.pdfhttp://lejpt.academicdirect.org/A03/075_110.pdfhttp://lejpt.academicdirect.org/A03/075_110.htmhttp://lori.academicdirect.org/http://sorana.academicdirect.ro/У них же есть некий софт.
Если кого интересует, моя коллекция статей только про ДИ для долей превышает 100 Mb. Могу прислать ? не консервировать же мне их.
Да, еcть работы Agresti, уже в заголовке которых объявляется, что приближенное ?лучше? точного:
Agresti A., Coull B.A. Approximate is better than ??exact?? for interval estimation of binomial proportions. The American Statistician 1998; 52: 119?26.
Agresti A. Dealing with discreteness: making ?exact? confidence intervals for proportions, diferences of proportions, and odds ratios more exact. StatisticalMethods in Medical Research 2003; 12: 3-21.
Многое из того, что он рекомендует, реализовано в StatXact. Но как во всем этом разобраться пользователю? Речь идет не только о ДИ для долей, но и для их разностей, отношений (RR) и для отношений шансов (OR). Поэтому, если что-то рекомендовать, то очевидно надо рекомендовать более или менее универсальное.
Вот таким достаточно универсальным и является метод Клоппера-Пирсона. С ним не надо заморачиваться с тем, какие значения Nh(1-h) можно считать настолько ?большими?, чтобы можно было безбоязненно применять нормальную аппроксимацию; какие Nh можно считать настолько ?малыми?, чтобы можно было безбоязненно применять пуассоновскую аппроксимацию. При этом для различных доверительных вероятностей эти решения получаются различными.
Чем озабочены математики? Тем, что точные ДИ являются консервативными, т.е. часто получаемые границы накрывают оцениваемый параметр h с вероятностью, большей, нежели номинальное (заранее выбранное) 1-a. Но в наших делах лучше ?перестраховаться?, т.е. быть немного консерваторами, чем пытаться ?улучшить?, т.е. подогнать эту вероятность поближе к вожделенному 1-a.
В этой связи стоит прислушаться к мнению Cyrus Mehta и др. - крупнейших специалистов по точным методам статистики, создателей StatXact:
?Мы считаем, везде, где это только возможно, лучше сообщать точное Р-значение. Оно может быть консервативным, но оно же гарантирует удержание предела для вероятности ошибки первого рода на требуем уровне? (Руководство к StatXact-8, c. 1235).
Если озаботиться дидактическим аспектом проблемы, то именно метод Клопера-Пирсона разъяснить достаточно просто. Его суть ? ?выворачивание наизнанку? формулы для распределения вероятностей для биномиального распределения или другими словами, обращение этой формулы. Для нахождения Р-значения при проверке нулевой гипотезы Н
0 о равенстве параметра h некоему определенному значению h*: Но: h=h* нужно вычислить вероятность получить наблюдаемое (выборочное) значение h
набл. при условии, что Н
0 верна, и к нему добавить вероятности получить все другие значения, еще менее вероятные (при том же условии справедливости Н
0). А для нахождения границ ДИ надо выражение для суммы таких вероятностей приравнять заранее выбранному значению a/2 и решить такое уравнение относительно h.
Так же легко понять суть метода Wilson. Он есть решение квадратного уравнения (h
набл ? h*)/{sqrt[h
набл(1-h
набл)/N]}= +_ z
a/2. Его надо решить относительно h* в качестве неизвестного. При возведении этого выражения в квадрат достаточно его легко преобразовать к каноническому виду квадратного уравнения типа ax
2 + bx + с = 0. Два его корня и есть границы искомого ДИ.
Цитата(плав @ 18.10.2008 - 10:09)

В целом. Прежде, чем критиковать, разберитесь в том, о чем идет речь. Хотите, чтобы на вас обратили внимание - не критикуйте других, а сделайте что-нибудь полезное, ответьте на вопросы, которые возникают у аспирантов, приходящих на этот форум. Если не можете ответить, тогда лучше ничего не пишите, а то, право слово, постоянные ссылки на "великого Колмогорова" и "р=0,001" уже утомили (кстати, а граница р=0,0015 Вас чем не устраивает? А?).
Совершенно верно: фиксированные значения α=0,01; α=0,001 и т.п. являются лишь некими вешками, ориентирами. Ср.: ?Никакой отдельно взятый эксперимент, как бы значим он ни был сам по себе, не может считаться достаточным для доказательства какого-либо реального факта ? ?один шанс на миллион? все равно будет обязательно осуществляться не реже и не чаще, чем ему положено, как бы мы ни удивлялись, произойди такое с нами?. Р. А. Фишер. Математика дамы, дегустирующей чай. В сб.: Современные проблемы математики. ? М.: Знание, 1981.
Забавно, как возникли эти злополучные пресловутые 0,05; 0,01. М. Кендалл вспоминал, что Фишер составил таблицы критических значений (для уровней значимости 0,05; 0,02 и 0,01) из соображений компактности и удобства пользования, а также с целью избежать проблемы авторства с Карлом Пирсоном, которого он недолюбливал.
При обсуждении ?гибких? Р-значений авторы обычно ссылаются все на того же Фишера: ?В действительности ни один исследователь не пользуется фиксированным уровнем значимости с которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы. Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений?. R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956.
Мой Учитель по генетике Михаил Ефимович Лобашёв говаривал: ?Делайте все, что хотите, только не забывайте о последствиях и об ответственности?.
О полезном. Предлагаю модераторам попытаться совместными усилиями создать современное руководство по аналитической статистике. Наш опыт показывает, что лучше всего работать коллективом. Пусть будет хоть 10-20 авторов, но надо придти к консенсусу и выдать на-гора достойный продукт.
?Вероятность того, что кто-то одновременно является математиком и естествоиспытателем и что такой человек захочет и сумеет написать учебник, настолько мала, что таких специалистов следует специально разыскивать по всей планете, чтобы встретить такой редкий случай?
Штейнгауз Г. Математика ? посредник между духом и материей. ? М.: БИНОМ. Лаборатория знаний, 2005. ? 351 с.
Всем всех благ. С уважением, Никита Николаевич Хромов-Борисов. Nikita.KhromovBorisov@gmail.com
PS Забыл еще упомянуть, что я член Общественного экспертного совета по статистике, организованного Василием Петровичем Леоновым, членом которого является и уважаемый