![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Уважаемые коллеги. К сожалению, у нас нет вопросов на форум (точнее, они, безусловно есть, но не о них речь).
Специалисты насчитывают сотни тысяч изданных книг по мат. статистике. И обычный читатель вряд ли в состоянии одолеть хотя бы 2% из них. Но мы пошли на риск и начали писать еще одну книгу "Рандомизация, бутстреп и методы Монте-Карло. Примеры статистического анализа данных по биологии и экологии." Написали три главы и по ряду причин сочли разумным выложить для свободного прочтения ее неполный вариант. Во-первых, время не ждет. Во-вторых, эти три первые главы имеют, в некотором смысле, общедисциплинарный характер и могут быть интересны и биологам, и экономистам, и врачам. Далее будут описаны многомерные методы, а они в значительной мере имеют экологическую специфику. И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это). Часть примеров была подготовлена в статистической среде R (скрипты представлены в приложении). Мы не имеем здесь совсем мало опыта и надеемся на доброжелательную критику специалистов в этой области. Кроме того, "Остапа часто несло" ![]() А аспирантам по различным биологиям и медицинам новый взгляд на статистические вещи может быть весьма полезен. А пока не сочтите за труд зайти на http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm и скачать файл "Рандомизация, бутстреп и все, все, все..." в формате Acrobat Reader. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Мне представляется недостатком, что число перевыборок Вы просто принимаете равным 5000 или 10000. Это должно каждый раз доказываться сходимостью (с соответствующей оценкой точности полученного результата).
![]() |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Мне представляется недостатком, что число перевыборок Вы просто принимаете равным 5000 или 10000. Это должно каждый раз доказываться сходимостью (с соответствующей оценкой точности полученного результата). Замечание важное. На стр. 27 я пишу об эмпирических соотношениях, полученных Эджингтоном, что уже при числе перевыборок около 1000 разумная точность в 3 знаке тестируемой статистики почти гарантируется. Но какова технология проверить Эджингтона? Что является критерием достаточности итераций? Скажем так. Принимаем за критерий постоянство значений смещения (bias). Задаемся числом итераций В, например, 100, 200, 500, 1000, 2500, 5000, 10000. Для каждого В выполняем, например, по 10 повторностей (каждая процедура бутстрепа возвращает несколько иные результаты). На каждом шаге выполняем проверку гипотезы о равенстве среднего смещения относительно полученного на предыдущем шаге. Но где гарантия того, что гипотеза не отклонится уже при В=100? Но будет отклоняться при В=1000. Кто гарантирует монотонность сходимости процесса? Есть ли где-нибудь программные продукты (скрипты)? И еще. Мне уважаемые TheThing и nokh обещали показать теоретически выдержанное словесное определение доверительного интервала. Напомню, что я изложил это, как " .... в параметрическом пространстве выделяются границы области возможных значений оценок, соответствующие заданной вероятности. Доверительный интервал ? статистический показатель, позволяющий оценить с надежностью гамма, в каких пределах может находиться истинное значение параметра в популяции." Согласен, коряво. Во-первых, не отражено то, что этот интервал считается случайным, поскольку он основан исключительно на выборке (а вот и нет!!! еще и на предположениях о законе распределения генеральной совокупности!!!). Во-вторых, не отражено, что истинное значение параметра неслучайно, т.е. константа. Боровков (стр. 254) считает, что говорить "может находиться" менее аккуратно для неслучайной величины, чем "накрыл" эту неслучайную величину. Все это - так себе казуистика: если нам не известны ни закон распределения генеральной совокупности, ни способ вычисления этого истинного параметра, то суждение, что он - неслучаен, нам ничего, кроме отвлеченных раздумий не дает. Какая нам разница, параметр - случайная или неслучайная химера?. Но это все треп. Как бы то не было, толковое определение нужно. |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Замечание важное. На стр. 27 я пишу об эмпирических соотношениях, полученных Эджингтоном, что уже при числе перевыборок около 1000 разумная точность в 3 знаке тестируемой статистики почти гарантируется. Но какова технология проверить Эджингтона? Что является критерием достаточности итераций? Скажем так. Принимаем за критерий постоянство значений смещения (bias). Задаемся числом итераций В, например, 100, 200, 500, 1000, 2500, 5000, 10000. Для каждого В выполняем, например, по 10 повторностей (каждая процедура бутстрепа возвращает несколько иные результаты). На каждом шаге выполняем проверку гипотезы о равенстве среднего смещения относительно полученного на предыдущем шаге. Но где гарантия того, что гипотеза не отклонится уже при В=100? Но будет отклоняться при В=1000. Кто гарантирует монотонность сходимости процесса? Есть ли где-нибудь программные продукты (скрипты)? скрипт не представляет проблемы допустим надо оценить какой то параметр (в данном случае "нижнюю" границу 95% доверительного интервала) Код > data.b<-t(replicate(20,sapply(lapply(c(100,200,300,400,800,1600,3200), # число выборок для которых #считается плотность распределения параметр function(i) colMeans(replicate(i, sample(data.orig, replace=TRUE)))), function(i) sort(i)[round(length(i)*0.025)]))) > densityplot(~value, data=melt(data.b), group=X2) Это просто нереально отредактировать с этим ява скриптовым редактором который лезет заменять все табами ![]() по моему Вы слишком оптимистичны о скорости схождения. Что бы получить в данной простой схеме бутстрепа 3 значащих цифры понадобится существенно больше 100000 перевыборок. вот для c(5000,10000,20000,40000,80000) ... и для c(80000,160000,320000,640000,1200000) PS вот можно и напрямую разности между результатами посчитать Код data.b<-t(replicate(20,sapply(lapply(c(80000,160000,320000,640000,1200000), function(i)colMeans(replicate(i, sample(data.orig, replace=TRUE)))), function(i) sort(i)[round(length(i)*0.025)])))
boxplot(sapply(1:9, function (i) (abs(outer(data.b[,i], data.b[,i], FUN="-")[upper.tri(outer(data.b[,i], data.b[,i], FUN="-"))])))) Сообщение отредактировал p2004r - 16.08.2012 - 17:47 ![]() |
|
![]() |
![]() |
![]() ![]() |