Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Рандомизация, бутстреп и методы Монте-Карло, Примеры статистического анализа данных по биологии и экологии
stok1946
сообщение 8.08.2012 - 07:51
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Уважаемые коллеги. К сожалению, у нас нет вопросов на форум (точнее, они, безусловно есть, но не о них речь).

Специалисты насчитывают сотни тысяч изданных книг по мат. статистике. И обычный читатель вряд ли в состоянии одолеть хотя бы 2% из них.
Но мы пошли на риск и начали писать еще одну книгу "Рандомизация, бутстреп и методы Монте-Карло. Примеры статистического анализа данных по биологии и экологии."
Написали три главы и по ряду причин сочли разумным выложить для свободного прочтения ее неполный вариант. Во-первых, время не ждет. Во-вторых, эти три первые главы имеют, в некотором смысле, общедисциплинарный характер и могут быть интересны и биологам, и экономистам, и врачам. Далее будут описаны многомерные методы, а они в значительной мере имеют экологическую специфику. И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это).
Часть примеров была подготовлена в статистической среде R (скрипты представлены в приложении). Мы не имеем здесь совсем мало опыта и надеемся на доброжелательную критику специалистов в этой области. Кроме того, "Остапа часто несло" smile.gif , и в результате некоторые наши обороты могут быть статистически неполиткорректными. Мы надеемся, что закаленные в "терминологических битвах" и умудренные товарищи нас поправят.
А аспирантам по различным биологиям и медицинам новый взгляд на статистические вещи может быть весьма полезен.
А пока не сочтите за труд зайти на
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm
и скачать файл "Рандомизация, бутстреп и все, все, все..." в формате Acrobat Reader.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 14.08.2012 - 00:23
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Мне представляется недостатком, что число перевыборок Вы просто принимаете равным 5000 или 10000. Это должно каждый раз доказываться сходимостью (с соответствующей оценкой точности полученного результата).



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
stok1946
сообщение 15.08.2012 - 18:32
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Цитата(p2004r @ 14.08.2012 - 01:23) *
Мне представляется недостатком, что число перевыборок Вы просто принимаете равным 5000 или 10000. Это должно каждый раз доказываться сходимостью (с соответствующей оценкой точности полученного результата).

Замечание важное. На стр. 27 я пишу об эмпирических соотношениях, полученных Эджингтоном, что уже при числе перевыборок около 1000 разумная точность в 3 знаке тестируемой статистики почти гарантируется.
Но какова технология проверить Эджингтона? Что является критерием достаточности итераций?
Скажем так. Принимаем за критерий постоянство значений смещения (bias). Задаемся числом итераций В, например, 100, 200, 500, 1000, 2500, 5000, 10000. Для каждого В выполняем, например, по 10 повторностей (каждая процедура бутстрепа возвращает несколько иные результаты). На каждом шаге выполняем проверку гипотезы о равенстве среднего смещения относительно полученного на предыдущем шаге.
Но где гарантия того, что гипотеза не отклонится уже при В=100? Но будет отклоняться при В=1000. Кто гарантирует монотонность сходимости процесса? Есть ли где-нибудь программные продукты (скрипты)?

И еще. Мне уважаемые TheThing и nokh обещали показать теоретически выдержанное словесное определение доверительного интервала. Напомню, что я изложил это, как
" .... в параметрическом пространстве выделяются границы области возможных значений оценок, соответствующие заданной вероятности. Доверительный интервал ? статистический показатель, позволяющий оценить с надежностью гамма, в каких пределах может находиться истинное значение параметра в популяции." Согласен, коряво. Во-первых, не отражено то, что этот интервал считается случайным, поскольку он основан исключительно на выборке (а вот и нет!!! еще и на предположениях о законе распределения генеральной совокупности!!!).
Во-вторых, не отражено, что истинное значение параметра неслучайно, т.е. константа. Боровков (стр. 254) считает, что говорить "может находиться" менее аккуратно для неслучайной величины, чем "накрыл" эту неслучайную величину. Все это - так себе казуистика: если нам не известны ни закон распределения генеральной совокупности, ни способ вычисления этого истинного параметра, то суждение, что он - неслучаен, нам ничего, кроме отвлеченных раздумий не дает. Какая нам разница, параметр - случайная или неслучайная химера?.
Но это все треп. Как бы то не было, толковое определение нужно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 15.08.2012 - 23:59
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(stok1946 @ 15.08.2012 - 18:32) *
Замечание важное. На стр. 27 я пишу об эмпирических соотношениях, полученных Эджингтоном, что уже при числе перевыборок около 1000 разумная точность в 3 знаке тестируемой статистики почти гарантируется.
Но какова технология проверить Эджингтона? Что является критерием достаточности итераций?
Скажем так. Принимаем за критерий постоянство значений смещения (bias). Задаемся числом итераций В, например, 100, 200, 500, 1000, 2500, 5000, 10000. Для каждого В выполняем, например, по 10 повторностей (каждая процедура бутстрепа возвращает несколько иные результаты). На каждом шаге выполняем проверку гипотезы о равенстве среднего смещения относительно полученного на предыдущем шаге.
Но где гарантия того, что гипотеза не отклонится уже при В=100? Но будет отклоняться при В=1000. Кто гарантирует монотонность сходимости процесса? Есть ли где-нибудь программные продукты (скрипты)?


скрипт не представляет проблемы

допустим надо оценить какой то параметр (в данном случае "нижнюю" границу 95% доверительного интервала)


Код
> data.b<-t(replicate(20,sapply(lapply(c(100,200,300,400,800,1600,3200), # число выборок для которых
     #считается плотность распределения параметр
            function(i) colMeans(replicate(i, sample(data.orig, replace=TRUE)))), function(i) sort(i)[round(length(i)*0.025)])))

> densityplot(~value, data=melt(data.b), group=X2)


Это просто нереально отредактировать с этим ява скриптовым редактором который лезет заменять все табами frown.gif(

по моему Вы слишком оптимистичны о скорости схождения. Что бы получить в данной простой схеме бутстрепа 3 значащих цифры понадобится существенно больше 100000 перевыборок.

вот для c(5000,10000,20000,40000,80000)

... и для c(80000,160000,320000,640000,1200000)

PS вот можно и напрямую разности между результатами посчитать

Код
data.b<-t(replicate(20,sapply(lapply(c(80000,160000,320000,640000,1200000), function(i)colMeans(replicate(i, sample(data.orig, replace=TRUE)))), function(i) sort(i)[round(length(i)*0.025)])))

boxplot(sapply(1:9, function (i) (abs(outer(data.b[,i], data.b[,i], FUN="-")[upper.tri(outer(data.b[,i], data.b[,i], FUN="-"))]))))


Сообщение отредактировал p2004r - 16.08.2012 - 17:47
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение

 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
stok1946
сообщение 16.08.2012 - 21:05
Сообщение #5





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Цитата(p2004r @ 16.08.2012 - 00:59) *
скрипт не представляет проблемы

Тре бьен super.gif , т.е. очень хорошо и воспитательно. Картинки красивые, изменчивость (хотя и статистически незначимая) налицо. Но вот как насчет конечной цели - автоматического итеративного процесса подбора оптимального числа бутстреп-повторностей? И самое главное - каковы формальные правила останова или движения дальше. И чтоб на все случаи жизни... Мне-то не влом - машина железная и пусть пашет (пошел покурить - 1000000 настукало, в парке с пивком прогулялся - еще 10000000). smile.gif Но а все-таки, как оценить, сколько вешать в граммах?

Сообщение отредактировал stok1946 - 16.08.2012 - 21:07
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- stok1946   Рандомизация, бутстреп и методы Монте-Карло   8.08.2012 - 07:51
- - TheThing   Спасибо за труд! Думаю, книга должна получитьс...   9.08.2012 - 17:55
- - stok1946   Большое спасибо TheThing за добрые слова и внимани...   9.08.2012 - 22:18
|- - TheThing   Цитата(stok1946 @ 9.08.2012 - 22:18)...   10.08.2012 - 13:21
- - 100$   ЦитатаДело в том, что популяционное среднее, как и...   10.08.2012 - 14:25
|- - TheThing   Цитата(100$ @ 10.08.2012 - 14:2...   10.08.2012 - 17:12
|- - 100$   Цитата(TheThing @ 10.08.2012 - 17:12...   10.08.2012 - 23:08
|- - stok1946   Цитата(100$ @ 11.08.2012 - 00:0...   11.08.2012 - 09:57
||- - 100$   Цитата(stok1946 @ 11.08.2012 - 09:57...   11.08.2012 - 14:17
|||- - TheThing   Цитата(100$ @ 11.08.2012 - 14:1...   11.08.2012 - 14:45
|||- - 100$   Цитата(TheThing @ 11.08.2012 - 14:45...   11.08.2012 - 16:40
||- - pifagor   Цитата(stok1946 @ 11.08.2012 - 10:57...   1.09.2012 - 15:52
|- - TheThing   Цитата(100$ @ 10.08.2012 - 23:0...   11.08.2012 - 13:17
- - nokh   Цитата(stok1946 @ 8.08.2012 - 10:51)...   12.08.2012 - 22:28
- - stok1946   Глубокоуважаемый nokh! Искренне благодарен за ...   13.08.2012 - 19:50
|- - TheThing   Цитата(stok1946 @ 13.08.2012 - 19:50...   13.08.2012 - 21:20
||- - stok1946   Цитата(TheThing @ 13.08.2012 - 22:20...   14.08.2012 - 21:54
|- - nokh   Цитата(stok1946 @ 13.08.2012 - 22:50...   15.08.2012 - 18:52
- - p2004r   Мне представляется недостатком, что число перевыбо...   14.08.2012 - 00:23
|- - stok1946   Цитата(p2004r @ 14.08.2012 - 01:23) ...   15.08.2012 - 18:32
|- - p2004r   Цитата(stok1946 @ 15.08.2012 - 18:32...   15.08.2012 - 23:59
|- - stok1946   Цитата(p2004r @ 16.08.2012 - 00:59) ...   16.08.2012 - 21:05
|- - p2004r   Цитата(stok1946 @ 16.08.2012 - 21:05...   16.08.2012 - 21:37
- - 100$   Джентльмены! Не могу в литературе найти подска...   14.08.2012 - 15:20
- - pifagor   В книге на стр. 29 написано критерий Стьюдента-Кра...   1.09.2012 - 15:38
|- - stok1946   Цитата(pifagor @ 1.09.2012 - 16:38) ...   1.09.2012 - 23:15
|- - pifagor   Цитата(stok1946 @ 2.09.2012 - 00:15)...   2.09.2012 - 09:16
|- - stok1946   Цитата(pifagor @ 2.09.2012 - 10:16) ...   3.09.2012 - 09:31
|- - pifagor   Цитата(stok1946 @ 3.09.2012 - 10:31)...   3.09.2012 - 13:52
- - pifagor   Предположим, у нас имеется генеральная совокупност...   1.09.2012 - 16:12
- - pifagor   Manly B. F. J. Randomization, bootstrap and Monte ...   1.09.2012 - 16:30
- - pifagor   ПРОБЛЕМЫ ЭКОЛОГИЧЕСКОГО ЭКСПЕРИМЕНТА (ПЛАНИРОВАНИЕ...   1.09.2012 - 18:20
- - pifagor   Я не применял бутстреп. Я мало знаком с примерами ...   4.09.2012 - 08:14
|- - stok1946   Цитата(pifagor @ 4.09.2012 - 09:14) ...   8.09.2012 - 15:28
|- - Диана   Цитата(stok1946 @ 8.09.2012 - 16:28)...   13.09.2012 - 13:10
|- - stok1946   Цитата(Диана @ 13.09.2012 - 14:10) з...   15.09.2012 - 18:34
|- - pifagor   Цитата(stok1946 @ 15.09.2012 - 19:34...   16.09.2012 - 13:01
- - Диана   в статье мед.журнала была фраза: Атрибутивное знач...   13.09.2012 - 14:08


Добавить ответ в эту темуОткрыть тему