Рандомизация, бутстреп и методы Монте-Карло - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

3 страниц

1 2 3 >

Добавить ответ в эту тему

Открыть тему

Рандомизация, бутстреп и методы Монте-Карло, Примеры статистического анализа данных по биологии и экологии

stok1946 Просмотр профиля	8.08.2012 - 07:51 Сообщение #1
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748	Уважаемые коллеги. К сожалению, у нас нет вопросов на форум (точнее, они, безусловно есть, но не о них речь). Специалисты насчитывают сотни тысяч изданных книг по мат. статистике. И обычный читатель вряд ли в состоянии одолеть хотя бы 2% из них. Но мы пошли на риск и начали писать еще одну книгу "Рандомизация, бутстреп и методы Монте-Карло. Примеры статистического анализа данных по биологии и экологии." Написали три главы и по ряду причин сочли разумным выложить для свободного прочтения ее неполный вариант. Во-первых, время не ждет. Во-вторых, эти три первые главы имеют, в некотором смысле, общедисциплинарный характер и могут быть интересны и биологам, и экономистам, и врачам. Далее будут описаны многомерные методы, а они в значительной мере имеют экологическую специфику. И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это). Часть примеров была подготовлена в статистической среде R (скрипты представлены в приложении). Мы не имеем здесь совсем мало опыта и надеемся на доброжелательную критику специалистов в этой области. Кроме того, "Остапа часто несло" , и в результате некоторые наши обороты могут быть статистически неполиткорректными. Мы надеемся, что закаленные в "терминологических битвах" и умудренные товарищи нас поправят. А аспирантам по различным биологиям и медицинам новый взгляд на статистические вещи может быть весьма полезен. А пока не сочтите за труд зайти на http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm и скачать файл "Рандомизация, бутстреп и все, все, все..." в формате Acrobat Reader.

TheThing Просмотр профиля	9.08.2012 - 17:55 Сообщение #2
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Спасибо за труд! Думаю, книга должна получиться интересной судя по содержанию. Из пожеланий - хотелось бы конечно побольше примеров в среде R (если Вы ее выбрали), чем то количество, которое пока приведено в приложении. Поскольку программа, разработанная Howell имеет довольно ограниченные возможности и служит больше для демонстрации принципов работы различных методов, мне кажется, что намного больший интерес к книге вызвало бы использование методов ресамлинга в какой-либо статистической среде (будь то R, syntax SPSS или макросы SAS). И именно все это я давал бы в основном разделе, а не в приложении, а в приложение - вынес бы программу Ховела. Все таки большинство людей работает в определенных статистических средах, а не в этой полезной программе. Поэтому бы акцент сместил на практическое использование методов ресамплинга в любой стат. среде. Много прочитать не было возможности, но на стр. 13 кажется (и с определенным разбросом по всей книге ) дается трактовка 95% доверительных интервалов как "с 95% вероятностью среднее будет лежать в определенных диапазонах" - точной цитаты не могу привести, поскольку книги нет под рукой. Дело в том, что популяционное среднее, как и любой другой популяционный параметр - это константа, а не случайная величина. Вероятность того, что константа попадет в определенные диапазоны равняется или 0 или 1. Доверительный интервал описывает некоторую неоднозначность (неопределенность), которая ассоциирована с методом сэмплирования. Поэтому если бы Вы собрали 100 выборок, 95% доверительный интервал говорит, что 95 выборок из 100 будут содержать популяционное среднее в этих определенных диапазонах. Приложение с R кодом начинается довольно странно.."Cистема статистических расчётов R (Шипунов и др., 2012) ........ что-то такое" - создается впечатление, что то ли Шипунов в 2012 разработал эту систему, то ли поведал всему миру про нее Поэтому если Вы хотели сказать, что Шипунов написал хорошую книгу по R, я бы по-первых не начинал с этого приложение ну и сделал бы это немного по-другому. Если будет желание - поправьте в книге. Сообщение отредактировал TheThing - 9.08.2012 - 19:55

stok1946 Просмотр профиля	9.08.2012 - 22:18 Сообщение #3
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748	Большое спасибо TheThing за добрые слова и внимание к нашей скромной работе. Несколько слов пояснений. Мы пытались адресовать нашу книжку массовому слою аспирантов - биологам, экологам, медикам. В большинстве случаев у них едва остается время от основной экспериментальной работы, чтобы освоить один какой-нибудь стандартный пакет типа Statistica. Поэтому у них естественна тяга к простеньким модулям, запускаемым через меню ("просчитать и забыть"). И в этом их упрекнуть трудно. И лишь два из десяти аспирантов и будущих научных работников приобретают вкус к "статистической продвинутости" и начинают осваивать язык R, MathLab и проч. Программа Ховела при всей ее "демонстрационности" все же реализует 13 основных методов одно-двухмерной обработки, необходимость которых на практике наиболее велика (скажем так, это - рамки 70-80% защищаемых диссертаций). Но зачем им тогда рандомизация и бутстреп, если есть Statistica? Стандартные замечания оппонента к рецензируемой диссертации очень часто сводятся к "каверзным" фразам типа "А как Вы проверяли нормальность распределения показателя или равенство дисперсий в группах" или касаются иных предположений классического анализа. Ответ соискателя "Мы выполняли параллельно расчеты с использованием рандомизационного теста" - прекрасный способ аргументации, призванный убедить самый придирчивый Ученый Совет. Поэтому мы хотим написать не очередное руководство по использованию среды R, а описать смысл самих методов и представить весь спектр инструментальных средств расчета (от простых программулек для самых занятых до более сложных языковых конструкций для "продвинутых"). Что касается определения доверительных интервалов, то их в литературе довольно много и в целом они все нас устраивают. Мы "не гурманы, а потребители " и нам достаточна его интерпретация, основанная на интуиции: доверительный интервал почти наверняка содержит истинное значение оцениваемого параметра θ, если p достаточно велико (скажем, 0,95 или 0,99). Единственное, против чего мы - это использовать предложенное Гмурманом словосочетание "покрывает параметр", т.к. опыт работы на станции искусственного осеменения крупного рогатого скота вызывает в нас неординарные ассоциации.

TheThing Просмотр профиля	10.08.2012 - 13:21 Сообщение #4
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(stok1946 @ 9.08.2012 - 22:18) Что касается определения доверительных интервалов, то их в литературе довольно много и в целом они все нас устраивают. Мы "не гурманы, а потребители " и нам достаточна его интерпретация, основанная на интуиции: доверительный интервал почти наверняка содержит истинное значение оцениваемого параметра θ, если p достаточно велико (скажем, 0,95 или 0,99). Единственное, против чего мы - это использовать предложенное Гмурманом словосочетание "покрывает параметр", т.к. опыт работы на станции искусственного осеменения крупного рогатого скота вызывает в нас неординарные ассоциации. По-моему мнению, эта интуитивная интерпретация, которая приведена в Википедии или справочнике по прикладной статистике за 1989 год, не совсем удачно микшует 2 кардинально отличающиеся школы - школу Баеса и школу частотников. В школе Баеса, интервал доверия (credible interval) - это апостериорная вероятность, что некий параметр лежит в определенных диапазонах и она составляет например 0.9. Вот значение 0.9 - ассоциируется с вероятностью, с "почти наверняка". А в школе частотников доверительные интервалы не имеют никакого отношения к вероятностям. Я очень осторожно отношусь к определениям в Википедии - возьмите тоже определение p-value: "In statistical significance testing, the p-value is the probability of obtaining a test statistic ..... bla-bla-bla то есть p-value - это вероятность, а на самом деле это особый вид вероятности, а именно условная вероятность. Разница между вероятностью и условной вероятностью - небо и земля Большинство западных учебников дает неправильное определение из Вики (как обстоит дело с нашими учебниками Вы сами знаете ) и лишь немногие авторитетные источники (в том числе литература по SAS, которая для меня является практически эталоном качества) приводит правильные формулировки. А когда Вики переводится на русский язык, мы на защитах имеем, что р - это "достоверность отличий", р>0.05 - это "нет разницы между средними", p - это ошибка первого рода, р - это вероятность случайно получить наблюдаемые результаты и .т.д Я понял основное направление книги, с удовольствием читаю в свободную минуту! Сообщение отредактировал TheThing - 10.08.2012 - 13:38

100$ Просмотр профиля	10.08.2012 - 14:25 Сообщение #5
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата Дело в том, что популяционное среднее, как и любой другой популяционный параметр - это константа, а не случайная величина. А что такое популяционное среднее, и чем оно отличается от выборочного (то бишь эмпирического)?

TheThing Просмотр профиля	10.08.2012 - 17:12 Сообщение #6
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(100$ @ 10.08.2012 - 14:25) А что такое популяционное среднее, и чем оно отличается от выборочного (то бишь эмпирического)? Ну если бы они не отличались, мы бы не занимались вопросами репрезентативности выборок и поиском доверительных интервалов относительно показателя генеральной совокупности. P.S. тема про книгу

100$ Просмотр профиля	10.08.2012 - 23:08 Сообщение #7
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(TheThing @ 10.08.2012 - 17:12) Ну если бы они не отличались, мы бы не занимались вопросами репрезентативности выборок и поиском доверительных интервалов относительно показателя генеральной совокупности. P.S. тема про книгу Статистика не оперирует термином "популяционное среднее", зато есть генеральное среднее и выборочное. Я просто пытаюсь для себя уточнить, какое же из этих средних вы имеете в виду, и с какого перепугу это среднее вдруг стало константой.

stok1946 Просмотр профиля	11.08.2012 - 09:57 Сообщение #8
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748	Цитата(100$ @ 11.08.2012 - 00:08) Статистика не оперирует термином "популяционное среднее", зато есть генеральное среднее и выборочное. Я просто пытаюсь для себя уточнить, какое же из этих средних вы имеете в виду, и с какого перепугу это среднее вдруг стало константой. Если уточнять терминологию, то весь нерусскоязычный мир использует термин population parametrs, имея в виду пределы, к которому стремятся выборочные характеристики при бесконечном увеличении однородных повторностей отбираемых выборок (т.е. некая химера ). Термин "популяция" здесь совсем не то, что биологическая популяция, а то, что русские называют "генеральной совокупностью" (привычка, наследованная от Генерального комиссара Ежова и последующих генеральных секретарей). Это - очередная глупость, потому что генеральная совокупность по определению - это универсум или множество, содержащее все мыслимые объекты. В реальной жизни мы обследуем именно популяции (ареал экземпляров одного вида, имеющий естественные границы).

TheThing Просмотр профиля	11.08.2012 - 13:17 Сообщение #9
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(100$ @ 10.08.2012 - 23:08) Статистика не оперирует термином "популяционное среднее", зато есть генеральное среднее и выборочное. Я просто пытаюсь для себя уточнить, какое же из этих средних вы имеете в виду, и с какого перепугу это среднее вдруг стало константой. Academic Dictionaries and Encyclopedias: population parameter - a quantity or statistical measure that, for a given population, is fixed and that is used as the value of a variable in some general distribution or frequency function to make it descriptive of that population: The mean and variance of a population are population parameters. STEPHEN E. EDGELL Commentary on Accepting the null hypothesis "the most common population parameter in null hypotheses is the population mean. The population mean is the expected value of a random variable, and the expected value of a random variable is a constant" Из курса статистики: (The Statistics Department at the University of Wisconsin-Madison): "A statistic is any quantity which can be calculated from the observed random sample, that is to say a function of the observations X1, X2, ... , X n such as the sample mean and variance. The later are often used to estimate the actual constant population parameters mean and variance " Programmed Statistics (Question-Answers) - 2nd edition by B.L. Agarwal: "We know that various sampling procedures do exist and and there are many techniques to determine the value of population constants (like population mean) through sample values". Статистика не оперирует термином "популяционное среднее" - это "наша" статистика не оперирует, а "их" - еще как оперирует Зато "их" не знает, кто такие комиссары Ежовы При всем уважении к "нашим", больше доверия у меня к "ихним". P.S. не люблю термин "генеральная совокупность", но иногда он проскальзывает Сообщение отредактировал TheThing - 11.08.2012 - 13:30

100$ Просмотр профиля	11.08.2012 - 14:17 Сообщение #10
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(stok1946 @ 11.08.2012 - 09:57) Термин "популяция" здесь совсем не то, что биологическая популяция, а то, что русские называют "генеральной совокупностью" Вот-вот, так тупые кальки с английского начинают обретать черты адекватности. Что касается словечек "fixed", "constant", то, похоже, это - не константы в мат. пониманиии этого слова, а то, что в отечественной литературе по теории статистики принято называть "обобщающими статистическими характеристиками" в том смысле, что у любой ген. совокупности каждая из таких характеристик (среднее значение как состоятельная оценка мат. ожидания с.в., дисперсия как мера характеристики разброса, etc.) может быть только одна. Сообщение отредактировал 100$ - 11.08.2012 - 14:24

TheThing Просмотр профиля	11.08.2012 - 14:45 Сообщение #11
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(100$ @ 11.08.2012 - 14:17) Вот-вот, так тупые кальки с английского начинают обретать черты адекватности. Что касается словечек "fixed", "constant", то, похоже, это - не константы в мат. пониманиии этого слова, а то, что в отечественной литературе по теории статистики принято называть "обобщающими статистическими характеристиками" в том смысле, что у любой ген. совокупности каждая из таких характеристик (среднее значение как состоятельная оценка мат. ожидания с.в., дисперсия как мера характеристики разброса, etc.) может быть только одна. Suppose that a 90% confidence interval states that the population mean is greater than 100 and less than 200. How would you interpret this statement? Some people think this means there is a 90% chance that the population mean falls between 100 and 200. This is incorrect. Like any population parameter, the population mean is a constant, not a random variable. It does not change. A parameter is a number computed from a population. Contrast this with the definition of a statistic. A parameter is a constant, unchanging value. There is no random variation in a parameter Здесь четко дают понять, что "они" имеют ввиду под константной (fixed) величной. Сообщение отредактировал TheThing - 11.08.2012 - 15:13

100$ Просмотр профиля	11.08.2012 - 16:40 Сообщение #12
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(TheThing @ 11.08.2012 - 14:45) Suppose that a 90% confidence interval states that the population mean is greater than 100 and less than 200. How would you interpret this statement? Some people think this means there is a 90% chance that the population mean falls between 100 and 200. This is incorrect. Like any population parameter, the population mean is a constant, not a random variable. It does not change. A parameter is a number computed from a population. Contrast this with the definition of a statistic. A parameter is a constant, unchanging value. There is no random variation in a parameter Здесь четко дают понять, что "они" имеют ввиду под константной (fixed) величной. Все понятно: они хотят сказать, что после того, как мы обработали всю ген. совокупность, вариация изучаемого признака закончилась. Это означает, что доверительное оценивание генеральной средней (медианы, сигмы, etc.) - бессмысленно (как и вторая часть моего поста #10) Сообщение отредактировал 100$ - 11.08.2012 - 16:42

nokh Просмотр профиля	12.08.2012 - 22:28 Сообщение #13
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(stok1946 @ 8.08.2012 - 10:51) ...И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это). Книга, действительно, нужная, Благодарю! Критика будет доброжелательная и, надеюсь, конструктивная. Читал, к сожалению, пока тоже по диагонали и мог что-то упустить, не заметить - заранее прошу прощения (прижмёт - углублюсь ) Нумерация не по важности, а для подобия структуры. 1. Считаю целесообразным не дописывать остальные главы в этой книге, а ограничиться уже написанным дошлифовав его. Во-первых, это ускорит выход в свет полезного материала. Во-вторых, комбинация названий запланированных глав оставляет впечатление чего-то накиданного в кучу. Здесь же и дискриминантный анализ, и PCA, и временные ряды, и ещё и байесовские методы. Не нравится мне этот набор. Возьмём, например, PCA. Где здесь место ресэмплингу? Есть пакеты, где с его помощью оценивается нетривиальность нескольких выделенных компонент (тот же PAST, CANOCO). На этом ресэмплинг и заканчивается. Чтобы проверить устойчивость выделенной факторной структуры нужны уже немалые куски хорошего кода на R, которых в готовом виде на момент увлечения этим в сети не нашёл. Кто не пробовал: там сложность в изменении знаков факторных нагрузок с + на - и в изменении последовательности выхода компонент от (псевдо)выбоки к выборке. Т.е. нужны дополнительные алгоритмы удержания показателей в одной четверти факторной диаграммы. Кроме того PCA - для количественных показателей, а что делать с порядковыми, с качественными? Получается, что для полноты картины нужно дать представление и о нелинейных и/или категориальных PCA, о главных координатах, об анализе соответствий. PCA - корреляционная техника, а что делать если нужна зависимость комплекса показателей от регрессоров. Выходит нужно знакомить с каноническим анализом соответствий, анализом избыточности. Если про это не сказать, то у читателя в голове останется вакуум, который он или не заполнит, что приведёт к перекосу мозга, или заполнит в меру своего непонимания, что приведёт к некорректному использованию во всех случаях единственной описанной техники. Считаю достаточно удачной книгу Джонгмана, Тер-Браака и ещё кого-то - Анализ данных в экологии сообществ и ландшафтов. Она переведена на русский, есть в сети в djvu, могу выслать. Хотя самая лучшая и нужная ещё не написана. Сходная картина с дискриминантным анализом. Этот анализ позволяет разделять группы в многомерном пространстве количественных признаков. Если считать, что с помощью преобразований мы любые количественные признаки можем нормализовать, то всё равно остаются вопросы с порядковыми и качественными данными. Выходит, нужны понятия (а может и полноценные блоки) о множественной логистической регрессии, деревьях классификации и лесах решений - исключительно ресэмплинг-технике. Показательно, кстати, что в пока соседней теме ни у кого из отвечавших мысль о дискриминантном анализе не возникла ( http://forum.disser.ru/index.php?showtopic=3110 ), хотя даже леса деревьев построили. Это косвенно указывает на неуниверсальность и, возможно, старомодность техники линейного дискриминантного анализа. А применительно к деревьям решений необходимо также раскрывать тему перекрёстной проверки (cross-validation) - единственной ресэмплинг техники, которая осталась без внимания в обсуждаемой книге. Короче, считаю невозможным дать качественную информацию по всем запланированным темам в одной книге. 2. Структура материала. Мне её не хватает. Увидел "бутстреп" и глаза ищут "процентильный", "ВСа" и не находят очень долго. Находят только в таблице, а потом опять ищут. Полагаю, что раз термин вынесен в название книги нужнен блок с классификацией разновидностей метода, где бы чётко прописывались их достоинства и недостатки. Аналогично по другим разделам - хочется чтобы монотонный текст разбивался на кусочки. 3. Определения. Все определения нужно дать как можно раньше. А то для "ресамплинг" есть опредление, а в следующем предложении - "бутстреп" без определения и непонятно о чём речь. Определения должны быть качественными. Мне, как и TheThing, сразу резануло глаза определение доверительного интервала. К тому же здесь же был введён термин "статистическая надёжность" с обозначением "p", традиционно, вслед за Фишером, используемом в другом значении (p-value). Уверен, что из всего многообразия определений нужно выбрать единственно правильное. Правда я тоже частенько затрудняюсь с единственным определением . Самые грамотные определения часто непонятны для новичков. Даю студентам под запись 2 определения: (1) неправильное (Ваше, но с "покрывает") - оно понятное и (2) правильное (близко к данному TheThing). Аналогично даю и для Р: (1) неправильное (непрямая мера оценки вероятности нулевой гипотезы) - чтобы помнили, про доказательство "от противного" и (2) правильное (про вероятность наблюдать данные). Говорю примерно так: неправильные определения доступны для понимания и общий смысл передают, но если увидите его в учебнике - это учебник слабого автора, могут быть и другие ляпы. 4. Кому предназначена книга. Книга ориентирована явно не на продвинутого в статистике исследователя, скорее даже на новичка. Для дидактических целей программа Ховела подходит. Но в единственном виде она плоха. Во-первых, когда несколько лет назад я искал софт для бутстрэп-оценок ДИ, я пытался её использовать, но на части наборов данных она "вылетала" и не считала. Во-вторых, новичку лучше привыкать к более традиционной форме статпакета и/или к коду. В книге же кода мало (согласен с TheThing, что ему место в теле книге), а программа Ховела - не статпакект. Я бы сделал весь упор на PAST. Включая пути до методов и скриншоты. Он имеет более традиционный вид и просто находка для эколога: считает все индексы разнообразия, изложенные в Вашей замечательной "Количественной гидроэкологии" и даже больше, проводит по ним кластеризацию и считает главные координаты (последние тоже нужно давать!) + постоянно в развитии. Также считает бутстрэпом ДИ и кое-какую статистику перестановкой. Также разделение смесей распределений, анализ форм и др. почти уникальные вещи. Я бы делал ставку на этот пакет. Познакомились с методом, полюбовались на Ховела (если не вылетит), а теперь - как это обсчитать в жизни - т.е. в PAST и в R. Графика в пакете слабовата, но не все такие эстеты до графики как я. А эстетам я советую такой путь: скопировать график в буфер, а затем вставить и довести до ума в замечательном и бесплатном векторном редакторе научной графики от Цыплакова: http://sourceforge.net/projects/tpx/files/ 5. Раздел про корреляцию я бы отделил от раздела с регрессией - это близкие в вычислительном плане, но принципиально различные по решаемой задаче техники. К тому же по каждой есть что сказать. Новичков нужно учить не путать задачи. Я не так давно "ругал" наших экологов за то что пытаются искать зависимость обилия фитопланктона от температуры регрессией. Почему от температуры, а не от направления ветра, который гоняет этот планктон от берега к берегу, не от количества солнечной радиации, которая, кстати также и нагревает воду, и т.д. Просто потому что легче измеряется? И почему обычная регрессия если фактор "температура" мы не контролируем, а только измеряем. Раз не контролируем, он так же как и отклик подвержен ошибкам и нужна другая регрессия, скажем Reduced major axis. И для последней, и для major axis, а особенно для ядерной (kernel) регресии ресэмплинг техники очень важны, а робастная регрессия Кенделла-Тейла и есть в чистом виде ресэмплинг типа складного ножа. 6. Ну и ещё соавтор Ваш пишет, на мой взгляд, сложновато для восприятия. Как и в "Количественной гидроэкологии". Чувствуется математик, а не эколог. А для экологов должен писать эколог. Разделы (а лучше - следующие книги) по многомерным методам будут, вероятно, тяжеловесны. Прекрасно понимаю, что с этим, к сожалению, сложно что-то сделать: я сам в качестве соавтора воюю за каждую свою фразу, которая, возможно, кому-то тоже может казаться тяжеловесной. Но думаю можно скомпенсировать именно разбором примеров на каждую решаемую задачу или метод. Ну вот вроде и всё Успехов Вам! Сообщение отредактировал nokh - 12.08.2012 - 22:49

stok1946 Просмотр профиля	13.08.2012 - 19:50 Сообщение #14
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748	Глубокоуважаемый nokh! Искренне благодарен за Ваш труд сделать столь подробную рецензию. Вынужден признать, что почти все Ваши замечания весьма обоснованы и заставляют задуматься о бренном. Хотя точная взвешенность их применимости в настоящей работе, вероятно, еще придет в ходе тех же раздумий. А пока ? несколько конкретных ответов на вполне конкретные вещи! 1. Стоит ли в одной книге совмещать многомерные и одномерные методы? Мы ставили вполне скромные задачи:  Тем, что не имел понятия о методах ресамплинга, ?на пальцах? разъяснить механизмы их работы в простейших случаях (на уровне рекламного проспекта Мура с соавторами в The Practice of Business Statistics);  Одновременно для тех, кто этим не удовлетворился, расширить спектр рассуждений о применимости ресамплинга немного дальше, чем это делают картинки Ховела, ? на регрессию, классификацию, ординацию (насколько хватит моих скромных усилий);  Привлечь внимание (частичное) к использованию среды R, когда готовых инструментов для проведения расчетов не хватает;  Напомнить о существовании таких прекрасных, но недостаточно обсуждаемых вещей, как кросс-проверка, генетический алгоритм, метод опорных векторов, тест Мантеля, случайный зонд Пиелу, дисперсионный анализ матриц дистанции Андерсона, бутстрепирование деревьев классификации и др. Образцом для нас явилась книжка Манли ?Рандомизация, бутстреп и методы Монте-Карло в биологии? (к сожалению, удалось найти только отсканированное 1-е издание 90-х годов, а в 3-м издании 2007 г. все много лучше). Как в выпусках Гуда, им обоим удалось все же рассказать обо всем понемногу (хотя, безусловно, и не слишком глубоко). 2. В рамках методов PCA и ординации мы планировали ограничиться описанием алгоритма Pillar V.D. 1999. The bootstrapped ordination reexamined. Journal of Vegetation Science 10: 895-902. и использовать их пакет Multiv (см. стр. 197-199 в нашей книжке ?Макроэкология? - http://www.ievbras.ru/ecostat/Kiril/ ). 3. С определениями доверительного интервала ? тяжело. Они, как правило, никого не удовлетворяют. Вот А.Орлов в ?Эконометрике? попытался дать таблицу терминов. Например, он там пишет: ?Доверительное множество - определяемое по выборке случайное множество в пространстве возможных состояний оцениваемой составляющей?. Зашибись, как понятно!!! Пока у TheThing нашел лишь ?Доверительный интервал описывает некоторую неоднозначность (неопределенность), которая ассоциирована с методом сэмплирования?. Про ?покрытие параметра? я уже писал. Я ? единственный человек, которому абсолютно здесь все равно. Буду рад любому ?правильному? определению доверительного интервала или бутстрепа, которые появятся здесь у нас в студии. ?Я ? не гурман, я ? программист?. И пусть это останется только между нами, но я внутренне считаю, что ценность даже самых ?теоретически взвешенных? определений ? лишь в глубокомысленных теоретических рассуждениях, спорах и желании ?уесть? оппонента. Сокровенный же смысл любой статистики (критерия или оценки вероятности) с полной определенностью представляем отнюдь не словами, а схемой их расчета по выборочным данным. Уверен, что нельзя сводить прикладную статистику к юриспруденции с ее зацикленностью на точности формулировок и полным произволом их толкования в залах суда. 4. Конечно, программа Ховела ? не эталон (боюсь, что она еще и далеко не всегда верно считает). PAST я люблю и давно пропагандирую, но ее трудно использовать как учебник по бутстрепу. Все же R. 5. Любой автор книг полупопулярного профиля зажат между Сциллой упрощенного примитивизма и Харибдой усложненной тяжеловестости . Будем пробовать выкрутиться. 6. С примерами ? свои большие трудности, т.к. ряды маленькие, наблюдения ведутся непонятно над чем и або как и т.д. Как и во всей биологии, управляемый эксперимент почти полностью отсутствует и вариация объясняющей переменной носит всегда случайный характер (хотя это не повод отказаться напрочь от обычных моделей МНК). Все же хочется показать расчеты на своих близких и понятных данных, а не на дюнах Джогмана- тер Браака. Кстати, у меня есть только их англоязычная книжка (PDF). Буду очень признателен, если пришлете русскоязычный вариант (лучше на stok1946@gmail.com ). Когда-то мне давали плохо ксерокопированный вариант на два дня. Успел отсканировать только главу по ординации, а что там было написано, расшифровываю и поныне. А еще ?вот бы найти файл с книжкой Good P. Introduction to Statistics Through Resampling Methods and R/S-Plus (отдам пол-царства по eMail) . С искренней благодарностью.

TheThing Просмотр профиля	13.08.2012 - 21:20 Сообщение #15
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(stok1946 @ 13.08.2012 - 19:50) А еще ?вот бы найти файл с книжкой Good P. Introduction to Statistics Through Resampling Methods and R/S-Plus (отдам пол-царства по eMail) . С искренней благодарностью. Этой книги в эл. варианте в сети пока нет А не смотрели вот эту? http://www.amazon.com/Resampling-Methods-P...ampling+methods Тот же автор, 2005 год, больше положительных отзывов на Амазоне, примеры кода подаются на многих языках, не только R/S, легко читается, есть в сети. Есть еще "Mathematical Statistics with Resampling and R" http://www.amazon.com/Mathematical-Statist...ampling+methods Но пока в эл. варианте в сети нет да и написана женщиной, не к добру это P.S. совсем забыл, моя любимая по бутстрепу и R книга: Comparing Groups: Randomization and Bootstrap Methods Using R, http://www.amazon.com/Comparing-Groups-Ran..._pr_product_top написана очень простым и понятным языком, упор делается на практическое применение бутстрепа, а не во вникание в математические тонкости, книга написана с "самого начала" - если человек в R и bootstrap плавает, то после прочтения книги начинает уверенно грести Такую книгу просто перевести на русский - это уже пол-царства ) Есть в сети, если не найдете - сброшу, может Вам понравится и что-то возьмете из нее. Сообщение отредактировал TheThing - 13.08.2012 - 21:39

« Предыдущая тема · Медицинская статистика · Следующая тема »

3 страниц

1 2 3 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.