Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Рандомизация, бутстреп и методы Монте-Карло, Примеры статистического анализа данных по биологии и экологии
stok1946
сообщение 8.08.2012 - 07:51
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Уважаемые коллеги. К сожалению, у нас нет вопросов на форум (точнее, они, безусловно есть, но не о них речь).

Специалисты насчитывают сотни тысяч изданных книг по мат. статистике. И обычный читатель вряд ли в состоянии одолеть хотя бы 2% из них.
Но мы пошли на риск и начали писать еще одну книгу "Рандомизация, бутстреп и методы Монте-Карло. Примеры статистического анализа данных по биологии и экологии."
Написали три главы и по ряду причин сочли разумным выложить для свободного прочтения ее неполный вариант. Во-первых, время не ждет. Во-вторых, эти три первые главы имеют, в некотором смысле, общедисциплинарный характер и могут быть интересны и биологам, и экономистам, и врачам. Далее будут описаны многомерные методы, а они в значительной мере имеют экологическую специфику. И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это).
Часть примеров была подготовлена в статистической среде R (скрипты представлены в приложении). Мы не имеем здесь совсем мало опыта и надеемся на доброжелательную критику специалистов в этой области. Кроме того, "Остапа часто несло" smile.gif , и в результате некоторые наши обороты могут быть статистически неполиткорректными. Мы надеемся, что закаленные в "терминологических битвах" и умудренные товарищи нас поправят.
А аспирантам по различным биологиям и медицинам новый взгляд на статистические вещи может быть весьма полезен.
А пока не сочтите за труд зайти на
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm
и скачать файл "Рандомизация, бутстреп и все, все, все..." в формате Acrobat Reader.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 12.08.2012 - 22:28
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(stok1946 @ 8.08.2012 - 10:51) *
...И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это).

Книга, действительно, нужная, Благодарю! Критика будет доброжелательная и, надеюсь, конструктивная. Читал, к сожалению, пока тоже по диагонали и мог что-то упустить, не заметить - заранее прошу прощения (прижмёт - углублюсь smile.gif ) Нумерация не по важности, а для подобия структуры.

1. Считаю целесообразным не дописывать остальные главы в этой книге, а ограничиться уже написанным дошлифовав его. Во-первых, это ускорит выход в свет полезного материала. Во-вторых, комбинация названий запланированных глав оставляет впечатление чего-то накиданного в кучу. Здесь же и дискриминантный анализ, и PCA, и временные ряды, и ещё и байесовские методы. Не нравится мне этот набор.

Возьмём, например, PCA. Где здесь место ресэмплингу? Есть пакеты, где с его помощью оценивается нетривиальность нескольких выделенных компонент (тот же PAST, CANOCO). На этом ресэмплинг и заканчивается. Чтобы проверить устойчивость выделенной факторной структуры нужны уже немалые куски хорошего кода на R, которых в готовом виде на момент увлечения этим в сети не нашёл. Кто не пробовал: там сложность в изменении знаков факторных нагрузок с + на - и в изменении последовательности выхода компонент от (псевдо)выбоки к выборке. Т.е. нужны дополнительные алгоритмы удержания показателей в одной четверти факторной диаграммы. Кроме того PCA - для количественных показателей, а что делать с порядковыми, с качественными? Получается, что для полноты картины нужно дать представление и о нелинейных и/или категориальных PCA, о главных координатах, об анализе соответствий. PCA - корреляционная техника, а что делать если нужна зависимость комплекса показателей от регрессоров. Выходит нужно знакомить с каноническим анализом соответствий, анализом избыточности. Если про это не сказать, то у читателя в голове останется вакуум, который он или не заполнит, что приведёт к перекосу мозга, или заполнит в меру своего непонимания, что приведёт к некорректному использованию во всех случаях единственной описанной техники. Считаю достаточно удачной книгу Джонгмана, Тер-Браака и ещё кого-то - Анализ данных в экологии сообществ и ландшафтов. Она переведена на русский, есть в сети в djvu, могу выслать. Хотя самая лучшая и нужная ещё не написана.

Сходная картина с дискриминантным анализом. Этот анализ позволяет разделять группы в многомерном пространстве количественных признаков. Если считать, что с помощью преобразований мы любые количественные признаки можем нормализовать, то всё равно остаются вопросы с порядковыми и качественными данными. Выходит, нужны понятия (а может и полноценные блоки) о множественной логистической регрессии, деревьях классификации и лесах решений - исключительно ресэмплинг-технике. Показательно, кстати, что в пока соседней теме ни у кого из отвечавших мысль о дискриминантном анализе не возникла ( http://forum.disser.ru/index.php?showtopic=3110 ), хотя даже леса деревьев построили. Это косвенно указывает на неуниверсальность и, возможно, старомодность техники линейного дискриминантного анализа. А применительно к деревьям решений необходимо также раскрывать тему перекрёстной проверки (cross-validation) - единственной ресэмплинг техники, которая осталась без внимания в обсуждаемой книге.

Короче, считаю невозможным дать качественную информацию по всем запланированным темам в одной книге.

2. Структура материала. Мне её не хватает. Увидел "бутстреп" и глаза ищут "процентильный", "ВСа" и не находят очень долго. Находят только в таблице, а потом опять ищут. Полагаю, что раз термин вынесен в название книги нужнен блок с классификацией разновидностей метода, где бы чётко прописывались их достоинства и недостатки. Аналогично по другим разделам - хочется чтобы монотонный текст разбивался на кусочки.

3. Определения. Все определения нужно дать как можно раньше. А то для "ресамплинг" есть опредление, а в следующем предложении - "бутстреп" без определения и непонятно о чём речь. Определения должны быть качественными. Мне, как и TheThing, сразу резануло глаза определение доверительного интервала. К тому же здесь же был введён термин "статистическая надёжность" с обозначением "p", традиционно, вслед за Фишером, используемом в другом значении (p-value). Уверен, что из всего многообразия определений нужно выбрать единственно правильное. Правда я тоже частенько затрудняюсь с единственным определением smile.gif. Самые грамотные определения часто непонятны для новичков. Даю студентам под запись 2 определения: (1) неправильное (Ваше, но с "покрывает") - оно понятное и (2) правильное (близко к данному TheThing). Аналогично даю и для Р: (1) неправильное (непрямая мера оценки вероятности нулевой гипотезы) - чтобы помнили, про доказательство "от противного" и (2) правильное (про вероятность наблюдать данные). Говорю примерно так: неправильные определения доступны для понимания и общий смысл передают, но если увидите его в учебнике - это учебник слабого автора, могут быть и другие ляпы.

4. Кому предназначена книга. Книга ориентирована явно не на продвинутого в статистике исследователя, скорее даже на новичка. Для дидактических целей программа Ховела подходит. Но в единственном виде она плоха. Во-первых, когда несколько лет назад я искал софт для бутстрэп-оценок ДИ, я пытался её использовать, но на части наборов данных она "вылетала" и не считала. Во-вторых, новичку лучше привыкать к более традиционной форме статпакета и/или к коду. В книге же кода мало (согласен с TheThing, что ему место в теле книге), а программа Ховела - не статпакект. Я бы сделал весь упор на PAST. Включая пути до методов и скриншоты. Он имеет более традиционный вид и просто находка для эколога: считает все индексы разнообразия, изложенные в Вашей замечательной "Количественной гидроэкологии" и даже больше, проводит по ним кластеризацию и считает главные координаты (последние тоже нужно давать!) + постоянно в развитии. Также считает бутстрэпом ДИ и кое-какую статистику перестановкой. Также разделение смесей распределений, анализ форм и др. почти уникальные вещи. Я бы делал ставку на этот пакет. Познакомились с методом, полюбовались на Ховела (если не вылетит), а теперь - как это обсчитать в жизни - т.е. в PAST и в R. Графика в пакете слабовата, но не все такие эстеты до графики как я. А эстетам я советую такой путь: скопировать график в буфер, а затем вставить и довести до ума в замечательном и бесплатном векторном редакторе научной графики от Цыплакова: http://sourceforge.net/projects/tpx/files/

5. Раздел про корреляцию я бы отделил от раздела с регрессией - это близкие в вычислительном плане, но принципиально различные по решаемой задаче техники. К тому же по каждой есть что сказать. Новичков нужно учить не путать задачи. Я не так давно "ругал" наших экологов за то что пытаются искать зависимость обилия фитопланктона от температуры регрессией. Почему от температуры, а не от направления ветра, который гоняет этот планктон от берега к берегу, не от количества солнечной радиации, которая, кстати также и нагревает воду, и т.д. Просто потому что легче измеряется? И почему обычная регрессия если фактор "температура" мы не контролируем, а только измеряем. Раз не контролируем, он так же как и отклик подвержен ошибкам и нужна другая регрессия, скажем Reduced major axis. И для последней, и для major axis, а особенно для ядерной (kernel) регресии ресэмплинг техники очень важны, а робастная регрессия Кенделла-Тейла и есть в чистом виде ресэмплинг типа складного ножа.

6. Ну и ещё соавтор Ваш пишет, на мой взгляд, сложновато для восприятия. Как и в "Количественной гидроэкологии". Чувствуется математик, а не эколог. А для экологов должен писать эколог. Разделы (а лучше - следующие книги) по многомерным методам будут, вероятно, тяжеловесны. Прекрасно понимаю, что с этим, к сожалению, сложно что-то сделать: я сам в качестве соавтора воюю за каждую свою фразу, которая, возможно, кому-то тоже может казаться тяжеловесной. Но думаю можно скомпенсировать именно разбором примеров на каждую решаемую задачу или метод.

Ну вот вроде и всё smile.gif Успехов Вам!

Сообщение отредактировал nokh - 12.08.2012 - 22:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- stok1946   Рандомизация, бутстреп и методы Монте-Карло   8.08.2012 - 07:51
- - TheThing   Спасибо за труд! Думаю, книга должна получитьс...   9.08.2012 - 17:55
- - stok1946   Большое спасибо TheThing за добрые слова и внимани...   9.08.2012 - 22:18
|- - TheThing   Цитата(stok1946 @ 9.08.2012 - 22:18)...   10.08.2012 - 13:21
- - 100$   ЦитатаДело в том, что популяционное среднее, как и...   10.08.2012 - 14:25
|- - TheThing   Цитата(100$ @ 10.08.2012 - 14:2...   10.08.2012 - 17:12
|- - 100$   Цитата(TheThing @ 10.08.2012 - 17:12...   10.08.2012 - 23:08
|- - stok1946   Цитата(100$ @ 11.08.2012 - 00:0...   11.08.2012 - 09:57
||- - 100$   Цитата(stok1946 @ 11.08.2012 - 09:57...   11.08.2012 - 14:17
|||- - TheThing   Цитата(100$ @ 11.08.2012 - 14:1...   11.08.2012 - 14:45
|||- - 100$   Цитата(TheThing @ 11.08.2012 - 14:45...   11.08.2012 - 16:40
||- - pifagor   Цитата(stok1946 @ 11.08.2012 - 10:57...   1.09.2012 - 15:52
|- - TheThing   Цитата(100$ @ 10.08.2012 - 23:0...   11.08.2012 - 13:17
- - nokh   Цитата(stok1946 @ 8.08.2012 - 10:51)...   12.08.2012 - 22:28
- - stok1946   Глубокоуважаемый nokh! Искренне благодарен за ...   13.08.2012 - 19:50
|- - TheThing   Цитата(stok1946 @ 13.08.2012 - 19:50...   13.08.2012 - 21:20
||- - stok1946   Цитата(TheThing @ 13.08.2012 - 22:20...   14.08.2012 - 21:54
|- - nokh   Цитата(stok1946 @ 13.08.2012 - 22:50...   15.08.2012 - 18:52
- - p2004r   Мне представляется недостатком, что число перевыбо...   14.08.2012 - 00:23
|- - stok1946   Цитата(p2004r @ 14.08.2012 - 01:23) ...   15.08.2012 - 18:32
|- - p2004r   Цитата(stok1946 @ 15.08.2012 - 18:32...   15.08.2012 - 23:59
|- - stok1946   Цитата(p2004r @ 16.08.2012 - 00:59) ...   16.08.2012 - 21:05
|- - p2004r   Цитата(stok1946 @ 16.08.2012 - 21:05...   16.08.2012 - 21:37
- - 100$   Джентльмены! Не могу в литературе найти подска...   14.08.2012 - 15:20
- - pifagor   В книге на стр. 29 написано критерий Стьюдента-Кра...   1.09.2012 - 15:38
|- - stok1946   Цитата(pifagor @ 1.09.2012 - 16:38) ...   1.09.2012 - 23:15
|- - pifagor   Цитата(stok1946 @ 2.09.2012 - 00:15)...   2.09.2012 - 09:16
|- - stok1946   Цитата(pifagor @ 2.09.2012 - 10:16) ...   3.09.2012 - 09:31
|- - pifagor   Цитата(stok1946 @ 3.09.2012 - 10:31)...   3.09.2012 - 13:52
- - pifagor   Предположим, у нас имеется генеральная совокупност...   1.09.2012 - 16:12
- - pifagor   Manly B. F. J. Randomization, bootstrap and Monte ...   1.09.2012 - 16:30
- - pifagor   ПРОБЛЕМЫ ЭКОЛОГИЧЕСКОГО ЭКСПЕРИМЕНТА (ПЛАНИРОВАНИЕ...   1.09.2012 - 18:20
- - pifagor   Я не применял бутстреп. Я мало знаком с примерами ...   4.09.2012 - 08:14
|- - stok1946   Цитата(pifagor @ 4.09.2012 - 09:14) ...   8.09.2012 - 15:28
|- - Диана   Цитата(stok1946 @ 8.09.2012 - 16:28)...   13.09.2012 - 13:10
|- - stok1946   Цитата(Диана @ 13.09.2012 - 14:10) з...   15.09.2012 - 18:34
|- - pifagor   Цитата(stok1946 @ 15.09.2012 - 19:34...   16.09.2012 - 13:01
- - Диана   в статье мед.журнала была фраза: Атрибутивное знач...   13.09.2012 - 14:08


Добавить ответ в эту темуОткрыть тему