Цитата(stok1946 @ 8.08.2012 - 10:51)

...И, наконец, в-третьих, мы с благодарностью примем любые замечания и пожелания (туда ли мы плывем и нужно ли все это).
Книга, действительно, нужная, Благодарю! Критика будет доброжелательная и, надеюсь, конструктивная. Читал, к сожалению, пока тоже по диагонали и мог что-то упустить, не заметить - заранее прошу прощения (прижмёт - углублюсь

) Нумерация не по важности, а для подобия структуры.
1. Считаю целесообразным не дописывать остальные главы в этой книге, а ограничиться уже написанным дошлифовав его. Во-первых, это ускорит выход в свет полезного материала. Во-вторых, комбинация названий запланированных глав оставляет впечатление чего-то накиданного в кучу. Здесь же и дискриминантный анализ, и PCA, и временные ряды, и ещё и байесовские методы. Не нравится мне этот набор.
Возьмём, например, PCA. Где здесь место ресэмплингу? Есть пакеты, где с его помощью оценивается нетривиальность нескольких выделенных компонент (тот же PAST, CANOCO). На этом ресэмплинг и заканчивается. Чтобы проверить устойчивость выделенной факторной структуры нужны уже немалые куски хорошего кода на R, которых в готовом виде на момент увлечения этим в сети не нашёл. Кто не пробовал: там сложность в изменении знаков факторных нагрузок с + на - и в изменении последовательности выхода компонент от (псевдо)выбоки к выборке. Т.е. нужны дополнительные алгоритмы удержания показателей в одной четверти факторной диаграммы. Кроме того PCA - для количественных показателей, а что делать с порядковыми, с качественными? Получается, что для полноты картины нужно дать представление и о нелинейных и/или категориальных PCA, о главных координатах, об анализе соответствий. PCA - корреляционная техника, а что делать если нужна зависимость комплекса показателей от регрессоров. Выходит нужно знакомить с каноническим анализом соответствий, анализом избыточности. Если про это не сказать, то у читателя в голове останется вакуум, который он или не заполнит, что приведёт к перекосу мозга, или заполнит в меру своего непонимания, что приведёт к некорректному использованию во всех случаях единственной описанной техники. Считаю достаточно удачной книгу Джонгмана, Тер-Браака и ещё кого-то - Анализ данных в экологии сообществ и ландшафтов. Она переведена на русский, есть в сети в djvu, могу выслать. Хотя самая лучшая и нужная ещё не написана.
Сходная картина с дискриминантным анализом. Этот анализ позволяет разделять группы в многомерном пространстве количественных признаков. Если считать, что с помощью преобразований мы любые количественные признаки можем нормализовать, то всё равно остаются вопросы с порядковыми и качественными данными. Выходит, нужны понятия (а может и полноценные блоки) о множественной логистической регрессии, деревьях классификации и лесах решений - исключительно ресэмплинг-технике. Показательно, кстати, что в пока соседней теме ни у кого из отвечавших мысль о дискриминантном анализе не возникла (
http://forum.disser.ru/index.php?showtopic=3110 ), хотя даже леса деревьев построили. Это косвенно указывает на неуниверсальность и, возможно, старомодность техники линейного дискриминантного анализа. А применительно к деревьям решений необходимо также раскрывать тему перекрёстной проверки (cross-validation) - единственной ресэмплинг техники, которая осталась без внимания в обсуждаемой книге.
Короче, считаю невозможным дать качественную информацию по всем запланированным темам в одной книге.
2. Структура материала. Мне её не хватает. Увидел "бутстреп" и глаза ищут "процентильный", "ВСа" и не находят очень долго. Находят только в таблице, а потом опять ищут. Полагаю, что раз термин вынесен в название книги нужнен блок с классификацией разновидностей метода, где бы чётко прописывались их достоинства и недостатки. Аналогично по другим разделам - хочется чтобы монотонный текст разбивался на кусочки.
3. Определения. Все определения нужно дать как можно раньше. А то для "ресамплинг" есть опредление, а в следующем предложении - "бутстреп" без определения и непонятно о чём речь. Определения должны быть качественными. Мне, как и TheThing, сразу резануло глаза определение доверительного интервала. К тому же здесь же был введён термин "статистическая надёжность" с обозначением "p", традиционно, вслед за Фишером, используемом в другом значении (p-value). Уверен, что из всего многообразия определений нужно выбрать единственно правильное. Правда я тоже частенько затрудняюсь с единственным определением

. Самые грамотные определения часто непонятны для новичков. Даю студентам под запись 2 определения: (1) неправильное (Ваше, но с "покрывает") - оно понятное и (2) правильное (близко к данному TheThing). Аналогично даю и для Р: (1) неправильное (непрямая мера оценки вероятности нулевой гипотезы) - чтобы помнили, про доказательство "от противного" и (2) правильное (про вероятность наблюдать данные). Говорю примерно так: неправильные определения доступны для понимания и общий смысл передают, но если увидите его в учебнике - это учебник слабого автора, могут быть и другие ляпы.
4. Кому предназначена книга. Книга ориентирована явно не на продвинутого в статистике исследователя, скорее даже на новичка. Для дидактических целей программа Ховела подходит. Но в единственном виде она плоха. Во-первых, когда несколько лет назад я искал софт для бутстрэп-оценок ДИ, я пытался её использовать, но на части наборов данных она "вылетала" и не считала. Во-вторых, новичку лучше привыкать к более традиционной форме статпакета и/или к коду. В книге же кода мало (согласен с TheThing, что ему место в теле книге), а программа Ховела - не статпакект. Я бы сделал
весь упор на PAST. Включая пути до методов и скриншоты. Он имеет более традиционный вид и просто находка для эколога: считает все индексы разнообразия, изложенные в Вашей замечательной "Количественной гидроэкологии" и даже больше, проводит по ним кластеризацию и считает главные координаты (последние тоже нужно давать!) + постоянно в развитии. Также считает бутстрэпом ДИ и кое-какую статистику перестановкой. Также разделение смесей распределений, анализ форм и др. почти уникальные вещи. Я бы делал ставку на этот пакет. Познакомились с методом, полюбовались на Ховела (если не вылетит), а теперь - как это обсчитать в жизни - т.е. в PAST и в R. Графика в пакете слабовата, но не все такие эстеты до графики как я. А эстетам я советую такой путь: скопировать график в буфер, а затем вставить и довести до ума в замечательном и бесплатном векторном редакторе научной графики от Цыплакова:
http://sourceforge.net/projects/tpx/files/5. Раздел про корреляцию я бы отделил от раздела с регрессией - это близкие в вычислительном плане, но принципиально различные по решаемой задаче техники. К тому же по каждой есть что сказать. Новичков нужно учить не путать задачи. Я не так давно "ругал" наших экологов за то что пытаются искать зависимость обилия фитопланктона от температуры регрессией. Почему от температуры, а не от направления ветра, который гоняет этот планктон от берега к берегу, не от количества солнечной радиации, которая, кстати также и нагревает воду, и т.д. Просто потому что легче измеряется? И почему обычная регрессия если фактор "температура" мы не контролируем, а только измеряем. Раз не контролируем, он так же как и отклик подвержен ошибкам и нужна другая регрессия, скажем Reduced major axis. И для последней, и для major axis, а особенно для ядерной (kernel) регресии ресэмплинг техники очень важны, а робастная регрессия Кенделла-Тейла и есть в чистом виде ресэмплинг типа складного ножа.
6. Ну и ещё соавтор Ваш пишет, на мой взгляд, сложновато для восприятия. Как и в "Количественной гидроэкологии". Чувствуется математик, а не эколог. А для экологов должен писать эколог. Разделы (а лучше - следующие книги) по многомерным методам будут, вероятно, тяжеловесны. Прекрасно понимаю, что с этим, к сожалению, сложно что-то сделать: я сам в качестве соавтора воюю за каждую свою фразу, которая, возможно, кому-то тоже может казаться тяжеловесной. Но думаю можно скомпенсировать именно разбором примеров на каждую решаемую задачу или метод.
Ну вот вроде и всё

Успехов Вам!