Цитата(Blaid @ 15.09.2013 - 15:12)

Спасибо всем ответившим!
Попробую именно последний вариант (nokh). Я сам придумал такой нехитрый вариант: по оси Х - группы (причем 0 - это контроль, т.е. ось Х - это уровень показателя в контрольной группе); ось Y - количественное значение показателя. Или еще одна "гениальная" идея - ось Х оставить как есть, а ось Y просто продолжить ниже 0. Такой вариант на скриншоте из STATISTICA 10 (только там не BOX-PLOTS, а "усы" - доверительный интервал).
Ну, вообще-то я советовал
совсем другое... Я говорил именно о боксплоте и порядковой статистике. Дело в том, что должно быть соответствие между характеристиками описательной статистики, графиками и методами, которыми данные анализируются. К сожалению, беглый анализ даже наиболее авторитетных статей в ряде областей биологии и медицины, показывает, что таких работ только около 30%, а в отечественных - ещё меньше. В остальных либо ассорти из разных разделов, либо вообще некорректная статистика. Ассорти, это скажем если мы считаем непараметрикой, а на графике даём среднее и ДИ или наоборот, рисуем боксплоты, а сравниваем по Стьюденту или в anova. Не то что так делать нельзя, в некоторых случаях, возможно, может даже нужно, но это нужно и пояснять, чего авторы не делают. Поэтому чаще складывается впечатление, что они не до конца понимают что делают и просто используют готовые блоки из того что делали раньше + уведели в других работах. На мой взгляд в большинстве случаев логично поступать так:
1). Мы находимся на позициях статистики, предполагающей нормальное распределение данных в популяции. Тогда в качестве описательной статистики мы даём средние и ДИ, вычисленные с опорой на t-распредление. Их же приводим на графиках (но не на тех что у вас). Группы сравниваем t-критерием, дисп. анализом. Связи находим корреляцией Пирсона и т.д.
2). Мы находимся на позиции статистики не предполагающей нормального распределения данных, но не хотим огрублять количественные данные до порядковых. Тогда в качестве описательной статистики мы даём средние и какие-либо робастные ДИ, скажем вычисленные с помощью бутстрепа. Их же приводим на графиках. Группы сравниваем методами, не предполагающими норм распредления: перестановочным тестом, робастными вариантами t-критерия и дисп. анализа и т.п. Так же с корреляцией, регрессией и далее.
3). Мы встаём на позицию порядковой статистики, т.е. в подавляющем большинстве случаев просто искусственно отказываемся от своих с трудом добытых данных и заменяем их рангами. С одной стороны это - огрубление данных, но с другой - заметное упрощение анализа, что при не слишком малых выборках практически не сказывается на мощности, а потому приемлемо. Тогда в качестве описательной статистики мы даём боксплоты с медианами, квартилями и минимумом-максимумом в виде усов (обычные усы в 1,5 межквартильных интеравла по Тьюки интерпретируются хуже). Считаю также, что при этом лучше отказываться от от индикации выбросов, т.к. любые методы их обнаружения требуют специального рассмотрения, а это остаётся далеко и глубоко за рамками того, что выдают пакеты по умолчанию.
Что качается вашего рисунка, то он мне не нравится.
Во-первых, сразу бросается в глаза доверительный интервал, уходящий в невозможную здесь область отрицательных значений. Даже неискушённым в статистике людям интуитивно ясно, что здесь что-то не то. Может в остальном они куда безграмотнее нас, но таким рисунком мы сразу даём им повод обвинить нас в недостаточной компетентности и ткнуть в это носом. Зачем?
Во-вторых, и более глубоко. Что вы изображаете на графике: характеристики выборок или результаты дисперсионного анализа? Всё-таки обычно дают первые, а вторые - описывают цифрами. Однако судя по идеально одинаковым ДИ для всех групп у вас на рисунке - результаты дисперсионного анализа и ДИ, вычисленные на основании всего дисперсионного комплекса. Пакет может нарисовать и настоящие исходные (неудачно называемые в Statistica взвешенными), но это нужно задать в результатах anova. И если сравнивали дисп. анализом, то как обрабатывали цензурированные наблюдения типа "менее чем", т.е. "н.ч.м." ("nondetects")? Как ноли? Как значения равные 0,5 нижней границы чувствительности? Это - безграмотно. А грамотный анализ уводит нас далеко в область, которая практически неизвестна большинству исследователей, особенно отечественных. Анализ нондетектов требует искушённости именно в этой области, т.к. методов много, и когда-то лучше одни, когда-то - другие. Чтобы просто осознать степень нашей некомпетентности в этом вопросе, ну и частично заполнить пробел, можно ознакомиться с этим документом:
http://www.epa.gov/osp/hstl/tsc/Singh2006.pdf Дальше поисковиком...
А помимо ДИ, есть варианты всех распространённых анализов, но с цензурированными данными. Есть пакеты, от примитивного ДОСовского Uncensor 4, до монстров типа Scout 2008 (http://www.epa.gov/esd/databases/scout/abstract.htm)? Есть пакеты для R.
Можно долго углубляться в эту область, а можно быстро и просто уйти к порядковой статистике, немного потеряв в мощности. Именно поэтому я посоветовал использовать порядковую описательную статистику и строить боксплоты: чтобы с помощью той же порядковой статистики можно было сравнить группы. Иначе нужно освоить грамотное построение ДИ для данных с нондетектами и спец. варианты анализа таких данных + по ходу изложения ещё и ввести в эту тему читателя.