Цитата(Aliaks @ 8.02.2015 - 21:05)

Вы уж извините, что на форуме для врачей задаю вопросы об интерпретации результатов эксперимента в области биотехнологии растений.
Просто никто из коллег не смог ответить на мои вопросы. А я понадеялся, что у медиков дела со статистикой обстоят получше, чем у биологов.
Фактор А - 20 генотипов растений. Каждый генотип представлен 50 клонами. Из числа этих клонов отбирали четыре группы по 5 растений.
Растения в пределах каждой группы гомогенизировались - это и есть повторности.
Как эколог - биотехнологу: это - лучший русскоязычный форум по биостатистике, здесь далеко не только медики

Я почему спросил: 4 повторности можно организовать по-разному. (1) можно 4 раза измерять один и тот же образец - это будут измерения
внутри образца (вложенный или иерархический эффект). (2) можно несколько раз провести сам эксперимент, тогда нужно вводить случайный фактор "эксперимент". В вашем дизайне эти 4 измерения выполняют роль обычных объектов, т.е. не являются ни повторными измерениями, ни повторностями в широком смысле (собственно, повторностями). Т.е. это просто 4 значения в ячейке дисперсионного комплекса.
1). Раз в ячейке 4 значения - как можно проверить их на выбросы? Ведь анализом предполагается, что нормальное распределение - в этой ячейке (не совсем корректно, но по-сути - так). 4 проверить нельзя, а объединённые данные - тем более, т.к. якобы "выбросы" могут оказаться результатом действия факторов или их взаимодействий. Убирайте пункт 1). На выбросы имеет смысл проверить данные после оцифровки данных для обнаружения возможных ошибок набора (пропущенная десятичная запятая, 2 значения подряд при несработавшей Enter и т.п.) - можно графически, можно по описательной статистике.
2). Верно. Но логарифмирование - под вопросом. Если из литературы или теории известно, что ваши показатели распределены обычно логнормально - вопрос отпадает. Если же это результат исключительно графического анализа распределения остатков, логарифмирование - грубо. Лучше использовать преобразование Бокса - Кокса (для всего массива данных по асимметричному показателю). Если лямбда будет близка к 0 (где то от -0,1 до 0,1, или чуть шире) можно для простоты использовать преобразование логарифма, если далеко от нуля - делать преобразование Бокса - Кокса с данным конкретным значением лямбды. Про % написал выше. Есть и более экзотические угловые преобразования, типа углового преобразования Фримана - Тьюки для биномиально распределённых данных (не путать с преобразованием Фримана - Тьюки типа квадратного корня для редких событий). Но классика - фи-преобразование. Лучше в радианах, тогда значения от 0 до 100% трансформируются в значения от 0 до пи (3,14).
3) Нормально
4) Для попарных сравнений никаких нормальности и однородности уже не нужно. Это делается на этапе 2) - проверка требований ANOVA.
Методов для апостериорных сравнений много, не обязательно такой консервативный брать как Тьюки, но и он пойдёт. Про Тамхейна услышал впервые, не знаю, обычно при неравных дисперсиях используют Геймса-Ховела.
5) Ретрансформация - отдельный пункт, т.к. все выводы уже сделаны в 4), а здесь - отдельная задача. Если использовалась трансформация - то при расчёте среднего и ДИ логично использовать ретрансформацию (независимо от (не)однородности дисперсий - откуда это вообще). Здесь есть тонкость: обычная ретрансформация называется наивной (naive retransformation), она даёт несколько смещённые оценки для популяционных средних. Если в работе важен именно сравнительный аспект (пункты 3 и 4), то можно обойтись и наивной: часто методики по которым работают исследователи столь нестандартизованы, что толку от значений собственно средних нет, важно только где больше или меньше. Если же важно также привести средние и ДИ поточнее, именно как полученные в эксперименте популяционные характеристики - правильнее будет повозиться с ретрансформацией - читать в учебнике Zar главу 13 (https://yadi.sk/i/1OY_84-0cZXj4). В случае Бокса - Кокса наивная ретрансформация посложнее чем для логарифмов и арксинусов, но только чуть-чуть, а вот несмещённая - заметно сложнее и есть разные способы (но это уже дебри).
Медиана и межквартильный размах - из другой оперы. Если приводить порядковую статистику, то и сравнения логично делать порядковой непараметрикой: вместо дисп. анализа - критерий Фридмана с попарными сравнениями по Неменьи или типа того. Можно привести среднее и ДИ вычисленное бутстрепом, но тогда и сравнения делать ресэмплинг-техникой: рандомизационным дисп. анализом.
PS Т.к. у вас несколько признаков будьте готовы ответить на вопросы вроде: "а что там у вас с ошибкой I рода (типа)?", "а почему не использовали MANOVA?"
PPS На форуме есть чудик, любящий после моего развёрнутого ответа ляпнуть что-нибудь своё блаженное невпопад, но близко к теме - тоже будьте готовы:)