Цитата(kont @ 19.06.2014 - 21:43)

Подскажите, пожалуйста.
Вот есть у меня 10 штаммов бактерий. в каждом по 8 наблюдений. Был высчитан процент редукции.
Вопрос уместно ли использовать Дисперсионный анализ чтобы сравнить средний процент для каждого штамма .
Я проверил на нормальность распределения, но оно различается колмогоров-смирнов <0,05,однако .АНОВА показал достоверность различия
Решил сравнить по критерию Краскаля-Уоллиса , он тоже различия показал. Но Ведь он считает средние ранги, а не среднее значения.
Как в такой ситуации лучше поступить
1. Любой статистический критерий - это некая математическая модель, которую мы применяем к большому числу частных случаев. Исходные данные могут противоречить требованиям этой модели, а могут не противоречить. То, что данные не противоречат модели ещё не значит, что мы выбрали лучшую (наиболее мощную) модель: скорее всего есть другие методы, которые куда лучше подходят для работы конкретно с этими данными. Или же такой оптимальный метод под данные можно разработать и тогда подобных методов будет очень и очень много. Поэтому выбор метода анализа - всегда компромисс между мощностью и универсальностью, который ограничивается также возможностями конкретных пакетов в которых мы считаем. Критерий Краскела - Уоллиса менее мощный, но зато более универсальный тест, + гипотеза которую он проверяет включает в себя также сравнение мер положения (типа среднего, медианы). Поэтому при использовании Краскела - Уоллиса никакого конфликта нет, просто для сравнения штаммов мы используем не самый мощный метод. Если при этом мы не обнаружим интересующих межгрупповых различий, то ещё можем сомневаться, т.к. использовали не самый мощный тест, однако если обнаружим - можно быть спокойным: более мощный тест просто покажет для этих различий ещё меньшие значения р.
2. Несмотря на (1), остаётся вопрос соответствия описательных статистик для каких-то данных и методов анализа этих данных. В принципе в том, чтобы дать средние проценты, а сравнить К-У ошибки нет, но есть некоторая нелогичность. Если для сравнения мы используем критерии на порядковой статистике, то и описательную статистику логичнее давать порядковую, т.е. медиану и квартили, а не средние проценты. Т.е. примерно так:
а) Приводим медиану и квартили - сравниваем К-У (порядковая непараметрика)
б) Приводим средние и 95%-ные ДИ, вычисленные бутстрепом - сравниваем рандомизационным критерием (непараметрические ресемплинг-техники)
в) Приводим средние и 95%-ный ДИ, вычисленный по стандартной ошибке и t-распределению - сраниваем дисперсионным анализом (параметрика).
3. Проценты априори распредлены ненормально, т.к. это - проценты. Можно было по К-С и не проверять. Причём чем сильнее они к 0% или 100% - тем сильнее отклонение. Считается, что если данные лежат в области 30-70% (т.е. около 50%), то отклонением от норм. распределения можно пренебречь. Но я бы с вашими данными работал так:
а) Преобразовал бы относительные частоты (в долях единицы) угловым фи-преобразованием, который переводит ряд от 0 до 1 в ряд от 0 до 3,14 (пи) и нормализует проценты. x_tr=2*arcsin (sqrt(p)), где р - частотв в долях единицы, а арксинус выражен в радианах. Например вместо 10%, т.е. 0,1 будет 0,6435.
б) Сравнил фи-преобразованные данные в ходе однофакторного дисперсионного анализа, провел бы апостериорные сравнения в рамках дисп. комплекса.
в) Рассчитал бы средние и 95%-ные ДИ для преобразованных данных, а затем ретрансформировал бы их в исходную шкалу % обратным преобразованием.
PS. Нельзя проверять распределение на нормальность для заведомо неоднородных данных - групп-то несколько! Проверять нужно распределение остатков дисперсионного комплекса (т.е. из каждого значения в группе вычесть
его групповое среднее и полученные остатки проверять)