Цитата(maxandron @ 24.12.2014 - 02:12)

Здравствуйте! Помогите разобраться в следующем. На конференциях, в публикациях часто встречаю применение критерия Манна-Уитни (например, когда сравнивают какие-нибудь показатели в двух группах животных: контрольной и получающей препарат X). Но, вроде как, должно быть обоснование использования того или иного критерия. Почитав некоторые работы и обсуждения на данном форуме, немного непонятно: почему бы не использовать, например, ANOVA. При разговоре с авторами получал разные ответы: написано в руководствах, поэтому и применяли; выборка маленькая (по 10 крыс в каждой из групп) и т.д. Поэтому, могли бы специалисты именно в стат. обработке данных пояснить, как правильно и грамотно обосновать применение того же критерия Манна-Уитни? Когда есть необходимость в непараметрику уходить? Здесь вспоминается показательный пример, про который рассказывали на конференции по исследованию биоэквивалентности лс. Результаты существенно отличались: если непараметрику использовать два препарата-эквивалентны, если параметрику-не эквивалентны. Но там, в руководствах, все четко прописано: лог-преобразование данных, ANOVA и т.д.
Жду ответа! Заранее благодарен за помощь!
Официальная наука - это определённая система договорённостей. Начать можно хотя бы с того, что принятые 5% на ошибку I рода - это просто некое число, не имеющее никакого теоретического фундамента. Но как бы вы ни считали, а трактовать результат придётся относительно этого числа. Поэтому, по большому счёту, независимо от адекватности, мощности, новизны, крутизны и т.д. статистического метода, решение хоть как будет отчасти внестатистическим. Поэтому, если главная задача исследования - практическая, то можно руководствоваться правилом: делать так, чтобы результат принимался коллегами... ну, и хорошо бы, чтобы ещё похвалили

. А значит лучше ориентироваться на грамотных и/или авторитетных коллег, на авторитетные руководства. Поскольку в медицине мнение авторитетных людей весит куда больше чем во многих других науках,
на первых порах этого будет вполне достаточно. Следуя этой логике, получается, что те, кто говорит "написано в руководствах" очень даже неплохо отвечают. Сложность в том, что эти руководства нужно штудировать.
Что касается перечисленных вами методов, то своя логика есть и за всеми этими методами и за многочисленными другими. Логика и возникающие вопросы примерно такие.
1). Почему когда мы сравниваем 2 группы, то сразу говорим о средних (медианах)? Это - так называемые меры положения. А если изменится не среднее, а разброс значений - совсем другая характеристика, которая и оценивается иначе (меры рассеяния, масштаба) и трактуется. А если изменится форма распределения показателя - это, с теоретической точки зрения на процесс пожалуй покруче любого изменения среднего будет... Поэтому методов куда больше перечисленных. Не все можно применить на сверхмалых выборках, но тем не менее... Кстати, в математической статистике малой считается выборка в 25-30 наблюдений, ну а 10 - это уже типа пилотное исследование.
2) Что касается мер положения, то выбор метода можно поставить в зависимость от степени изученности показателя. Если известно, что показатель распределён в популяции нормально или логарифмически нормально, то неразумно отказываться от этой информации. Т.е. лучше опереться на параметры этих распределений, особенно в случае сверхмалых выборок. Поскольку мы в таком параметрическом подходе используем дополнительную информацию (знание о законе распределения в популяции) - получаем выигрыш в мощности. Сложность в том, что характер распределения в популяции нам часто неизвестен, а оценить его по выборке часто не позволяет её объём. В случае параметрического подхода для 2 групп обычно используют t-критерий Стьюдента, в том числе в модификации Уэлча, а не дисперсионный анализ (ANOVA). Хотя оба метода дадут идентичный результат (F-критерий = t
2), если не стоит задача вычисления компонентов дисперсии людям привычнее видеть t.
3) Если распределение ненормальное, оно может быть приведено к нормальному с помощью преобразований типа логарифмирования, квадратного корня, Бокса-Кокса и т.д. Глупо ждать нормального распределения от площади, а не от квадратного корня из неё, или нормального распределения от численности популяции организмов, а не от её логарифма. Преобразовываем, сравниваем параметрикой, делаем выводы. Хотя есть на свете упрямцы, которые считают, что "правильные данные" - это те, что они намерили своими примитивными инструментами, а не функции о них, призванные привести в соответствие наши линейки с линейками Природы.
4) Если данные распределены в популяции ненормально или исследователь не хочет их трансформировать - используем непараметрику. Критериев много, у всех свои особенности и ограничения, хотя и не такие строгие как у параметрических методов. Например, критерий Манна - Уитни сравнивает функции распределений, отклоняя нулевую гипотезу подтверждает не все возможные альтернативные и требует одинакового типа распределений. Кто из практиков про это знает/говорит?
5) Всю эту кучу информации можно сделать ненужной для практики, если опираться на другую логику. Зачем мудрить, если можно ответить на вопрос не прибегая к статистическим критериям. Это тот путь, который вам предлагает p2004r. Можно, например, перемешать ваши данные из обеих групп и сделать из них новые выборки, для которых найти разность средних. Потом снова перемешать и снова найти. И так раз эдак тысяч десять. Затем оценить частоту (вероятность) наблюдать имеющуюся разность по сравнению со случайной в перемешанных данных. Это так называемая рандомизационная техника, один из её вариантов. Или можно генерировать новые псевдовыборки из имеющихся данных и находить разность для них, затем построить распределение этой разности и найти его 95% ДИ. Если он содержит ноль - группы не различаются, не содержит - различаются. Это - вариант бутстрепа. Ввиду универсальности и того, что сейчас компьютеры это считают быстро - такие ресэмплинг-техники хорошая альтернатива классческой (не)параметрике. Почитайте Шитикова, книга написана хорошим языком, для людей и с примерами:
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm