Цитата(don @ 18.03.2015 - 17:12)

Добрый день!
Прошу помочь в понимании следующего вопроса.
Распределение значений некоего параметра представлен на рисунке.
Нажмите для просмотра прикрепленного файлаВидно, что большинство значений (80%) = 0.
Нужно сравнить 2 группы по данному параметру.
Вопрос: можно ли применять для сравнения критерий Манна-Уитни, учитывая, что 80% значений признака идентичны, или здесь есть некие проблемы?
В сети нашел следующую информацию
"...основное (принципиально важное) условие применимости критерия МУ: он применим ТОЛЬКО к мерным данным, т.е. таким, моделью для которых являются НЕПРЕРЫВНЫЕ случайные величины (я предпочитаю называть их "вероятностными переменными"). На практике это означает, что среди анализируемых данных не должно быть совпадающих (повторяющихся ? tied ??связанных?) значений. На практике совпадения почти неизбежны, и если их немного, то их влияние не столь заметно, и есть формулы для соответствующих поправок. Но надо знать, что при наличии совпадений критерий перестает быть свободным от распределения (непараметрическим); он начинает зависеть от неизвестной вероятности совпадений."
Товарищи, прокомментируйте пожалуйста!
Следовало бы указать, что это не просто информация из сети, а с нашего обсуждения 7-летней давности в сообществе пользователей SPSS:
http://ru-spss.livejournal.com/94838.htmlТогда было бы понятно, что цитата принадлежит Хромову-Борисову, а в рунете сложно найти биостатистика такого уровня и опыта. Поэтому комментировать сложно, видимо так оно всё и есть. С одной стороны

.
С другой стороны, в хороших учебниках и на грамотных интернет-ресурсах подобные требования к статистическим критериям обычно прописываются. В случае же критерия Уилкоксона - Манна - Уитни я не встречал требования непрерывности, обычно всегда указывается достаточность порядковой шкалы. Я точно не знаю, но не исключено, что исходно критерий разрабатывался исходя из соображений непрерывности, но как оно бывает, он может быть выведен также исходя из других теоретических построений: история статистики знает примеры, когда одни и те же критерии переоткрывались с разных сторон. Например, известно, что критерий Манна - Уитни полностью эквивалентен ридит-анализу для случая двух групп. А ридит-анализ разрабатывался исключительно для анализа таблиц сопряжённости с упорядоченными входами (https://yadi.sk/i/LnDJRT6Se88rB). Т.е. если рассматривать критерий Манна - Уитни в качестве частного случая ридит-анализа, то, насколько я понимаю, отпадает не только требование непрерывности в основе показателя, но также и проблема связанных значений. Как тут быть? Думаю правильнее оттолкнуться от терминов. Под критерием Манна - Уитни или Уилкоксона - Манна - Уитни понимается вполне определённая процедура со своими требованиями к данным (Хромов-Борисов различает даже процедуры Уилкоксона и Манна - Уитни, хотя они дают одно и то же число). Следовательно эти требования должны проверяться и выполняться, даже если эквивалентная процедура ридит-анализа этого не требует. Или же использовать уже тогда ридит-анализ и не писать про М-У. Ну вот такой как бы комментарий.
Что касается анализа ваших данных, то мне видится 2 способа.
(1) Оценка изменения центральной тенденции, т.е. анализ в рамках так называемой "сдвиговой парадигмы": больше - меньше. Можно вообще не заморачиваться с критериями, а считать напрямую рандомизационным тестом. Будет и правильней, и точней, и современней. Отличная книга по таким техникам здесь:
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm(2) Распределение показателя мне видится странным (непонятно только для какой из групп вы его указали, надеюсь не для всех групп в кучу). Скорее всего это - смесь распределений. Если ХА - это хромосомные аберрации, то распределение должно быть близким к пуассоновскому, а здесь на него накладывается горка с пиком в области 0,5-1%. Т.е. скорее всего выборка неоднородна, а следовательно сравнивать различия в центральной тенденции не вполне корректно, т.к. можно стать жертвой парадокса Симпсона (парадокса объединений). Возможно, в данном случае корректнее будет сравнивать данные в таблице сопряжённости, т.е. разбить ряд от 0 до максимума на несколько интервалов, можно таких же как на рисунке, подсчитать число объектов в каждом интервале для каждой группы и сравнить критериями типа хи-квадрат. По сравнению с (1) будет потеря в мощности, но зато можно шире обсуждать различия - а это уже путь к выходу на механизмы. Ну например, может оказаться, что в одной группе меньше и нулевых, и максимальных значений, т.е. группы различаются не средней частотой ХА, а вариабельностью показателя (выход на механизмы генетической нестабильности). Такие вещи в рамках подхода (1), включая и М-У, и ридиты не обнаружить в принципе.