Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Критерий Манна-Уитни
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
don
Добрый день!
Прошу помочь в понимании следующего вопроса.
Распределение значений некоего параметра представлено на рисунке.
Нажмите для просмотра прикрепленного файла
Видно, что большинство значений (80%) = 0.
Нужно сравнить 2 группы по данному параметру.
Вопрос: можно ли применять для сравнения критерий Манна-Уитни, учитывая, что 80% значений признака идентичны, или здесь есть некие проблемы?
В сети нашел следующую информацию
"...основное (принципиально важное) условие применимости критерия МУ: он применим ТОЛЬКО к мерным данным, т.е. таким, моделью для которых являются НЕПРЕРЫВНЫЕ случайные величины (я предпочитаю называть их "вероятностными переменными"). На практике это означает, что среди анализируемых данных не должно быть совпадающих (повторяющихся ? tied ??связанных?) значений. На практике совпадения почти неизбежны, и если их немного, то их влияние не столь заметно, и есть формулы для соответствующих поправок. Но надо знать, что при наличии совпадений критерий перестает быть свободным от распределения (непараметрическим); он начинает зависеть от неизвестной вероятности совпадений."
Товарищи, прокомментируйте пожалуйста!
nokh
Цитата(don @ 18.03.2015 - 17:12) *
Добрый день!
Прошу помочь в понимании следующего вопроса.
Распределение значений некоего параметра представлен на рисунке.
Нажмите для просмотра прикрепленного файла
Видно, что большинство значений (80%) = 0.
Нужно сравнить 2 группы по данному параметру.
Вопрос: можно ли применять для сравнения критерий Манна-Уитни, учитывая, что 80% значений признака идентичны, или здесь есть некие проблемы?
В сети нашел следующую информацию
"...основное (принципиально важное) условие применимости критерия МУ: он применим ТОЛЬКО к мерным данным, т.е. таким, моделью для которых являются НЕПРЕРЫВНЫЕ случайные величины (я предпочитаю называть их "вероятностными переменными"). На практике это означает, что среди анализируемых данных не должно быть совпадающих (повторяющихся ? tied ??связанных?) значений. На практике совпадения почти неизбежны, и если их немного, то их влияние не столь заметно, и есть формулы для соответствующих поправок. Но надо знать, что при наличии совпадений критерий перестает быть свободным от распределения (непараметрическим); он начинает зависеть от неизвестной вероятности совпадений."
Товарищи, прокомментируйте пожалуйста!

Следовало бы указать, что это не просто информация из сети, а с нашего обсуждения 7-летней давности в сообществе пользователей SPSS: http://ru-spss.livejournal.com/94838.html
Тогда было бы понятно, что цитата принадлежит Хромову-Борисову, а в рунете сложно найти биостатистика такого уровня и опыта. Поэтому комментировать сложно, видимо так оно всё и есть. С одной стороны smile.gif.
С другой стороны, в хороших учебниках и на грамотных интернет-ресурсах подобные требования к статистическим критериям обычно прописываются. В случае же критерия Уилкоксона - Манна - Уитни я не встречал требования непрерывности, обычно всегда указывается достаточность порядковой шкалы. Я точно не знаю, но не исключено, что исходно критерий разрабатывался исходя из соображений непрерывности, но как оно бывает, он может быть выведен также исходя из других теоретических построений: история статистики знает примеры, когда одни и те же критерии переоткрывались с разных сторон. Например, известно, что критерий Манна - Уитни полностью эквивалентен ридит-анализу для случая двух групп. А ридит-анализ разрабатывался исключительно для анализа таблиц сопряжённости с упорядоченными входами (https://yadi.sk/i/LnDJRT6Se88rB). Т.е. если рассматривать критерий Манна - Уитни в качестве частного случая ридит-анализа, то, насколько я понимаю, отпадает не только требование непрерывности в основе показателя, но также и проблема связанных значений. Как тут быть? Думаю правильнее оттолкнуться от терминов. Под критерием Манна - Уитни или Уилкоксона - Манна - Уитни понимается вполне определённая процедура со своими требованиями к данным (Хромов-Борисов различает даже процедуры Уилкоксона и Манна - Уитни, хотя они дают одно и то же число). Следовательно эти требования должны проверяться и выполняться, даже если эквивалентная процедура ридит-анализа этого не требует. Или же использовать уже тогда ридит-анализ и не писать про М-У. Ну вот такой как бы комментарий.

Что касается анализа ваших данных, то мне видится 2 способа.

(1) Оценка изменения центральной тенденции, т.е. анализ в рамках так называемой "сдвиговой парадигмы": больше - меньше. Можно вообще не заморачиваться с критериями, а считать напрямую рандомизационным тестом. Будет и правильней, и точней, и современней. Отличная книга по таким техникам здесь: http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm

(2) Распределение показателя мне видится странным (непонятно только для какой из групп вы его указали, надеюсь не для всех групп в кучу). Скорее всего это - смесь распределений. Если ХА - это хромосомные аберрации, то распределение должно быть близким к пуассоновскому, а здесь на него накладывается горка с пиком в области 0,5-1%. Т.е. скорее всего выборка неоднородна, а следовательно сравнивать различия в центральной тенденции не вполне корректно, т.к. можно стать жертвой парадокса Симпсона (парадокса объединений). Возможно, в данном случае корректнее будет сравнивать данные в таблице сопряжённости, т.е. разбить ряд от 0 до максимума на несколько интервалов, можно таких же как на рисунке, подсчитать число объектов в каждом интервале для каждой группы и сравнить критериями типа хи-квадрат. По сравнению с (1) будет потеря в мощности, но зато можно шире обсуждать различия - а это уже путь к выходу на механизмы. Ну например, может оказаться, что в одной группе меньше и нулевых, и максимальных значений, т.е. группы различаются не средней частотой ХА, а вариабельностью показателя (выход на механизмы генетической нестабильности). Такие вещи в рамках подхода (1), включая и М-У, и ридиты не обнаружить в принципе.
don
Благодарю за ответ!
На рисунке - распределение частот аберраций в группе облученных лиц.
Я решил разбить данную выборку на 2 категории: 1) ниже референтного значения (0,2% в среднем для контрольной группы по результатам исследований) и 2) выше 0,2%
и таким образом перейти от непрерывной величины к бинарной
anserovtv
Цитата(don @ 22.03.2015 - 16:27) *
Я решил разбить данную выборку на 2 категории: 1) ниже референтного значения (0,2% в среднем для контрольной группы по результатам исследований) и 2) выше 0,2%
и таким образом перейти от непрерывной величины к бинарной

Я сделал вычисления: при данном подходе может не хватить объемов выборок для достижения приемлемого уровня мощности критерия, т.е мощность критерия может оказаться менее 0,8.
don
Цитата(anserovtv @ 23.03.2015 - 11:14) *
Я сделал вычисления: при данном подходе может не хватить объемов выборок для достижения приемлемого уровня мощности критерия, т.е мощность критерия может оказаться менее 0,8.

1) не могли бы Вы рассказать подробнее - какие вычисления Вы провели?
2) я предполагаю анализировать данную величину между 2 группами по точному тесту фишера и отношением шансов, а Вы что предлагаете?
don
Цитата(nokh @ 19.03.2015 - 23:59) *
(1) Оценка изменения центральной тенденции, т.е. анализ в рамках так называемой "сдвиговой парадигмы": больше - меньше. Можно вообще не заморачиваться с критериями, а считать напрямую рандомизационным тестом. Будет и правильней, и точней, и современней. Отличная книга по таким техникам здесь: http://www.ievbras.ru/ecostat/Kiril/Article/A32/Stare.htm

То есть, оценить медианы и их бутстреп-полученный доверительный интервал между сравниваемыми группами?
Цитата(nokh @ 19.03.2015 - 23:59) *
(2) Распределение показателя мне видится странным (непонятно только для какой из групп вы его указали, надеюсь не для всех групп в кучу). Скорее всего это - смесь распределений. Если ХА - это хромосомные аберрации, то распределение должно быть близким к пуассоновскому, а здесь на него накладывается горка с пиком в области 0,5-1%. Т.е. скорее всего выборка неоднородна, а следовательно сравнивать различия в центральной тенденции не вполне корректно, т.к. можно стать жертвой парадокса Симпсона (парадокса объединений). Возможно, в данном случае корректнее будет сравнивать данные в таблице сопряжённости, т.е. разбить ряд от 0 до максимума на несколько интервалов, можно таких же как на рисунке, подсчитать число объектов в каждом интервале для каждой группы и сравнить критериями типа хи-квадрат. По сравнению с (1) будет потеря в мощности, но зато можно шире обсуждать различия - а это уже путь к выходу на механизмы. Ну например, может оказаться, что в одной группе меньше и нулевых, и максимальных значений, т.е. группы различаются не средней частотой ХА, а вариабельностью показателя (выход на механизмы генетической нестабильности). Такие вещи в рамках подхода (1), включая и М-У, и ридиты не обнаружить в принципе.

Имеется 13 SNP локусов, между генотипами которых (с использованием разных генетич. моделей) планируется оценить различие в ХА.
Боюсь, что при разделении на количество групп большее чем 2, в таблицах сопряженности будет часто встречаться нулевая частота.
anserovtv
Да, критерий Фишера или хи-квадрат.
http://vigg.ru/news/news-single/article/se...i-bezopasnosti/
nokh
Цитата(don @ 22.03.2015 - 18:27) *
Я решил разбить данную выборку на 2 категории: 1) ниже референтного значения (0,2% в среднем для контрольной группы по результатам исследований) и 2) выше 0,2%
и таким образом перейти от непрерывной величины к бинарной

Нормально, логика в этом есть: по результатам такой таблицы можно рассчитать именно относительный риск превышения частоты ХА контрольного уровня. Мне больше нравится относительный риск - вполне понятная мера, для RR также можно рассчитать 95% ДИ - вполне современно будет. Сейчас отношения шансов толкают куда надо и не надо...

По поводу мощности не грейтесь: её всегда не хватает в Зазеркалье. А в нашем реальном мире - это уже проведённое исследование, а после драки кулаками не машут: есть именно то, что имеем. Если стоим на фриквентистских позициях - считаем р-значение, на байесовских позициях - байесовский фактор и не ноем.
Цитата(don @ 23.03.2015 - 11:10) *
Имеется 13 SNP локусов, между генотипами которых (с использованием разных генетич. моделей) планируется оценить различие в ХА.
Боюсь, что при разделении на количество групп большее чем 2, в таблицах сопряженности будет часто встречаться нулевая частота.

Если считать дедовским способами - действительно, могут быть проблемы. Если хотите серьёзную современную статистику - никакого хи-квадрата (он хуже обоснован теоретически G-критерия отношения правдоподобия) и никакого точного метода Фишера (он базируется на гипергеометрическом распределении, а в наших задачах - биномиальное или полиномиальное). Таблицы сопряжённости нужно обсчитывать точным перестановочным критерием (exact permutation test) - никаких проблем с нулевыми ячейками. Специализированная программа - StatXact от Cytel Studio, разработчики других пакетов пользуются их алгоритмами по лицензии. Кстати там же можно обсчитать таблицы с упорядоченными категориями, если там есть Манн - Уитни - можно пользоваться + их руководство полистать, оно качественное.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.