Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Дисперсионный анализ
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Мария Александровна
Здравствуйте! у меня вопрос по возможности использования дисперсионного анализа, Ситуация такая. Всего 206 пациентов, они делятся на 5 видов заболевания и 5 возрастных групп, необходимо сравнить средние в этих группах для лейкоцитоза и ЛИИ. Число пациентов в подгруппах разное (от 1 до 50). Количественные переменные распределены ненормально если брать все 206, либо если делить на подгруппы то тоже ненормально. Проверка однородности дисперсий тестом Левена в основном р>0,05, средние и стандартные отклонения коррелируют незначительно. Могу ли я проводить сравнение дисперсионным анализом в Stat 6, либо мне необходимо делить их на группы (в сочетании возраст вид заболевания) и сравнивать непараметрическими методами, если второй вариант, то как учитывать множественные сравнения и если барть критерий Краскела-Уоллиса, то каким потом методом узнать значимо отличающиеся средние. Подойдет ли Ньюмена-Кейлса. С уважением, спасибо за помощь.
nokh
Распределение многих признаков и не может быть нормальным по причине самой природы данных. Так, показатели связанные с ростом, развитием и вообще с процессами во времени, а также счетные признаки распределены примерно логарифмически нормально, альтернативные признаки (частоты) - биномиально, редкие события (частоты) - по Пуассону. Для использования в параметрических тестах ненормально распределенные данные предварительно преобразуют. Посмотрите- на этом форуме обсуждались разные преобразования, в т.ч. в темах по дисперсионному анализу. Лучше подбирать преобразование исходя из знаний о природе процесса. Например, если признак это площадь, то её преобразуют извлечением квадратного корня и т.д. вплоть до преобразований, полученных из решения дифференциальных уравнений, описывающих процесс. В общем случае можно использовать преобразование Бокса-Кокса, которое итерационно подбирает нормализующее преобразование для конкретного набора данных (используются данные по всем подгруппам одновременно). Оно обсуждалось на форуме подробно. Автор программы, где его было удобно делать закрыл свой сайт, но в интернете она есть (AtteStat - надстройка для Excel). Есть также бесплатная программа Rundom BC: http://pjadw.tripod.com/legacy.htm#j2 .Так что ненормальность - не проблема. Хуже - единственное наблюдение на ячейку дисперсионного комплекса. Statistica 6 вроде такое "переваривает" сама, но не знаю по каким алгоритмам. Лучше объединить соседние возрастные группы.
Тест Краскела-Уоллиса - непараметрический аналог однофакторного дисп. анализа. А у вас 2 фактора и поэтому обязательно нужно проводить оценку взаимодействия факторов и смотреть его графически, иначе можно получить в корне неверные выводы. Т.е. Краскела-Уоллиса не подойдет. Тест Ньюмена-Кейлса используется в множественных сравнениях (это проще и обычно хуже запланированных сравнений с помощью контрастов) и требует равных объемов выборок. Лучше дисп. анализа тут ничего не придумать.
Мария Александровна
Спасибо за помощь. Сразу извиняюсь за глупые вопросы. Программу по Вашей ссылке я скачала, но данные скопировать не удается. Их нужно вводить от руки? Еще она запрашивает уровень лямбда, как его определить. По сайту я искала - нашла в основном ссылки на преобразование Бокса-Кокса, но пока не понятно как его применить. Была ссылка, что в Stat6 есть функция egen, что это и где ее искать не подскажете? Постараюсь еще поискать и вникнуть. Еесли у меня получится то анализ проводить дальше с преобразованным распределением? А значимость различий можно представлять для непреобразованных? И опять же к вопросу о сравнении средних после выявления значимых различий в дисперсионном анализе: если количество разное то какой критерий предпочесть (Ньюмена-Кейлса не подходит)?
Мария Александровна
По поводу лямбда - вопрос глупый. Нашла на форуме как считать от руки, разобралась что нужно. Но столько переменных считать самой ужас. Может быть есть вариант проще? Спасибо.
nokh
Лямбду, конечно же руками считать не стоит smile.gif, это - итерационный алгоритм, пусть машины считают. Работа с Rundom Box-Cox неудобная (непривычная), но считает она верно - неоднократно проверял. Нужно скопировать колонку цифр в Statistic'е, в Rundom BС выбрать Edit - Paste ... from clipboard - задать номер колонки (1) и нажать Paste, Close. В настройках задать Sample in var 1, Step value 0,001, Transformed data to var 2, округлять до 3 знаков, можно поставить ниже галочку - построит график значений функции правдоподобия. Поставить галочку в single-sample case (я всегда преобразую как одну выборку, хотя программа может подобрать преобразование и для нормальности и для однородности дисперсий одновременно - нужно читать документацию). Запустить - Run. Программа выдаст лямбду, статистику Шапиро-Уилка, а в колонке 2 появятся преобразованные значения. Далее по обратному - Edit, скопировать в буфер колонку 2 и вставить в Статистике. Далее - Table-Clear и все по новой для второй переменной.
Цитата(Мария Александровна @ 13.03.2009 - 00:34) *
А значимость различий можно представлять для непреобразованных? И опять же к вопросу о сравнении средних после выявления значимых различий в дисперсионном анализе: если количество разное то какой критерий предпочесть (Ньюмена-Кейлса не подходит)?

Смысл преобразований - сделать данные подходящими для модели, заложенной в статистическом тесте. Иначе тест применен неверно. Весь этот сыр-бор с Боксом-Коксом и нужен именно для корректной оценки статистической значимости различий! Для сравнений можно взять и LSD, и Шеффе и др. Они дадут близкие результаты. Если хотите с этим разбираться - посмотрите здесь кратко охарактеризованы все распространенные тесты для запланированных (planned) и незапланированных (post-hoc) сравнений: http://faculty.chass.ncsu.edu/garson/PA765/anova.htm#pair . Но чаще нужно не столько указать какая группа (подгруппа) от какой (каких) отличалась, сколько описать структуру различий. Для этого в первом приближении можно использовать доверительные интервалы, которые Statistica выдает на графиках по умолчанию: если интервалы не пересекаются - различия между этими точками значимы. Т.е. можно смотреть в таблице результатов anova значимые эффекты, строить к ним графики и описывать. В отчет можно вставить рисунок для взаимодействия факторов - все будет понятно. Про функцию egen ничего не знаю.
Мария Александровна
Очень признательна за помощь. Программу освоила. Но теперь снова вопросы: в некоторых преобразованиях Шапиро-Вилка 0,965 р=0,112, в другом случае Ш.-В. 0,972 р=0,035, т.е. преобразованные переменные снова распределены ненормально? Что делать? При этом по тесту Левена дисперсии стали неоднородны (до преобразования с этим было в порядке). Правда, критерий Кохрана дает р=0,88. Можно при таких условиях проводить дисперсионный анализ. Спасибо.
nokh
Цитата(Мария Александровна @ 13.03.2009 - 23:43) *
...в некоторых преобразованиях Шапиро-Вилка 0,965 р=0,112, в другом случае Ш.-В. 0,972 р=0,035, т.е. преобразованные переменные снова распределены ненормально? Что делать? При этом по тесту Левена дисперсии стали неоднородны (до преобразования с этим было в порядке)...

Выходит, что не нормально. Но мы постарались по максимуму приблизить данные к требованиям модели. Преобразование Бокса-Кокса не могло ухудшить данные. Скорее всего неоднородность дисперсий не проявлялась изначально из-за одинаково большого разброса значений внутри групп. Теперь кое-где он значительно уменьшился и неоднородность стала явной. Кстати ей способствуют сильные различия в размерах выборок в подгруппах. В принципе, считается что дисперсионный анализ устойчив к небольшим отклонениям от требований модели. Платой за это является рост вероятности ошибок первого рода (лжеоткрытий). Поэтому к трактовке эффектов, находящимся близко к границе выбранного уровня значимости, нужно относиться с острожностью. Но если P будет мало, то все нормально. Обычно так поступают.
(Есть еще два варианта анализа таких данных. (1) Увеличение робастности метода путем модификации (уменьшения) числа степеней свободы в зависимости от степени отклонения от требований модели. Книга с формулами у меня на работе и я не помню есть ли они для двухфакторного анализа или только для однофакторного. Но такой подход в целом не прижился из за сложности. (2) Внедрение в дисперсионный анализ процедуры бутстрэпа, т.е. по-сути проведение не одного, а например, 1000 анализов с выборками, генерируемыми каждый раз заново из исходных данных с возвратом. За этим подходом стоит отличная от классической статистики философия и он требует продвинутого софта. Такая возможность есть в R, но я здесь не смогу подсказать).


Мария Александровна
Думаю, пойду пока путем дисперсионного анализа, тем более, что случаи несоответствия единичны. Спасибо!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.