Цитата(Sib @ 14.08.2010 - 02:52)

С благодарностью воспользуюсь Вашим рекомендациями.
Имеется 130 больных одной нозологии. Из них 54 больных составляют контрольную группу, 76 - группу сравнения, последняя получает дополнительное лечение в течение года. Обе группы разбиты по тяжести еще на три подгруппы (легкая , средняя и тяжелая). Эффективность лечения (стандартного и дополнительного) в группах оценивается в динамике: исходно, через 3, 6 и 12 мес. Оценивается по клиническим данных (в баллах), качеству жизни (в баллах) и переносимости физической нагрузки (нагрузочный тест, в метрах). Срвниваем в динамике:
1. эффект лечения в целом контрольной группы (54) и группы сравнения (76) , независимо от тяжести больных, сравниваем средние внутригрупповые и межгрупповые;
2. эффект лечения отдельно больных легкой степени (в контроле ? 19, в сравнении - 24), сравниваем средние внутри- и межгрупповые;
3. аналогично - больные средней тяжести (35 и 22);
4. аналогично ? тяжелые больные (17 и 13).
...
Жду Вашего совета.
Итак. Начну с конца. У Вас имеется три показателя, которые Вы хотите проанализировать. Поскольку, очевидно, речь не идет о РКИ, то группы не сбалансированы по основным факторам риска (предиктивным факторам). Соответственно, необходимо использовать многофакторную статистическую модель, чтобы учесть взаимодействия между этими факторами и их влияние на переменные исхода. Как уже неоднократно упоминалось, непараметрических многофакторных моделей в принципе не существует (не совсем так, они разрабатываются, но для начинающих пользователей проще считать, что их нет - вряд ли они будут самостоятельно осуществлять операции с матрицами). Соответственно, если человек начинает считать, что у него не известное распределение (это и есть основание для использование непараметрики - распределение не известно и мы отбрасываем информацию о точном значении показателя, заменяя его порядковым номером - рангом), то он отказывается от использования многофакторных моделей, а в Вашем случае это равносильно отказу от возможности вообще проанализировать результаты (ибо унивариантный анализ - сравнения без учета факторов риска - является ошибочным (кстати, ошибка будет мно-о-о-го больше, чем от использования t-критерия в случае не нормального распределения).
Если есть сомнения в нормальности распределения, то можно попытаться данные нормализовать, например путем логарифмирования или взятия обратной данным величины, или извлечением квадратного корня (не говоря уж о преобразовании Бокса-Кокса).
Теперь вернемся к Вашим данным. У Вас три типа зависимых переменных, соответственно нужны три модели
1) Клинические данные (баллы). Не понятно, сколько этих баллов может быть. Теоретически баллы - это ординальная шкала, соответственно, нормального распределения быть не может, распределение не нормализуемое, см. выше проблему невозможности провести анализ. Однако если количество баллов велико (как, например, в случае со шкалами качества жизни), распределение баллов аппроксимируется нормальным (на самом деле опросники просто нормализуются, т.е. конструируются баллы так, чтоб оценка имела распределение как можно более близкое к нормальному). Если баллов мало - 1-3 класса, то тогда задачу лучше переформулировать в терминах ординальной логистической регрессии.
2) Качество жизни. Как сказано выше, шкалы качества жизни (например, SF-36), обычно нормализованы. Поэтому считаем зависимую переменную количественной и соответствующим методом анализа будет ANCOVA. Теперь обратимся к независимым переменным - таких Вы описали две (эффективность лечения и тяжесть). Меня, в этой ситуации немного удивляет отсутствие учета возраста и пола (если только это не были женщины одного возраста), а также ряда других показателей, влияющих на исход - эти переменные можно будет добавить. В реальности у Вас есть еще одна переменная - это время, поскольку качество жизни измерялось в четырех точках. Это превращает модель в модель с повторными измерениями. Итак для анализа нам необходима ANCOVA c повторными измерениями или смешанная модель.
Почему именно так? Во-первых учет исходного значения показателя необходим. Изменения типа 4-5 5-6 никогда не будут достоверными, хотя видно, что имеется четкая тенденция к изменению (повышению) показателя. Соответственно, игнорирование зависимого характера данных резко снижает мощность исследования. Если бы речь шла о унивариантном анализе, надо бы было вычитать из 3х месяцев показатель исхода и использовать такую переменную. Однако на 6 месяцах уже появляется проблема, что надо вычитать - исходное значение или значение 3х месяцев? Соответственно, лучше не вычитать, а принять возможность изменений и как-то их описать в модели. Во-вторых, любой анализ по отдельным группам резко снижает мощность исследования. Если анализировать отдельно 3 и 6 месяцев, то каждый анализ будет базироваться на 130 объектах. Если же мы используем анализ с повторными измерениями, то для оценки случайной ошибки (откуда затем оценивается достоверность всех параметров модели) используется 520 объектов. Опять-таки вычислительные эксперименты показывают, что размер выборки играет зна-а-ачительно более существенную роль в определении предиктивного значения теста, нежели использование непараметрики вместо обычного t-теста при явно ненормальных распределениях (прямоугольном, с тяжелыми хвостами и т.п.).
Итак, методом анализа является ANCOVA (GLM) с повторными измерениями. Независимыми факторами (пока) являются бинарный фактор "эффективность лечения" (лучше кодировать его 0 и 1) и ординальный фактор "тяжесть заболевания" с тремя уровнями. Ординальные факторы в ANCOVA учитываются не очень хорошо (путем манипуляции контрастами), поэтому я бы разделил тяжесть заболевания на два фактора "средняя тяжесть" и "тяжелое". Тогда базовым фактором - с которым все сравнивается будет легкое течение. Оба фактора тяжести должны быть бинарными (0/1). Кроме того, появляется независимый фактор "время" (0,1,2,4), который является повторным (обратите внимание на кодировку - она отражает расстояние между временными точками).
Далее надо продумать взаимодействие между факторами. Первое следует из основной задачи - взаимодействие между фактором эффективности и времени. Кроме того, предполагается, что будет взаимодействие между тяжестью и эффективностью и временем. Если обозначить три имеющихся фактора как A, B и C, то надо начать рассмотрение ситуации с модели
A+B+C+A*B+A*C+B*C+A*B*C.
Затем обсчитать модель
A+B+C+A*B+A*C+B*C
и посмотреть, не потеряли ли мы значительный объем информации (по изменению квадратов ошибки)
и так далее до тех пор, пока не получим простейшую модель, которая значимо не отличается от полной.
На этом моделирование закончено и можно начинать анализ полученной модели данных, смотря на то, какие коэффициенты оказались значимыми (самое главное, чтобы остались в модели показатели, связанные с фактором времени и эффективности).
Та самая "куча цифр в тблицах" строго говоря своится к простым вопросам - те показатели, которые указаны в строке таблицы, отличаются значимо от нуля (р<0,05) или нет? Например, если A*B отличается, значит фактор параметры КЖ меняются по-разному в зависимости от времени в разных группах лечения (тот вопрос, который Вас интересует). Как конкретно оно меняется - смотрите по рисункам (или по post-hoc тестам).
3) Зависимая переменная переносимость физической нагрузки - анализ аналогичен качеству жизни выше.
Как это все обсчитать? Зависит от программы и того, как организованы данные. Например, если данные находятся в широкой форме:
t1 t2 t3 t4 эффект тяжесть,
подходы будут иными по сравнению с длинной формой
time Id эффект тяжесть
При этом разные программы требуют разные форматы данных (и зачастую разные процедуры одной и той же программы требуют разные форматы - пример - PROC GLM и PROC MIXED в SAS).
Я принципиально стараюсь не объяснять, как что-то делается в Statistica. Причина тому элементарная, в ней нет командного языка (точнее он не развитый), поэтому объяснять значительно сложнее (надо, строго говоря, делать постоянные скриншоты всех этапов, см. например, туториал nokh парой постов ранее), сложность которая появляется из-за лени пользователей осваивать нормальные статистические пакеты (R, SPSS, Stata, SAS). Если Statistica пакет "интуитивный", тогда и ничего объяснять не надо, все должно быть понятно из описания модели выше. Если не "интуитивный", то я не хочу поощрять его использование (тем более, что чаще всего речь идет о пиратской копии). Хотя другие специалисты могут придерживаться иного мнения

.
Самое важно - объяснить системе, что один из факторов (время) является фактором повторных измерений, т.е. его значения коррелируют друг с другом. Делается это при помощи команды REPEATED в SAS/SPSS или Error в R.
Объяснение, как анализ делается в R хорошо показано здесь
http://www.psych.upenn.edu/~baron/rpsych/r...000000000000000 и здесь
http://www.ats.ucla.edu/stat/R/seminars/Re...ed_measures.htm Надо только обратить внимание, что у Вас несбалансированный дизайн, поэтому команда aov не пойдет, нужна команда lme.
Анализ повторных измерений в SAS можно почитать, например тут
http://www.ats.ucla.edu/stat/sas/library/repeated_ut.htm и тут
http://www.stattutorials.com/SAS/TUTORIAL-...-GLM-REPEAT.htmВ SPSS тут
http://www.ats.ucla.edu/stat/spss/seminars...res/default.htmОбычно синтаксис SPSS и SAS похож, поэтому понимание того, как что делается в одной программе позволяет разобраться в другой. С другой стороны, единственная бесплатная программа из этой группы - это R.
P.S. В реальности проблема в том, что исследования со - скажем так - не очень качественным дизайном (т.е. обсервационные несбалансированные, а не сбалансированные РКИ), требуют значительных познаний в статистике для моделирования. Поэтому если исследователь экономит время на планировании исследования, то он должен потратить его на более глубокое освоение статистики. Разобраться с ANCOVA не разобравшись с t-тестом и простым ДА невозможно. Поэтому если написанное выше не совсем понятно ("не" можно переставить), стоит начать с того, чтобы отобрать группу с течением средней тяжести и двумя точками (исход-три месяца) сделать вначале t-тест и ДА для связанных переменных (1), затем повторить анализ, заменив значения на разность и убедиться, что результаты одинаковые (2), затем, разобравшись с результатами сделать анализ для всех степеней тяжести и двух точек (это будет двухфакторный ДА с разностью в качестве зависимой переменной (3)) и потом вернуться к двум отдельным точкам и сделать анализ как анализ повторных измерений (4), увидеть одинаковость с тем, что было на предыдущем этапе. И только тогда переходить к полной ANCOVA с повторными измерениями (5). Сразу перейти к этапу 5 вряд ли удастся.