Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Однофакторный и двухфакторный ANOVA

Автор: Cules2013 22.04.2018 - 14:42

Проводил исследование влияния хронического введения нескольких различных препаратов на крыс. При оценке результатов возникла весьма интересная ситуация: поначалу я взял однофакторный анализ и с помощью пост-хок теста Тьюки сделал множественные сравнения между группами отдельно по каждому из дней. Затем, решил сделать двухфакторный анализ (тоже Тьюки) и вторым фактором выбрал собственно день тестирования. И, о чудо, статистическая мощность критерия заметно возросла, там где раньше была "небольшая" недостоверность между группами, теперь появились достоверные отличия. Проще говоря, получается, что день тестирования тоже влияет на результат и добавляет больше достоверности итогам анализа.
Вот здесь-то и загвоздка:
1. С одной стороны, понятно, что день влияет на результат, т.к. при хроническом лечении у нас наблюдается накопительный эффект
2. С другой стороны, а как я вообще могу быть уверен, что фактор "день" связан именно с этим накопительным эффектом лечения, а не с какими-то другими неучтёнными воздействиями?
3. Изначально, при планировке эксперимента, я не рассматривал "день" как фактор, скорее просто группирующую величину, рассчитывал найти только межгрупповые различия.

Отсюда вопросы: а какой вариант анализа более корректный? Имею ли я право вообще учитывать "день" как фактор, или нет? Меня смущает его неоднозначность и расплывчатость. В примерах двухфакторного ANOVA всегда такие однозначные факторы, вроде пол, возраст и т.п.
Я так понимаю, что оценивая весь массив данных, а не отдельные его части, само собой разумеется, что статистическая мощность возрастает, увеличивается кол-во степеней свободы. Правильно?
Ну и в довесок не до конца понимаю результаты двухфакторного анализа (см. таблицу). Как правильно интерпретировать графу "Source of Variation"? Как правильно оценить вклад каждого из факторов? Значение слов я понимаю, но математический смысл таблицы до меня не доходит.

 Двухфакторный_анализ.xlsx ( 8,94 килобайт ) : 198
 

Автор: nokh 23.04.2018 - 09:45

Цитата(Cules2013 @ 22.04.2018 - 16:42) *
...
Отсюда вопросы: а какой вариант анализа более корректный? Имею ли я право вообще учитывать "день" как фактор, или нет? Меня смущает его неоднозначность и расплывчатость. В примерах двухфакторного ANOVA всегда такие однозначные факторы, вроде пол, возраст и т.п.
Я так понимаю, что оценивая весь массив данных, а не отдельные его части, само собой разумеется, что статистическая мощность возрастает, увеличивается кол-во степеней свободы. Правильно?
Ну и в довесок не до конца понимаю результаты двухфакторного анализа (см. таблицу). Как правильно интерпретировать графу "Source of Variation"? Как правильно оценить вклад каждого из факторов? Значение слов я понимаю, но математический смысл таблицы до меня не доходит.

Для конкретного эксперимента всегда существует наиболее мощный вариант анализа - его и нужно пытаться применить. Если дни присутствуют в схеме - они должны учитываться. Но всё это нужно правильно задать. В вашем случае необходимо использовать сложный анализ повторных измерений. Повторные измерения здесь - измерения одних и тех же крыс в разные дни. Т.е. необходимо учесть, что выборки крыс в разные дни - зависимые выборки. "Сложный" он потому, что помимо общего для всех фактора "День" и случайного фактора "Крыса" (или "Subject"), есть также фактор "Препарат". При этом фактор "Крыса" находится внутри фактора "Препарат", т.к. животные получали только один какой-то препарат и взаимодействие факторов "Крыса х Препарат" невозможно. Это распространённый дизайн и неоднократно обсужался на форуме. Задать его в пакетах можно двумя способами (как делали вы пока непонятно):
1. В модуле "анализ повторных измерений". Обычно здесь крысы - строки, столбцы - дни, и есть ещё столбец с кодами фактора "Препарат", который помечает к какой группе относятся крысы.
2. В модуле общих линейных моделей. В нём один столбец - данные, второй столбец - коды номера животного, третий столбец - код номера дня, четвёртый - код группы (фактор "Препарат").
Результаты обоих подходов идентичны (если не мудрить с типами сумм квадратов SS).

Чтобы понять, как трактовать цифры - нужно читать. Самое доступно-примитивное изложение ANOVA - см. Гланц - Медико-биологическая статистика (1999). Далее нужно понять концепцию взаимодействия факторов, хотя бы на примере двухфакторного перекрёстного ДА. Далее - концепцию иерархического ДА (без взаимодействий). Почитать про случайные и фиксированные факторы: от правильного их задания зависят результаты в сложных ДА (суммы квадратов и средние квадраты получаются одинаковые, но соотносятся MS для получения F по-разному). Фактор "День" в разных схемах может быть как случайным, так и фиксированным. В вашем случае он фиксированный, т.к. мы его можем легко воспроизвести в другом эксперименте: это конкретный день в последовательности приёма препарата.
Далее - "Сложный" ДА, сочетающий перекрёстную и иерархическую модели. По крайней мере я шёл примерно в таком порядке, читал Монтгомери - Планирование эксперимента и анализ данных (1980).

Автор: Cules2013 23.04.2018 - 17:58

nokh, спасибо за ответ!
Я так группировал данные: 1 столбец - день, остальные - различные препараты, где данные расположены по строкам. Вроде как это вариант 1 из тех двух, что у вас есть. Только вы говорите о попарных сравнениях связанных выборок, а я сравнивал все группы между собой по каждому из дней, т.е. несвязанные выборки. Главное, что я не могу понять, что по факту мне даёт фактор "день". Как его воспринимать? Если я смотрю только один фактор "препарат", то всё ясно, а когда "препарат+день", то не совсем понятно какую смысловую нагрузку несёт "день"? Разве не очевидно, что это просто n-ное кол-во времени, в течение которого проявляется эффект препаратов. Меня смущает то, что фактор "день" неразрывно связан с фактором "препарат", без него "день" сам по себе ничего в общем-то и не значит - в контроле изо дня в день данные почти не меняются.

Автор: nokh 9.05.2018 - 00:02

Цитата(Cules2013 @ 23.04.2018 - 19:58) *
nokh, спасибо за ответ!
Я так группировал данные: 1 столбец - день, остальные - различные препараты, где данные расположены по строкам. Вроде как это вариант 1 из тех двух, что у вас есть. Только вы говорите о попарных сравнениях связанных выборок, а я сравнивал все группы между собой по каждому из дней, т.е. несвязанные выборки. Главное, что я не могу понять, что по факту мне даёт фактор "день". Как его воспринимать? Если я смотрю только один фактор "препарат", то всё ясно, а когда "препарат+день", то не совсем понятно какую смысловую нагрузку несёт "день"? Разве не очевидно, что это просто n-ное кол-во времени, в течение которого проявляется эффект препаратов. Меня смущает то, что фактор "день" неразрывно связан с фактором "препарат", без него "день" сам по себе ничего в общем-то и не значит - в контроле изо дня в день данные почти не меняются.

Фактор "День" не связан с фактором "Препарат", это - самостоятельный фактор. То, что вы решили, что он связан с препаратом - это уже интерпретация результатов ANOVA. А прежде чем интерпретировать - нужно анализ провести. К тому же в каких-то ситуациях фактор день может сработать для всех пациентов. Например, метеоусловия, магнитные бури, фазы луны, катастрофы в параллельных мирах, да мало ли что... Короче, это известный экспериментальный план (дизайн эксперимента) для обработки которого не нужно изобретать велосипед. К сожалению, здесь есть терминологическая неразбериха. Где-то он может называться Repeated measurement ANOVA, хотя это его сложный вариант, где-то - как mixed ANOVA. Как задать его в GraphPad не знаю, а в Statistica мы делали это на форуме двумя способами. Как делать в SPSS попалось такое: https://statistics.laerd.com/spss-tutorials/mixed-anova-using-spss-statistics.php Полюбившийся мне PAST пока считает его с ошибками для неравномерных комплексов, поэтому там показывать не буду... Имеет смысл только с R повозиться, но это - время...

Автор: leo_biostat 9.05.2018 - 15:48

Цитата(Cules2013 @ 22.04.2018 - 14:42) *
Однофакторный и двухфакторный ANOVA
.... поначалу я взял однофакторный анализ .... Затем, решил сделать двухфакторный анализ ...


hi.gif, Cules2013

Вы проверили оба обязательных ограничения на корректное использование дисперсионного анализа?
И если проверили, то каковы результаты?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)