Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Сравнение групп с учетом сторонних факторов
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
mix3d
Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит...

Мой вопрос касается корректировки при сравнении групп.

Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д.

Построение модели не требуется.

Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр.

Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)?

И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...?

Большое спасибо!
nokh
Цитата(mix3d @ 1.09.2009 - 22:41) *
Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит...

В другом разделе Вы пожелали чтобы вам ответили модераторы - никто из обычных "духов" форума и не осмелился встревать smile.gif.
Цитата(mix3d @ 1.09.2009 - 22:41) *
Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д. Построение модели не требуется.
Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр.
Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)?
И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...?
Большое спасибо!

Да, эта задача решается ковариационным анализом в следующей модели:
Отклик - ваш Показатель;
Качественные предикторы (факторы) - Группа (3 градации), Пол (2 градации) и Заболевание (3-4 или более градаций);
Количественный предиктор (ковариата) - Возраст.

Поскольку заболевания - качественный фактор, вы можете закодировать их самым произвольным образом (например 0 - АГ+ИБС, 1 - отсутствие заболевания и т.д. - хотя это и неудобно и лучше упорядочить как у Вас), т.е. коды не несут количественной информации о степени влияния на признак.
ANCOVA - линейная процедура, и хотя теоретически её можно обобщить и на нелинейный отклик, мне неизвестны пакеты, где была бы реализована такая возможность. Поэтому в случае отчетливо нелинейной зависимости Признака от Возраста единственным выходом из ситуации будет искусственная линеаризация отклика с помощью известного из теоретических соображений преобразования (или с помощью преобразования Бокса-Кокса по методу Зарембки в случае неизвестной из теории, но не слишком сложной нелинейной зависимости). Преобразования никак не помешают интерпретации результатов, но приблизят данные к требованиям статистической модели.
Статистическая значимость межгрупповых различий, а также влияния других предикторов и их взаимодействий оценивается обычным F-критерием (критерием дисперсионного отношения) - это к вопросу о р.
Плюс такого анализа - одновременный учёт всех влияющих факторов и следовательно - наиболее правильная оценка истинных межгрупповых различий. Она будет согласованной (adjusted) на все прочие факторы, как и оценки любого другого фактора.
Минусы анализа: сложность и вероятное нарушение допущений модели. Сложность не столько в техническом плане, сколько в плане верной интерпретации результатов. По сути модель предполагает полную однородность наклонов регрессий Признака от Возраста во всех ячейках комплекса. Т.е., например, для женщин с первой формой фибрилляции и наличием АГ и мужчин с третьей формой фибрилляции и отсутствием АГ и ИБС (не знаю возможно ли такое, но главное - идея понятна) зависимость признака от возраста должна быть линейной, а сами линии - параллельны. Отсутствие однородности наклонов (непараллельность) ведёт к неверному обсчету модели и следовательно - к неверной интерпретации. Поэтому чтобы разобраться "что к чему" на практике потребуется провести не один, а несколько анализов (с исключением или перегруппировкой каких-то факторов, посмотреть наклоны в отдельных ячейках и т.д.). Если даже однородность дисперсий в ANOVA наблюдается далеко не всегда, то однородность ковариаций в таких сложных ANCOVA - вообще редкая вещь, а это также может привести к ошибкам интерпретации даже при большом числе наблюдений. Но попробовать и поразбираться конечно стоит.
mix3d
Спасибо!

Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом...

Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии)
nokh
Цитата(mix3d @ 2.09.2009 - 22:16) *
Спасибо!
Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом...
Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии)

Зачем же так сразу откатываться к однофакторной непараметрике eek.gif . Если ANCOVA окажется сложным/странным/непонятным - откатитесь до ANOVA. Т.е. разобьёте возраст на несколько категорий (2-3, какие выбрать границы - Вы должны знать из предметной области, совсем необязательно, чтобы они были одинаковых интервалов по годам). Вместо ковариаты будет ещё один фактор. Тогда это будет обычный многофакторный дисперсионный анализ (anova). Немного грубее ковариационного, если связь с возрастом сильная - будет потеря в мощности, но проще во всех отношениях: распространённость в статпакетах, нелинейность - не проблема, интерпретация, построение графиков... И согласованность оценок не потеряется. В случае М-У и К-У и согласованность уйдет и мощность снизится.
mix3d
Ну конечно же, что-то я сплоховал, правда помимо возраста возможны и другие коварианты, но, я думаю, и их удастся закодировать. Спасибо.
mix3d
Уважаемые форумчане, к вопросу о...

Как, подскажите, пожалуйста, спасаться в случае распределения зависимой переменной, отличного от нормального, и необходимости применения дисперсионного анализа в Statistica 6.0?

Насколько правда то, что F-критерий устойчив к отклонению распределения.

Спасибо!
DoctorStat
Цитата(mix3d @ 19.01.2010 - 00:51) *
Как спасаться в случае распределения зависимой переменной, отличного от нормального
Если вы знаете распределение зависимой переменной (формулу и все входящие в нее параметры), то сначала попробуйте преобразовать его к нормальному распределению и применить методы анализа, разработанные для нормально распределенных величин, в том числе, дисперсионный анализ.
mix3d
Спасибо.

Нет, к сожалению, какое именно распределение, я не знаю: по тесту Шапиро-Уилка нулевая гипотеза отклоняется, а в графическом виде тоже нечто несуразное.

Пробовал преобразование Бокса-Кокса, Фримана-Тьюки и логарифмирование (натуральный, десятичный) не помогло.

Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован?

Насколько я знаю, Statistica предлагает только однофакторные критерии.

Если количество лиц в подгруппах 30 плюс-минус 1-2 пациента, достаточно ли этого для срабатывания предельной центральной теоремы (мне, конечно, думается, что нет, но хотелось бы посоветоваться) и возможности пренебречь отклонением от нормального распределения?
Игорь
Цитата(mix3d @ 19.01.2010 - 13:17) *
Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован?

Критерий Фридмана, критерий Квейд.
mix3d
Фридман - это да, но по-моему в Statistica он реализован для повторных измерений, а мне нужен для независимых групп.

Что касается второго, то о нем, я, понятно, не слышал. Имеется ли он в каком-нибудь доступном статистическом пакете?
Pinus
Обычный дисперсионный анализ можно использовать при разных распределениях переменных. Следует проверять нормальность остатков и однородность дисперсии остатков в группах, но даже здесь при небольших отклонениях ANOVA устойчив. Об этом сказано во многих книгах, например: Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента. Пер с англ. ? М.: Мир, 1981. (есть в инете).
mix3d
Это радует, спасибо.

В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?
nokh
Цитата(mix3d @ 20.01.2010 - 13:40) *
Это радует, спасибо.

Проверяйте как советует Pinus. Но обратите внимание на характер распределения как данных, так и остатков. Если обнаружится чёткая бимодальность или полимодальность - значит Вы не учли какой-то важный качественный фактор. В таком случае проводить сравнения средних некорректно: оно может иметь под собой качественную природу, т.е. когда в одной выборке окажется больше человек из класса с низким средним значение, а в другом - больше из класса с высоким средним значением.
Цитата(mix3d @ 20.01.2010 - 13:40) *
В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?

Приводите те, которые понимаете и можете обосновать свой выбор.
Pinus
Цитата(mix3d @ 20.01.2010 - 18:40) *
В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?

Я использую среднее, которое приводится во вкладке Post-hoc (Statistica). Оно соответствует Weighted Means (Взвешенные средние), приводимого на ряду с другими во вкладке Means.
Об интерпретации и применении других средних не знаю.
mix3d
Уважаемые коллеги, спасибо большое за ваши ответы и советы!

А я все о своем.

Ни в коей степени не ставя под сомнение ваш авторитет, да и мои соображения тоже, а в стремлении разобраться, задаю еще один вопрос.

Возник он в результате чтения некоторых оригинальных статей.

Так вот, в них для решения той же задачи - сравнения групп - используют множественную (линейную) регрессию (в т.ч. используя в качестве независимых переменных категориальные параметры), ведь она позволяет выявить связь признаков в системе количественные (зависимые) - количественные (независимые).

И наоборот, в MANOVA при выявлении значимого эффекта, то бишь различия дисперсий, можно ли понятие "различие параметра" уравнять с понятием "влияние на параметр" или понятием "предиктор параметра". Ведь в окне Statistica при выборе независимых переменных (факторов) указано "независимые предикторы"?

Кроме того, в дисперсионном анализе так или иначе приходится кодировать количественные переменные для перевода их в категориальные.

И еще, в ДА при плохой подгонке модели (низком и незначимом коэффициенте детерминации), но при выявлении значимых факторов, как правильно отнестись к данной ситуации?

Возможно, данные вопросы касаются больше стилистики изложения результатов, однако, они действительно важны для понимания.

Спасибо.
Pinus
Если в Вашем анализе количественные влияющие факторы, то применяйте регрессионный анализ. Если факторы качественные, то дисперсионный. Если и количественные, и качественные - то ковариационный.

Цитата(mix3d @ 26.01.2010 - 06:43) *
И наоборот, в MANOVA при выявлении значимого эффекта, то бишь различия дисперсий, можно ли понятие "различие параметра" уравнять с понятием "влияние на параметр" или понятием "предиктор параметра". Ведь в окне Statistica при выборе независимых переменных (факторов) указано "независимые предикторы"?
Кроме того, в дисперсионном анализе так или иначе приходится кодировать количественные переменные для перевода их в категориальные.
mix3d, Вам надо какое-то время посвятить изучению книг. Тогда понятия уложатся в какую-то систему. Иначе получается путаница.
Переменная - это какая-то случайная величина, изменение которой или зависимость которой от других переменных Вы изучаете. Под параметром может пониматься разное, но в терминах регрессионного анализа - это коэффициенты уравнения регрессии. Предиктор (фактор) - это переменная, воздействие которой на изучаемую переменную (отклик) исследуется.
Поэтому, если Вы будете делать ANOVA, делайте, как обозначил Nokh: Отклик - ваш Показатель; Качественные предикторы (факторы) - Группа, Пол, Заболевание. И, возраст тоже будет качественным фактором. Для этого Вы его разобьете на интервалы, и каждый интервал будет градацией (уровнем) этого как бы качественного фактора. Специально кодировать возраст не нужно (программа сама кодирует), просто можно градации обозначить как, например, среднее значение возраста для данного интервала.

Как применить для качественных факторов множественную регрессию я не знаю. Если и есть какой-либо такой способ, то видимо он не будет проще, чем ANOVA. И книг на русском по такому делу вряд ли найдется.
Pinus
Цитата(mix3d @ 26.01.2010 - 06:43) *
... задаю еще один вопрос.
Возник он в результате чтения некоторых оригинальных статей.
Так вот, в них для решения той же задачи - сравнения групп - используют множественную (линейную) регрессию (в т.ч. используя в качестве независимых переменных категориальные параметры), ведь она позволяет выявить связь признаков в системе количественные (зависимые) - количественные (независимые).

Видимо действительно есть такой способ. Похоже, что описан у Айвазяна (с примерами) - введение в уравнение регрессии признаков-манекенов, представляющих действие качественных факторов (кроме того, можно представить и взаимодействия этих факторов). Метод точный, с первого взгляда несложный и пожалуй может соперничать с ANCOVA.
См. начиная со стр. 155 в Айвазян С.А. Прикладная статистика. Основы эконометрики: Учебник для вузов; В 2 т. 2-е изд., испр. - Т. 2. - М.: ЮНИТИ-ДАНА, 2001. - 432 с.
Возможно, что есть реализация в Statistica, надо смотреть модуль GLM.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.