Сравнение групп с учетом сторонних факторов - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Сравнение групп с учетом сторонних факторов

mix3d Просмотр профиля	1.09.2009 - 19:41 Сообщение #1
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит... Мой вопрос касается корректировки при сравнении групп. Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д. Построение модели не требуется. Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр. Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)? И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...? Большое спасибо!

nokh Просмотр профиля	2.09.2009 - 18:27 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(mix3d @ 1.09.2009 - 22:41) Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит... В другом разделе Вы пожелали чтобы вам ответили модераторы - никто из обычных "духов" форума и не осмелился встревать . Цитата(mix3d @ 1.09.2009 - 22:41) Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д. Построение модели не требуется. Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр. Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)? И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...? Большое спасибо! Да, эта задача решается ковариационным анализом в следующей модели: Отклик - ваш Показатель; Качественные предикторы (факторы) - Группа (3 градации), Пол (2 градации) и Заболевание (3-4 или более градаций); Количественный предиктор (ковариата) - Возраст. Поскольку заболевания - качественный фактор, вы можете закодировать их самым произвольным образом (например 0 - АГ+ИБС, 1 - отсутствие заболевания и т.д. - хотя это и неудобно и лучше упорядочить как у Вас), т.е. коды не несут количественной информации о степени влияния на признак. ANCOVA - линейная процедура, и хотя теоретически её можно обобщить и на нелинейный отклик, мне неизвестны пакеты, где была бы реализована такая возможность. Поэтому в случае отчетливо нелинейной зависимости Признака от Возраста единственным выходом из ситуации будет искусственная линеаризация отклика с помощью известного из теоретических соображений преобразования (или с помощью преобразования Бокса-Кокса по методу Зарембки в случае неизвестной из теории, но не слишком сложной нелинейной зависимости). Преобразования никак не помешают интерпретации результатов, но приблизят данные к требованиям статистической модели. Статистическая значимость межгрупповых различий, а также влияния других предикторов и их взаимодействий оценивается обычным F-критерием (критерием дисперсионного отношения) - это к вопросу о р. Плюс такого анализа - одновременный учёт всех влияющих факторов и следовательно - наиболее правильная оценка истинных межгрупповых различий. Она будет согласованной (adjusted) на все прочие факторы, как и оценки любого другого фактора. Минусы анализа: сложность и вероятное нарушение допущений модели. Сложность не столько в техническом плане, сколько в плане верной интерпретации результатов. По сути модель предполагает полную однородность наклонов регрессий Признака от Возраста во всех ячейках комплекса. Т.е., например, для женщин с первой формой фибрилляции и наличием АГ и мужчин с третьей формой фибрилляции и отсутствием АГ и ИБС (не знаю возможно ли такое, но главное - идея понятна) зависимость признака от возраста должна быть линейной, а сами линии - параллельны. Отсутствие однородности наклонов (непараллельность) ведёт к неверному обсчету модели и следовательно - к неверной интерпретации. Поэтому чтобы разобраться "что к чему" на практике потребуется провести не один, а несколько анализов (с исключением или перегруппировкой каких-то факторов, посмотреть наклоны в отдельных ячейках и т.д.). Если даже однородность дисперсий в ANOVA наблюдается далеко не всегда, то однородность ковариаций в таких сложных ANCOVA - вообще редкая вещь, а это также может привести к ошибкам интерпретации даже при большом числе наблюдений. Но попробовать и поразбираться конечно стоит. Сообщение отредактировал nokh - 2.09.2009 - 19:19

mix3d Просмотр профиля	2.09.2009 - 19:16 Сообщение #3
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Спасибо! Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом... Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии)

nokh Просмотр профиля	2.09.2009 - 19:29 Сообщение #4
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(mix3d @ 2.09.2009 - 22:16) Спасибо! Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом... Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии) Зачем же так сразу откатываться к однофакторной непараметрике . Если ANCOVA окажется сложным/странным/непонятным - откатитесь до ANOVA. Т.е. разобьёте возраст на несколько категорий (2-3, какие выбрать границы - Вы должны знать из предметной области, совсем необязательно, чтобы они были одинаковых интервалов по годам). Вместо ковариаты будет ещё один фактор. Тогда это будет обычный многофакторный дисперсионный анализ (anova). Немного грубее ковариационного, если связь с возрастом сильная - будет потеря в мощности, но проще во всех отношениях: распространённость в статпакетах, нелинейность - не проблема, интерпретация, построение графиков... И согласованность оценок не потеряется. В случае М-У и К-У и согласованность уйдет и мощность снизится. Сообщение отредактировал nokh - 2.09.2009 - 19:44

mix3d Просмотр профиля	2.09.2009 - 22:20 Сообщение #5
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Ну конечно же, что-то я сплоховал, правда помимо возраста возможны и другие коварианты, но, я думаю, и их удастся закодировать. Спасибо.

mix3d Просмотр профиля	19.01.2010 - 00:51 Сообщение #6
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Уважаемые форумчане, к вопросу о... Как, подскажите, пожалуйста, спасаться в случае распределения зависимой переменной, отличного от нормального, и необходимости применения дисперсионного анализа в Statistica 6.0? Насколько правда то, что F-критерий устойчив к отклонению распределения. Спасибо!

DoctorStat Просмотр профиля	19.01.2010 - 11:13 Сообщение #7
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(mix3d @ 19.01.2010 - 00:51) Как спасаться в случае распределения зависимой переменной, отличного от нормального Если вы знаете распределение зависимой переменной (формулу и все входящие в нее параметры), то сначала попробуйте преобразовать его к нормальному распределению и применить методы анализа, разработанные для нормально распределенных величин, в том числе, дисперсионный анализ. Сообщение отредактировал DoctorStat - 19.01.2010 - 11:14 Просто включи мозги => http://doctorstat.narod.ru

mix3d Просмотр профиля	19.01.2010 - 13:17 Сообщение #8
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Спасибо. Нет, к сожалению, какое именно распределение, я не знаю: по тесту Шапиро-Уилка нулевая гипотеза отклоняется, а в графическом виде тоже нечто несуразное. Пробовал преобразование Бокса-Кокса, Фримана-Тьюки и логарифмирование (натуральный, десятичный) не помогло. Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован? Насколько я знаю, Statistica предлагает только однофакторные критерии. Если количество лиц в подгруппах 30 плюс-минус 1-2 пациента, достаточно ли этого для срабатывания предельной центральной теоремы (мне, конечно, думается, что нет, но хотелось бы посоветоваться) и возможности пренебречь отклонением от нормального распределения?

Игорь Просмотр профиля	19.01.2010 - 14:03 Сообщение #9
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(mix3d @ 19.01.2010 - 13:17) Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован? Критерий Фридмана, критерий Квейд. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

mix3d Просмотр профиля	19.01.2010 - 22:44 Сообщение #10
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Фридман - это да, но по-моему в Statistica он реализован для повторных измерений, а мне нужен для независимых групп. Что касается второго, то о нем, я, понятно, не слышал. Имеется ли он в каком-нибудь доступном статистическом пакете?

Pinus Просмотр профиля	20.01.2010 - 00:15 Сообщение #11
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Обычный дисперсионный анализ можно использовать при разных распределениях переменных. Следует проверять нормальность остатков и однородность дисперсии остатков в группах, но даже здесь при небольших отклонениях ANOVA устойчив. Об этом сказано во многих книгах, например: Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента. Пер с англ. ? М.: Мир, 1981. (есть в инете). Сообщение отредактировал Pinus - 20.01.2010 - 00:16

mix3d Просмотр профиля	20.01.2010 - 11:40 Сообщение #12
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Это радует, спасибо. В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?

nokh Просмотр профиля	21.01.2010 - 23:47 Сообщение #13
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(mix3d @ 20.01.2010 - 13:40) Это радует, спасибо. Проверяйте как советует Pinus. Но обратите внимание на характер распределения как данных, так и остатков. Если обнаружится чёткая бимодальность или полимодальность - значит Вы не учли какой-то важный качественный фактор. В таком случае проводить сравнения средних некорректно: оно может иметь под собой качественную природу, т.е. когда в одной выборке окажется больше человек из класса с низким средним значение, а в другом - больше из класса с высоким средним значением. Цитата(mix3d @ 20.01.2010 - 13:40) В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье? Приводите те, которые понимаете и можете обосновать свой выбор.

Pinus Просмотр профиля	22.01.2010 - 00:48 Сообщение #14
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(mix3d @ 20.01.2010 - 18:40) В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье? Я использую среднее, которое приводится во вкладке Post-hoc (Statistica). Оно соответствует Weighted Means (Взвешенные средние), приводимого на ряду с другими во вкладке Means. Об интерпретации и применении других средних не знаю.

mix3d Просмотр профиля	25.01.2010 - 23:43 Сообщение #15
Группа: Пользователи Сообщений: 32 Регистрация: 15.02.2009 Пользователь №: 5815	Уважаемые коллеги, спасибо большое за ваши ответы и советы! А я все о своем. Ни в коей степени не ставя под сомнение ваш авторитет, да и мои соображения тоже, а в стремлении разобраться, задаю еще один вопрос. Возник он в результате чтения некоторых оригинальных статей. Так вот, в них для решения той же задачи - сравнения групп - используют множественную (линейную) регрессию (в т.ч. используя в качестве независимых переменных категориальные параметры), ведь она позволяет выявить связь признаков в системе количественные (зависимые) - количественные (независимые). И наоборот, в MANOVA при выявлении значимого эффекта, то бишь различия дисперсий, можно ли понятие "различие параметра" уравнять с понятием "влияние на параметр" или понятием "предиктор параметра". Ведь в окне Statistica при выборе независимых переменных (факторов) указано "независимые предикторы"? Кроме того, в дисперсионном анализе так или иначе приходится кодировать количественные переменные для перевода их в категориальные. И еще, в ДА при плохой подгонке модели (низком и незначимом коэффициенте детерминации), но при выявлении значимых факторов, как правильно отнестись к данной ситуации? Возможно, данные вопросы касаются больше стилистики изложения результатов, однако, они действительно важны для понимания. Спасибо.

« Предыдущая тема · Медицинская статистика · Следующая тема »

2 страниц

1 2 >

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.