Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Сравнение групп с учетом сторонних факторов
mix3d
сообщение 1.09.2009 - 19:41
Сообщение #1





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит...

Мой вопрос касается корректировки при сравнении групп.

Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д.

Построение модели не требуется.

Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр.

Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)?

И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...?

Большое спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.09.2009 - 18:27
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(mix3d @ 1.09.2009 - 22:41) *
Извините, что пришлось открыть новую тему, пробовал задать вопрос в уже существующих, но не дождался, а время как всегда не терпит...

В другом разделе Вы пожелали чтобы вам ответили модераторы - никто из обычных "духов" форума и не осмелился встревать smile.gif.
Цитата(mix3d @ 1.09.2009 - 22:41) *
Итак, требуется сравнить (выявить наличие либо отсутствие различий) по показателю (количественный непрерывный) 3 группы пациентов, классифицированные только по наличию у них одной из форм фибрилляции предсердий. При этом на сравниваемый показатель оказывают влияние другие факторы: пол, возраст, наличие АГ и/или ИБС и т.д. Построение модели не требуется.
Я планирую использовать ковариационный анализ (ANCOVA), при этом сравниваемый показатель будет зависимой переменной, а перечисленные факторы независимыми. Вопрос в следующем, необходимо ли все факторы, по которым проводится корректировка включать одновременно либо по отдельности, кроме того, АГ и ИБС кодировать по отдельности (как два фактора), или можно в виде 1 (АГ), 2 (ИБС), 3 (АГ+ИБС) (1 фактор), если известно, что в такой последовательности увеличивается негативное влияние на изучаемый параметр.
Следующее, какую функцию связи использовать - линейную или нелинейную (или попробовать все варианты, выбрать лучший по результатам анализа)?
И, пожалуйста, последнее: не совсем для себя понял по какому p оценивать значимость различий, статистика Вальда для переменной, кодирующей форму фибрилляции предсердий или...?
Большое спасибо!

Да, эта задача решается ковариационным анализом в следующей модели:
Отклик - ваш Показатель;
Качественные предикторы (факторы) - Группа (3 градации), Пол (2 градации) и Заболевание (3-4 или более градаций);
Количественный предиктор (ковариата) - Возраст.

Поскольку заболевания - качественный фактор, вы можете закодировать их самым произвольным образом (например 0 - АГ+ИБС, 1 - отсутствие заболевания и т.д. - хотя это и неудобно и лучше упорядочить как у Вас), т.е. коды не несут количественной информации о степени влияния на признак.
ANCOVA - линейная процедура, и хотя теоретически её можно обобщить и на нелинейный отклик, мне неизвестны пакеты, где была бы реализована такая возможность. Поэтому в случае отчетливо нелинейной зависимости Признака от Возраста единственным выходом из ситуации будет искусственная линеаризация отклика с помощью известного из теоретических соображений преобразования (или с помощью преобразования Бокса-Кокса по методу Зарембки в случае неизвестной из теории, но не слишком сложной нелинейной зависимости). Преобразования никак не помешают интерпретации результатов, но приблизят данные к требованиям статистической модели.
Статистическая значимость межгрупповых различий, а также влияния других предикторов и их взаимодействий оценивается обычным F-критерием (критерием дисперсионного отношения) - это к вопросу о р.
Плюс такого анализа - одновременный учёт всех влияющих факторов и следовательно - наиболее правильная оценка истинных межгрупповых различий. Она будет согласованной (adjusted) на все прочие факторы, как и оценки любого другого фактора.
Минусы анализа: сложность и вероятное нарушение допущений модели. Сложность не столько в техническом плане, сколько в плане верной интерпретации результатов. По сути модель предполагает полную однородность наклонов регрессий Признака от Возраста во всех ячейках комплекса. Т.е., например, для женщин с первой формой фибрилляции и наличием АГ и мужчин с третьей формой фибрилляции и отсутствием АГ и ИБС (не знаю возможно ли такое, но главное - идея понятна) зависимость признака от возраста должна быть линейной, а сами линии - параллельны. Отсутствие однородности наклонов (непараллельность) ведёт к неверному обсчету модели и следовательно - к неверной интерпретации. Поэтому чтобы разобраться "что к чему" на практике потребуется провести не один, а несколько анализов (с исключением или перегруппировкой каких-то факторов, посмотреть наклоны в отдельных ячейках и т.д.). Если даже однородность дисперсий в ANOVA наблюдается далеко не всегда, то однородность ковариаций в таких сложных ANCOVA - вообще редкая вещь, а это также может привести к ошибкам интерпретации даже при большом числе наблюдений. Но попробовать и поразбираться конечно стоит.

Сообщение отредактировал nokh - 2.09.2009 - 19:19
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 2.09.2009 - 19:16
Сообщение #3





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Спасибо!

Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом...

Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.09.2009 - 19:29
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(mix3d @ 2.09.2009 - 22:16) *
Спасибо!
Видимо, побалуюсь и ограничусь Манном-Уитни и Краскелом-Уолисом...
Приношу извинения модераторам за беспокойство, а пользователям за чрезмерные претензии)

Зачем же так сразу откатываться к однофакторной непараметрике eek.gif . Если ANCOVA окажется сложным/странным/непонятным - откатитесь до ANOVA. Т.е. разобьёте возраст на несколько категорий (2-3, какие выбрать границы - Вы должны знать из предметной области, совсем необязательно, чтобы они были одинаковых интервалов по годам). Вместо ковариаты будет ещё один фактор. Тогда это будет обычный многофакторный дисперсионный анализ (anova). Немного грубее ковариационного, если связь с возрастом сильная - будет потеря в мощности, но проще во всех отношениях: распространённость в статпакетах, нелинейность - не проблема, интерпретация, построение графиков... И согласованность оценок не потеряется. В случае М-У и К-У и согласованность уйдет и мощность снизится.

Сообщение отредактировал nokh - 2.09.2009 - 19:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 2.09.2009 - 22:20
Сообщение #5





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Ну конечно же, что-то я сплоховал, правда помимо возраста возможны и другие коварианты, но, я думаю, и их удастся закодировать. Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 19.01.2010 - 00:51
Сообщение #6





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Уважаемые форумчане, к вопросу о...

Как, подскажите, пожалуйста, спасаться в случае распределения зависимой переменной, отличного от нормального, и необходимости применения дисперсионного анализа в Statistica 6.0?

Насколько правда то, что F-критерий устойчив к отклонению распределения.

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 19.01.2010 - 11:13
Сообщение #7





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(mix3d @ 19.01.2010 - 00:51) *
Как спасаться в случае распределения зависимой переменной, отличного от нормального
Если вы знаете распределение зависимой переменной (формулу и все входящие в нее параметры), то сначала попробуйте преобразовать его к нормальному распределению и применить методы анализа, разработанные для нормально распределенных величин, в том числе, дисперсионный анализ.

Сообщение отредактировал DoctorStat - 19.01.2010 - 11:14


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 19.01.2010 - 13:17
Сообщение #8





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Спасибо.

Нет, к сожалению, какое именно распределение, я не знаю: по тесту Шапиро-Уилка нулевая гипотеза отклоняется, а в графическом виде тоже нечто несуразное.

Пробовал преобразование Бокса-Кокса, Фримана-Тьюки и логарифмирование (натуральный, десятичный) не помогло.

Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован?

Насколько я знаю, Statistica предлагает только однофакторные критерии.

Если количество лиц в подгруппах 30 плюс-минус 1-2 пациента, достаточно ли этого для срабатывания предельной центральной теоремы (мне, конечно, думается, что нет, но хотелось бы посоветоваться) и возможности пренебречь отклонением от нормального распределения?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 19.01.2010 - 14:03
Сообщение #9





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(mix3d @ 19.01.2010 - 13:17) *
Возможно, Вы знаете какой-либо тест, который является вариантом многофакторного непараметрического дисперсионного анализа, и в каком софте он реализован?

Критерий Фридмана, критерий Квейд.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 19.01.2010 - 22:44
Сообщение #10





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Фридман - это да, но по-моему в Statistica он реализован для повторных измерений, а мне нужен для независимых групп.

Что касается второго, то о нем, я, понятно, не слышал. Имеется ли он в каком-нибудь доступном статистическом пакете?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 20.01.2010 - 00:15
Сообщение #11





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Обычный дисперсионный анализ можно использовать при разных распределениях переменных. Следует проверять нормальность остатков и однородность дисперсии остатков в группах, но даже здесь при небольших отклонениях ANOVA устойчив. Об этом сказано во многих книгах, например: Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента. Пер с англ. ? М.: Мир, 1981. (есть в инете).

Сообщение отредактировал Pinus - 20.01.2010 - 00:16
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 20.01.2010 - 11:40
Сообщение #12





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Это радует, спасибо.

В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.01.2010 - 23:47
Сообщение #13





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(mix3d @ 20.01.2010 - 13:40) *
Это радует, спасибо.

Проверяйте как советует Pinus. Но обратите внимание на характер распределения как данных, так и остатков. Если обнаружится чёткая бимодальность или полимодальность - значит Вы не учли какой-то важный качественный фактор. В таком случае проводить сравнения средних некорректно: оно может иметь под собой качественную природу, т.е. когда в одной выборке окажется больше человек из класса с низким средним значение, а в другом - больше из класса с высоким средним значением.
Цитата(mix3d @ 20.01.2010 - 13:40) *
В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?

Приводите те, которые понимаете и можете обосновать свой выбор.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 22.01.2010 - 00:48
Сообщение #14





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(mix3d @ 20.01.2010 - 18:40) *
В процессе возник еще один вопрос: в статистическом модуле предлагаются "обычные" средние, взвешенные средние и средние МНК (естественно, разные). На какие из них лучше ориентироваться и приводить в отчете, статье?

Я использую среднее, которое приводится во вкладке Post-hoc (Statistica). Оно соответствует Weighted Means (Взвешенные средние), приводимого на ряду с другими во вкладке Means.
Об интерпретации и применении других средних не знаю.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 25.01.2010 - 23:43
Сообщение #15





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Уважаемые коллеги, спасибо большое за ваши ответы и советы!

А я все о своем.

Ни в коей степени не ставя под сомнение ваш авторитет, да и мои соображения тоже, а в стремлении разобраться, задаю еще один вопрос.

Возник он в результате чтения некоторых оригинальных статей.

Так вот, в них для решения той же задачи - сравнения групп - используют множественную (линейную) регрессию (в т.ч. используя в качестве независимых переменных категориальные параметры), ведь она позволяет выявить связь признаков в системе количественные (зависимые) - количественные (независимые).

И наоборот, в MANOVA при выявлении значимого эффекта, то бишь различия дисперсий, можно ли понятие "различие параметра" уравнять с понятием "влияние на параметр" или понятием "предиктор параметра". Ведь в окне Statistica при выборе независимых переменных (факторов) указано "независимые предикторы"?

Кроме того, в дисперсионном анализе так или иначе приходится кодировать количественные переменные для перевода их в категориальные.

И еще, в ДА при плохой подгонке модели (низком и незначимом коэффициенте детерминации), но при выявлении значимых факторов, как правильно отнестись к данной ситуации?

Возможно, данные вопросы касаются больше стилистики изложения результатов, однако, они действительно важны для понимания.

Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему