Помогите разобраться с дисперсионным анализом |
Здравствуйте, гость ( Вход | Регистрация )
Помогите разобраться с дисперсионным анализом |
3.03.2021 - 14:48
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Добрый день, уважаемые эксперты.
Я прошу помощи в обработке моего материала и использовании дисперсионного анализа. Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается. Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ? Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик. Буду очень благодарна любой помощи, совету! |
|
6.03.2021 - 13:43
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Звучит как задача для регрессии Кокса (time to event - в данном случае интересует время до выписки).
|
|
8.03.2021 - 13:50
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 95 Регистрация: 27.12.2015 Пользователь №: 27815 |
Sadalmelika добрый день.
Если Ваши данные содержат: Y - койко-день; X1 - наличие/отсутствие артериальной гипертензии; X2 - возраст; То Ваш путь - это ANOVA с эффектами взаимодействия. По ссылке аналогичный вопрос, только в качестве Y - логарифм массы, X1 - пол, X2 - логарифм длины(?). Можете посмотреть, как выглядит эффект взаимодействия с ковариатой. Также хочу обратить Ваше внимание на то, что койко-день рассматривается как счётная величина (count data). В этой связи может быть корректней использовать модель Пуассона, отрицательного биномиального распределения и т.п. |
|
16.03.2021 - 22:59
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Добрый день, уважаемые эксперты. Я прошу помощи в обработке моего материала и использовании дисперсионного анализа. Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается. Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ? Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик. Буду очень благодарна любой помощи, совету! Как уже указал comisora, нужен дисперсионный анализ - ANOVA. Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты. Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст". В результате такого анализа сможете ответить сразу на 3 вопроса: 1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят) 2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням. 3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная. По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными. |
|
5.04.2021 - 12:35
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Sadalmelika добрый день. Если Ваши данные содержат: Y - койко-день; X1 - наличие/отсутствие артериальной гипертензии; X2 - возраст; То Ваш путь - это ANOVA с эффектами взаимодействия. По ссылке аналогичный вопрос, только в качестве Y - логарифм массы, X1 - пол, X2 - логарифм длины(?). Можете посмотреть, как выглядит эффект взаимодействия с ковариатой. Также хочу обратить Ваше внимание на то, что койко-день рассматривается как счётная величина (count data). В этой связи может быть корректней использовать модель Пуассона, отрицательного биномиального распределения и т.п. Спасибо большое за ответ! Я долго изучала эти ссылки, но не совсем поняла где это применить в пакете Statistica... Я не могу найти в подразделе ANOVA, либо это надо проводить в других пакетах программ? Тот же самый вопрос тогда и для модели Пуассона. Да, койко-день у меня видимо счетная величина, то есть в измеренная в количестве дней. Если можете дать совет, где можно почитать/посмотреть где наиболее подробно пошагово рассказывают про эти методики. Я начинаю изучать статистику и пока просто ANOVA мне дается с трудом, поэтому я хочу получше понять как это проводить... |
|
5.04.2021 - 12:44
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Как уже указал comisora, нужен дисперсионный анализ - ANOVA. Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты. Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст". В результате такого анализа сможете ответить сразу на 3 вопроса: 1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят) 2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням. 3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная. По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными. ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!) |
|
5.04.2021 - 22:15
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!) Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением... |
|
26.04.2021 - 17:08
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением... Я попробовала использовать функцию Factorial ANOVA, но почему-то мне система выдает ошибку, пишет, что "the current disign contents missing sells and is incomplete, some or even all effects may not be estimable..." Далее предлагает просмотр какой-то онлайн документации для возможных опций для анализа неполного дизайна. И в результате не считает фактор АГ. Хотя у меня все клеточки в базе заполнены, нет пропусков... Не понимаю почему... Может ли это быть из-за того, что у меня фактор койко-дни не соответствует нормальному распределению? а в каком-то видео говорилось, что ANOVA можно использовать только для переменных с нормальным распределением? |
|
26.04.2021 - 21:04
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится.
Сообщение отредактировал nokh - 26.04.2021 - 21:10 |
|
27.04.2021 - 10:06
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится. Да, у меня действительно закодировано наличие АГ как 0 и 1, я изменила 0 на 2, теперь у меня 1 и 2, еще раз проверила наличие пустых ячеек и 0 во всех анализируемых переменных, а также наличие выборок, у меня включены все кейсы, но ошибка сохраняется... |
|
27.04.2021 - 12:07
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится. Скажите пожалуйста, а если оценивать не койко-дни, а например такой фактор как наличие летального исхода? Могу ли я использовать метод множественной линейной регрессии, чтобы оценить влияние наличия АГ вместе с другими факторами (возраст, наличие СД, уровни каких-то маркеров в крови, данные инструментальных методов обследования) на исход пациента? Или необходимо проводить именно анализ выживаемости? Еще раз спасибо большущее за Ваши ответы!!))) |
|
27.04.2021 - 21:21
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 95 Регистрация: 27.12.2015 Пользователь №: 27815 |
2 Sadalmelika
Касательно моей рекомендации - у программы есть руководство пользователя, искать следует в нём. Для начинающих пользователей необязательно использовать дорогие статистические пакеты для анализа данных, так как базовый функционал доступен в свободно распространяемых программах. Для некоторых написаны неплохие учебники с картинками: практикум к PAST, руководство к JASP. Исход пациента можно моделировать логистической регрессией (биномиальное распределение). Сравнение логит-модели и Кокса можно посмотреть по ссылке. |
|
29.04.2021 - 12:53
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 7 Регистрация: 3.03.2021 Пользователь №: 39577 |
2 Sadalmelika Касательно моей рекомендации - у программы есть руководство пользователя, искать следует в нём. Для начинающих пользователей необязательно использовать дорогие статистические пакеты для анализа данных, так как базовый функционал доступен в свободно распространяемых программах. Для некоторых написаны неплохие учебники с картинками: практикум к PAST, руководство к JASP. Исход пациента можно моделировать логистической регрессией (биномиальное распределение). Сравнение логит-модели и Кокса можно посмотреть по ссылке. Спасибо огромнейшее за рекомендации и ссылки!!! Как я поняла в моем случае исход носит бинарный характер (да/нет) и тогда стоит использовать логистическую модель. Буду дальше читать и разбираться))) |
|