Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Помогите разобраться с дисперсионным анализом
Sadalmelika
сообщение 3.03.2021 - 14:48
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Добрый день, уважаемые эксперты.
Я прошу помощи в обработке моего материала и использовании дисперсионного анализа.
Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается.
Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ?
Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик.
Буду очень благодарна любой помощи, совету!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 6.03.2021 - 13:43
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Звучит как задача для регрессии Кокса (time to event - в данном случае интересует время до выписки).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 8.03.2021 - 13:50
Сообщение #3





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



Sadalmelika добрый день.

Если Ваши данные содержат:

Y - койко-день;
X1 - наличие/отсутствие артериальной гипертензии;
X2 - возраст;

То Ваш путь - это ANOVA с эффектами взаимодействия. По ссылке аналогичный вопрос, только в качестве Y - логарифм массы, X1 - пол, X2 - логарифм длины(?). Можете посмотреть, как выглядит эффект взаимодействия с ковариатой.

Также хочу обратить Ваше внимание на то, что койко-день рассматривается как счётная величина (count data). В этой связи может быть корректней использовать модель Пуассона, отрицательного биномиального распределения и т.п.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 16.03.2021 - 22:59
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Sadalmelika @ 3.03.2021 - 16:48) *
Добрый день, уважаемые эксперты.
Я прошу помощи в обработке моего материала и использовании дисперсионного анализа.
Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается.
Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ?
Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик.
Буду очень благодарна любой помощи, совету!

Как уже указал comisora, нужен дисперсионный анализ - ANOVA.

Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты.

Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст".

В результате такого анализа сможете ответить сразу на 3 вопроса:
1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят)
2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням.
3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная.

По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 5.04.2021 - 12:35
Сообщение #5





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(comisora @ 8.03.2021 - 13:50) *
Sadalmelika добрый день.

Если Ваши данные содержат:

Y - койко-день;
X1 - наличие/отсутствие артериальной гипертензии;
X2 - возраст;

То Ваш путь - это ANOVA с эффектами взаимодействия. По ссылке аналогичный вопрос, только в качестве Y - логарифм массы, X1 - пол, X2 - логарифм длины(?). Можете посмотреть, как выглядит эффект взаимодействия с ковариатой.

Также хочу обратить Ваше внимание на то, что койко-день рассматривается как счётная величина (count data). В этой связи может быть корректней использовать модель Пуассона, отрицательного биномиального распределения и т.п.


Спасибо большое за ответ! Я долго изучала эти ссылки, но не совсем поняла где это применить в пакете Statistica... Я не могу найти в подразделе ANOVA, либо это надо проводить в других пакетах программ? Тот же самый вопрос тогда и для модели Пуассона. Да, койко-день у меня видимо счетная величина, то есть в измеренная в количестве дней. Если можете дать совет, где можно почитать/посмотреть где наиболее подробно пошагово рассказывают про эти методики. Я начинаю изучать статистику и пока просто ANOVA мне дается с трудом, поэтому я хочу получше понять как это проводить...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 5.04.2021 - 12:44
Сообщение #6





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(nokh @ 16.03.2021 - 22:59) *
Как уже указал comisora, нужен дисперсионный анализ - ANOVA.

Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты.

Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст".

В результате такого анализа сможете ответить сразу на 3 вопроса:
1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят)
2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням.
3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная.

По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными.



ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.04.2021 - 22:15
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Sadalmelika @ 5.04.2021 - 14:44) *
ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!)

Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 26.04.2021 - 17:08
Сообщение #8





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(nokh @ 5.04.2021 - 22:15) *
Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением...


Я попробовала использовать функцию Factorial ANOVA, но почему-то мне система выдает ошибку, пишет, что "the current disign contents missing sells and is incomplete, some or even all effects may not be estimable..." Далее предлагает просмотр какой-то онлайн документации для возможных опций для анализа неполного дизайна. И в результате не считает фактор АГ. Хотя у меня все клеточки в базе заполнены, нет пропусков... Не понимаю почему... Может ли это быть из-за того, что у меня фактор койко-дни не соответствует нормальному распределению? а в каком-то видео говорилось, что ANOVA можно использовать только для переменных с нормальным распределением?

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.04.2021 - 21:04
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится.

Сообщение отредактировал nokh - 26.04.2021 - 21:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 27.04.2021 - 10:06
Сообщение #10





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(nokh @ 26.04.2021 - 21:04) *
Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится.

Да, у меня действительно закодировано наличие АГ как 0 и 1, я изменила 0 на 2, теперь у меня 1 и 2, еще раз проверила наличие пустых ячеек и 0 во всех анализируемых переменных, а также наличие выборок, у меня включены все кейсы, но ошибка сохраняется...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 27.04.2021 - 12:07
Сообщение #11





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(nokh @ 26.04.2021 - 21:04) *
Такое впечатление, что у вас нет хотя бы двух групп для фактора "наличие АГ". Проверьте данные. Также этот пакет не любит нецифровые метки для кодов, а из цифровых не любит 0 и 1. Если у вас данный фактор закодирован как 0 (нет) и 1 (есть), попробуйте просто перекодировать в 1 и 2. Напишите что получится.


Скажите пожалуйста, а если оценивать не койко-дни, а например такой фактор как наличие летального исхода? Могу ли я использовать метод множественной линейной регрессии, чтобы оценить влияние наличия АГ вместе с другими факторами (возраст, наличие СД, уровни каких-то маркеров в крови, данные инструментальных методов обследования) на исход пациента? Или необходимо проводить именно анализ выживаемости?
Еще раз спасибо большущее за Ваши ответы!!)))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 27.04.2021 - 21:21
Сообщение #12





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



2 Sadalmelika

Касательно моей рекомендации - у программы есть руководство пользователя, искать следует в нём.

Для начинающих пользователей необязательно использовать дорогие статистические пакеты для анализа данных, так как базовый функционал доступен в свободно распространяемых программах. Для некоторых написаны неплохие учебники с картинками: практикум к PAST, руководство к JASP.

Исход пациента можно моделировать логистической регрессией (биномиальное распределение). Сравнение логит-модели и Кокса можно посмотреть по ссылке.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sadalmelika
сообщение 29.04.2021 - 12:53
Сообщение #13





Группа: Пользователи
Сообщений: 7
Регистрация: 3.03.2021
Пользователь №: 39577



Цитата(comisora @ 27.04.2021 - 21:21) *
2 Sadalmelika

Касательно моей рекомендации - у программы есть руководство пользователя, искать следует в нём.

Для начинающих пользователей необязательно использовать дорогие статистические пакеты для анализа данных, так как базовый функционал доступен в свободно распространяемых программах. Для некоторых написаны неплохие учебники с картинками: практикум к PAST, руководство к JASP.

Исход пациента можно моделировать логистической регрессией (биномиальное распределение). Сравнение логит-модели и Кокса можно посмотреть по ссылке.


Спасибо огромнейшее за рекомендации и ссылки!!! Как я поняла в моем случае исход носит бинарный характер (да/нет) и тогда стоит использовать логистическую модель. Буду дальше читать и разбираться)))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему