Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Какой метод статистического анализа применить
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
ramxas
Уважаемые форумчане! Надеюсь встретить здесь понимание и помощь при выполнении работы. Стоит задача выявить наличие связи между типом эпилептического припадка и сопутствующими заболеваниями. При этом у одного пациента могут быть несколько сопуствующих заболеваний. Что посоветуете?
nokh
Цитата(ramxas @ 30.12.2012 - 18:07) *
Уважаемые форумчане! Надеюсь встретить здесь понимание и помощь при выполнении работы. Стоит задача выявить наличие связи между типом эпилептического припадка и сопутствующими заболеваниями. При этом у одного пациента могут быть несколько сопуствующих заболеваний. Что посоветуете?

И тип припадка и СЗ - качественные признаки, поэтому просится логлинейный анализ - почитайте про него. Свести всё в простую двумерную таблицу сопряжённости "Тип припадка х Вариант СЗ" не получится по причине того, что у одного пациента может быть сочетание СЗ. Поэтому все варианты СЗ нужно представить в виде отдельных входов таблицы с двумя категориями: "есть" и "нет". Т.к. входов у такой таблицы будет много - её нужно анализировать логлинейным анализом.

Ещё лучше сначала провести многомерный разведочный анализ - например, множественный анализ соответствий (Multiple correspondence analysis) или анализ главных координат (PCoA) с какой-нибудь адекватной мерой близости для бинарных показателей типа коэффициента Жаккара или Раупа-Крика. Он может подсказать пути возможного объединения тех или иных категорий типов припадков или СЗ в одну на основании какой-либо логики или специальных знаний для последующего логлинейного анализа. Или же сразу позволит обнаружить связь между СЗ и типом припадка (в виде близкого расположения на ординационной диаграмме), которую можно "выдернуть" из массива данных и пранализировать в более простой и обычной (двумерной) таблице сопряжённости критерием типа хи-квадрат с последующим расчётом какой-нибудь меры ассоциации: коэффициента ассоциации Крамера, коэффициента сопряжённости Пирсона, обычной фи и т.п. Этот подход хорош тем, что (1) позволяет избавится от большого количества нолей в таблице, что плохо для логлинейного анализа и критерия хи-квадрат немного свернув и обобщив информацию и (2) взглянуть на весь массив данных целиком и если повезёт - сразу найти кандидатов на искомую связь. К сожалению, про многомерные техники просто почитать может оказаться недостаточно; желателен опыт обработки и интерпретации такой информации. Полагаю, что если вы выложите свой файл на форум (можно в урезанном виде или без "секретных" подробностей) найдутся участники форума с интересом к вашей проблеме и данным.

Также, возможно, для учёта множественности СЗ подойдут специальные техники анализа множественных ответов, применяемые психологами. Для этого в пакете SPSS есть какие-то методы, но я с ними не знаком.
ramxas
nokh, спасибо! начал подробно изучать логлинейный анализ, выкладываю файл в формате Excel
p2004r
Цитата(ramxas @ 30.12.2012 - 22:37) *
nokh, спасибо за понимание моей проблемы! начал подробно изучать логлинейный анализ, кроме того естественно выкладываю ссылку хранилища файлов, куда залил данный файл для общего обсуждения и анализа. Файл с расширением .STA т.е. для анализа в пакете STATISTICA

http://zalil.ru/34126328

Попытки прикрепить файл к данному сообщению не увенчались успехом ((


сохраните свой файл как .csv и запакуйте в rar. все чудно присоединится.

PS кстати --- выкладывать данные в формате коммерческой программки стоящей стопятьсот денег, и надеяться на широкий отклик как то уж очень по хитрому выглядит smile.gif
да и вообще заниматься разведочным анализом в статистике еще тот мазохизм smile.gif
ramxas
p2004r, согласен, залил заново. По поводу метода для выявления связи между типом прпадком и СЗ что можете сказать?
p2004r
Цитата(ramxas @ 1.01.2013 - 18:03) *
p2004r, согласен, залил заново. По поводу метода для выявления связи между типом прпадком и СЗ что можете сказать?


тут немного данных совсем, посмотрите глазами сначала....

читаем данные

Код
> str(read.csv("связь_тип_припадка_сопутствующие_заболевания.csv"))
'data.frame':    149 obs. of  7 variables:
$ Тип_приступа           : Factor w/ 3 levels "Генерализованные",..: 3 2 1 1 2 1 2 1 3 3 ...
$ Пиелонефрит            : Factor w/ 2 levels "да","нет": 2 2 1 1 1 2 2 1 1 1 ...
$ Тиреоидит              : Factor w/ 2 levels "да","нет": 2 2 2 2 2 2 2 1 2 2 ...
$ ХВГ                    : Factor w/ 2 levels "да","нет": 2 2 2 1 2 2 2 2 2 2 ...
$ ИБС                    : Factor w/ 2 levels "да","нет": 2 2 2 2 2 2 1 2 2 2 ...
$ ХОБЛ                   : Factor w/ 2 levels "да","нет": 2 2 2 1 2 2 2 2 2 2 ...
$ ревматоидный.полиартрит: Factor w/ 2 levels "да","нет": 2 2 2 2 2 2 2 2 2 2 ...
> data<-read.csv("связь_тип_припадка_сопутствующие_заболевания.csv")


визуализируем

Код
mosaicplot(table(data[,c(3,5,1)]))


как видим сочетанное влияние ибс и тиреоидита вызывает некую "инверсию" эффекта по его "объему"

одновременное наличие ХВГ и ХВГЛ

Код
mosaicplot(table(data[,c(4,6,1)]))



они же в разрезе ИБС дают эффект

Код
mosaicplot(table(data[,c(5,6,1)]))
mosaicplot(table(data[,c(5,4,1)]))
# все три вместе
mosaicplot(table(data[,c(5,6,4,1)]))


ревматоидный артрит забавно влияет в разрезе ИБС
Код
mosaicplot(table(data[,c(5,7,1)]))

DrgLena
Задача может быть решена с помощью логистической регрессии, при этом, если зависимая переменная принимает не два, как мы привыкли обсуждать на этом форуме, а три значения, то это будет мультиноминальная логистическая регрессия (сумма трех вероятностей, которые вы получите будет равна 1). Вы должны выбрать референтную перменную (я затрудняюсь какую выбрать малую или фокальную) и получите оценку каждого сопутствующего заболевания с учетом всех имеющихся в виде экспоненциального коэффициента уравнения регрессии. У меня не получилось статистически значимого влияния каких либо сопутствующих в формирование типа припадка. Интересно посмотреть это решение в R, я в SPSS сделала.
p2004r
Цитата(DrgLena @ 4.01.2013 - 22:14) *
Задача может быть решена с помощью логистической регрессии, при этом, если зависимая переменная принимает не два, как мы привыкли обсуждать на этом форуме, а три значения, то это будет мультиноминальная логистическая регрессия (сумма трех вероятностей, которые вы получите будет равна 1). Вы должны выбрать референтную перменную (я затрудняюсь какую выбрать малую или фокальную) и получите оценку каждого сопутствующего заболевания с учетом всех имеющихся в виде экспоненциального коэффициента уравнения регрессии. У меня не получилось статистически значимого влияния каких либо сопутствующих в формирование типа припадка. Интересно посмотреть это решение в R, я в SPSS сделала.


разделения randomForest например не дает совсем, еще попробую интерпретировать зависимую переменную как количественную... возможно это что то даст.

PS ничего с регрессией не получается
DrgLena
Да, нет, зависимая переменная может быть чисто номинальная, но все же, чтобы референтную категорию выбрать желательно знать что хуже. Я кодировала генерализованные, как самые плохие - 3, а вот с малыми и фокальными, я не уверена, что хуже. Но относительно какой категории повышение риска считать, не суть важно.
DrgLena
Максимальная вероятность генерализованого припадка по этим данным составила 0,65 (для других двух типов 0,13 и 0,22) при сочетнии сопутствующих подряд 0 0 1 1 0 1.
p2004r
Цитата(DrgLena @ 4.01.2013 - 23:42) *
Максимальная вероятность генерализованого припадка по этим данным составила 0,65 (для других двух типов 0,13 и 0,22) при сочетнии сопутствующих подряд 0 0 1 1 0 1.


хорошо, но нужны доверительные интервалы smile.gif (у последней единички это считанные "человеки")
DrgLena
Япросто дошла до конца и рассчитала для каждого больного все три вероятности (А, Б, С ). Но задача, как она сформулирована автором поста, может быть ограничена только трактовкой коэффициентов exp(b). Это и есть оценка риска и для этих коэффициентов и приводят доверительные интервалы.

Мультиноминальная логистическая модель, которая бы связывала вероятность типа припадка с сопутствующими заболеваниями совершенно не значима для этого набора данных Likelihood Ratio Tests 5,686 р=0,93., поэтому и оценка каждого коэффициента также не имеет особого смысла. Для генерализованного оценка роли ревматизма:
1. 2,82 (95%ДИ 0,28-28,32) фокальный
2. 2,64 (95% ДИ 0,43-16,28) малый
ramxas
здорово, что столько откликов, 08.01.2013 буду с устойчивой связью и выскажу свои соображения
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.