Сравнение структур заболеваемости |
Здравствуйте, гость ( Вход | Регистрация )
Сравнение структур заболеваемости |
18.04.2008 - 14:05
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 18.04.2008 Пользователь №: 4972 |
Уважаемые господа!
Подскажите, пожалуйста, как сравнить структуры заболеваемости в 2 территориях. По каждой территории заполнена таблица данных, в которой для 6 нозологических групп и 2 полов пациентов указана доля в процентах случаев заболеваний от полного числа случаев заболеваний во всех 6 нозологических группах у пациентов данного пола в данной территории: Нозология | Доля случаев у мужчин | Доля случаев у женщин -------------|------------------------------|-------------------------- Ноз.1 | Доля м1 | Доля ж1 Ноз.2 | Доля м2 | Доля ж2 ... | | Ноз.6 | Доля м6 | Доля ж6 -------------|------------------------------|-------------------------- Всего | 100% | 100% Спасибо! |
|
18.04.2008 - 18:09
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Рискну предположить, что имеются 2 двумерные выборки, которые необходимо сравнить.
Для подобного типа задач разработаны специальные методы множественных сравнений. Укажем множественные аналоги (для двух многомерных выборок) наиболее известных "одномерных" методов: 1. Критерий Стьюдента - критерий Хотеллинга. 2. Критерий Уэлча - критерий Джеймса-Сю. 3. F-критерий - критерий Кульбака. 4. Критерий Вилкоксона - критерий Пури-Сена-Тамура. Предпосылки применения множественных методов - те же, что соответствующих одномерных. За исключением того, что средние значения будут векторами, а дисперсии - дисперсионно-ковариационными матрицами. Ну, и нормальность для Хоттелинга, Джеймса-Сю и Кульбака проверяется многомерная. Данные методы имеются в пакетах прикладных программ. Методы описаны во многих источниках, в т.ч. и на русском языке. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
18.04.2008 - 21:15
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Рискну прописать другую схему лечения. Основная задача - оценить влияние места проживания на распространенность 6 видов заболевания. При этом провели стратификацию по полу, поэтому нужно сравнить разность пропорций каждой нозологии между 1 и 2 зоной проживания отдельно для мужчин и для женщин. Мы уже обсуждали, как рассчитать доверительный интервал для разности долей. Графическое представление долей с ДИ даст ответ и на другие вопросы: какая нозология преобладает, есть ли разница заболеваемости между м. и ж. Т.о. нужно оценить пропорции, а средние и дисперсии оценивать - это для других задач.
|
|
18.04.2008 - 22:07
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Рискну предложить другие схемы .
1. Традиционная. По сути у вас трехмерная таблица сопряженности с 3 входами: А - нозология (6 категорий), В - пол (2) и С - территория (2). Данные для такой таблицы нужно подготовить: в ней должны быть не относительные частоты (%), а абсолютные (количества человек), которые восстанавливаются по % и общему количеству. Если бы входов было 2 (например, не учитывался бы пол) сравнение структур можно было бы провести с помощью обычного критерия хи-квадрат. Для трехмерной таблицы используется отношение правдоподобия (= хи-квадрат максимального правдоподобия = G-критерий = G^2 = максимального лог-правдоподобия и др.), а саму процедуру проверки обычно проводят поэтапно (иерархический логлинейный анализ): от самого сложного полного взаимодействия (ABC) до полной независимости входов таблицы. Очевидное преимущество такой схемы - все данные обрабатываются одновременно, при этом также возрастает мощность анализа (растет объем выборки). Если окажется значимым взаимодействие АBC - значит все входы связаны, такое взаимодействие можно интерпретировать: структура связи нозологий с полом различна на 2 территориях или на территориальные особенности распределения нозологий влияет пол и т.д. Если же взаимодействие АВС незначимо - проверяются 3 взаимодействия низшего порядка: АB(С) - связь нозологии с полом при усреднении данных по территории, AC(B) и CB(A). Вручную такой анализ считать утомительно, т.к. в нем используется итерационный алгоритм расчета ожидаемых частот. Делал логлинейный анализ в Statistica и SPSS - по этим программам могу подсказать на что нажимать . 2. Нетрадиционная. Логлинейный анализ не столько сравнивает структуры, сколько позволяет разобраться что с чем связано и связано ли. Но можно сравнить структуры напрямую, подобно тому как экологи сравнивают структуру распределения видов по биотопам. Здесь для сравнения двух матриц используется прокрустова техника, а для теста значимости - методом перестановок (permutation) оценивается вероятность случайного совпадения данных. Метод назван так именно потому что позволяет оценить насколько одна структура вписывается в "прокрустово ложе" другой структуры. В этом случае неважно какие частоты использовать: абсолютные или относительные, т.к. прокрустово преобразование включает этап преобразования размера. Почитать и скачать бесплатную программу можно здесь: http://www.zoo.utoronto.ca/jackson/pro1.html |
|
21.04.2008 - 06:48
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
нужно сравнить разность пропорций каждой нозологии между 1 и 2 зоной проживания отдельно для мужчин и для женщин. Считаю, что нельзя этого делать. Да и каких пропорций? Там 6 нозологий, а не 2 исхода. Пропорции по полам? Если так - мы и исследуем пропорции по полам. Другая задача стоит - различие по территориям. Прав nokh. Только задача - менее общая. Вот ссылка для загрузки 4-й главы монографии Аптона, посвященной данной проблеме http://lib.socio.msu.ru/l/library?e=d-000-...d79400f7a44e1.6. Рассмотрены различные виды гипотез: взаимная независимость 3-х факторов, условная независимость и т.д. Поэтому необходимо точно гипотезу сформулировать. Имеется еще работа прямо по теме "Goodman L.A. On methods for comparing contingency tables" 1963 года. Исследуется однородность k таблиц сопряженности размера i x j критерием хи-квадрат. Еще можно, используя прием, подсказанный Аптоном, просто перегруппируя исходные таблицы, исследовать влияние различных факторов (в том числе пола, если нужно). Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
21.04.2008 - 21:03
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Игорь, вы так умеете запугать врачей- аспирантов так, что авторы постера выпадают из дискуссии. Знание большого числа критериев - дело хорошее, но нужно дать клиническое объяснение полученному статистическому анализу. Вернемся к конкретной задаче и еще больше ее конкретизируем. Из 6 легочных заболеваний в 1 зоне проживания (на рудниках)туберкулез выявлен у 45% мужчин и у 21% женщин. Во второй зоне проживания (на курорте) туберкулез выявлен у 23% мужчин и у 20% женщин. Один из возможных вопросов - чаще ли болеют туберкулезом мужчины работающие на рудниках, чем проживающие на курорте? Анализ таблиц сопряженности, которую nokh подробно описал, вполне подходит, вот только сложность в том, что эти доли не являются распространенностью заболевания, поскольку 100% - все больные разными болезнями, и это не доли больных относительно здоровых. В прикрепленном файле - иллюстрация к таблице сопряженности (3х2), ясно какие % различаются на 5% уровне.
|
|
22.04.2008 - 07:46
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Игорь, вы так умеете запугать врачей- аспирантов так, что авторы постера выпадают из дискуссии. Знание большого числа критериев - дело хорошее, но нужно дать клиническое объяснение полученному статистическому анализу. Вернемся к конкретной задаче и еще больше ее конкретизируем. Дело не в большом числе критериев, а в попытке выбора одного, но годного для представленного дизайна. Вот nokh предложил анализировать трехвходовую таблицу сопряженности. Так и нужно делать. Как раз структуру заболеваемости и исследуем. Критерии хи-квадрат, методы для стратифицированных таблиц подходят (подробнейшим образом описаны в бесплатно доступном Руководстве по StatXact). Вроде бы все верно. Одно НО. Посмотрите на первый пост темы. Там нет никаких таблиц сопряженности! По процентам исходную таблицу не восстановить! Для восстановления исходной таблицы необходимо знать не долю, а КОЛИЧЕСТВО случаев. Следовательно, все выкладки - воображаемые. Если автор представит данные в виде частот, тогда можно рассуждать и о трехвходовых таблицах, и об отношениях, а уж тем более о доверительных интервалах (см. пример ниже) для них. Если же мы оперируем тем, что есть, без домысливания несуществующей (утраченной?) информации, см. мой первый пост темы. Пример, полученный из одной и той же процентной таблицы ------------------------------------------------------------------------ Таблица 1 10 40 90 60 Таблица 2 100 400 900 600 Для таблицы 1 Относительный риск 0,333333333 Нижний 95% 0,188592849 Верхний 95% 0,589158664 Разность пропорций 0,4 Нижний 95% 0,25087633 Верхний 95% 0,54912367 Отношение шансов 0,166666667 Нижний 95% 0,077471364 Верхний 95% 0,358555425 Для таблицы 2 Относительный риск 0,333333333 Нижний 95% 0,278393245 Верхний 95% 0,399115687 Разность пропорций 0,4 Нижний 95% 0,355725992 Верхний 95% 0,444274008 Отношение шансов 0,166666667 Нижний 95% 0,130808928 Верхний 95% 0,212353838 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
22.04.2008 - 08:55
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Вы правы в том, что таблицы сопряженности нет, и нам не нужно фантазировать, какие факторы - пол или зона проживания, или все вместе интересует автора. Есть только проценты и их нужно сравнить. Доверительные интервалы - это не мода, а требование доказательной медицины, которая ориентирует врача на клиническую интерпретацию результата и позволяет ответить на вопрос устраивает ли его нижняя граница ДИ. Вы можете пранализировать многовходовую таблицу самым правильным критерием и получить р=0,04 или р=0,06. И в первом и во втором случае все равно нужно углубиться в каждую нозологию для сравнения влияния пола и места проживания на частоту выявления конкретной болезни.
|
|
22.04.2008 - 13:20
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А в том виде, в котором данные представлены их анализировать вообще нельзя. Обратите внимание:
1) Это структура заболеваемости, там данные суммируются до 100% и, соответственно, они зависимые - т.е. ни один из критериев, которые требуют независимости данных (а это все) не подходят 2) Количество пациентов не известно, а, соответственно, оценить размер дисперсии не представляется возможным. Если численность пациентов в группах известно, то можно восстановить исходные частоты и тогда можно использовать упомянуое выше логлинейное моделирование. Однако вопрос - сравнить структуру заболеваемости. На это можно ответить другим вопросом, а что понимается по "сравнить структуру". Мне кажется, что надо вначале стандартизовать данные по полу (т.е. сделать ситуацию при которой половая структура регионов одинаковая), а затем просто посмотеть распределение заболеваний по процентам. Дело в том, что это похоже на описательное исследование когда изучается не выборка, а популяция (соответственно, показатели статистической ошибки вычислять можно, но надо думать, что тогда является популяцией). Что же касается стандартизации, то тут все просто. предположим, что ситуация такова: Регион 1 Регион 2 М Ж М Ж 0,3 0.1 0.5 0.2 0.5 0.5 0.3 0.5 0.2 0.4 0.2 0.2 Стандартная популяция состоит из 100 мужчин и 100 женщин Региона 1 Регион 2 30 10 40 50 20 70 50 50 100 30 50 80 20 40 60 20 20 40 Делим суммарные значения на 200 и, соответственно, стандартизованные данные по регионам 20% 35% 50% 40% 30% 20% |
|