Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Сравнение структур заболеваемости
Туманов
сообщение 18.04.2008 - 14:05
Сообщение #1





Группа: Пользователи
Сообщений: 1
Регистрация: 18.04.2008
Пользователь №: 4972



Уважаемые господа!

Подскажите, пожалуйста, как сравнить структуры заболеваемости в 2 территориях.
По каждой территории заполнена таблица данных, в которой для 6 нозологических групп и 2 полов пациентов указана доля в процентах случаев заболеваний от полного числа случаев заболеваний во всех 6 нозологических группах у пациентов данного пола в данной территории:

Нозология | Доля случаев у мужчин | Доля случаев у женщин
-------------|------------------------------|--------------------------
Ноз.1 | Доля м1 | Доля ж1
Ноз.2 | Доля м2 | Доля ж2
... | |
Ноз.6 | Доля м6 | Доля ж6
-------------|------------------------------|--------------------------
Всего | 100% | 100%

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 18.04.2008 - 18:09
Сообщение #2





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Рискну предположить, что имеются 2 двумерные выборки, которые необходимо сравнить.

Для подобного типа задач разработаны специальные методы множественных сравнений.
Укажем множественные аналоги (для двух многомерных выборок) наиболее известных "одномерных" методов:

1. Критерий Стьюдента - критерий Хотеллинга.
2. Критерий Уэлча - критерий Джеймса-Сю.
3. F-критерий - критерий Кульбака.
4. Критерий Вилкоксона - критерий Пури-Сена-Тамура.

Предпосылки применения множественных методов - те же, что соответствующих одномерных. За исключением того, что средние значения будут векторами, а дисперсии - дисперсионно-ковариационными матрицами. Ну, и нормальность для Хоттелинга, Джеймса-Сю и Кульбака проверяется многомерная.

Данные методы имеются в пакетах прикладных программ. Методы описаны во многих источниках, в т.ч. и на русском языке.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 18.04.2008 - 21:15
Сообщение #3





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Рискну прописать другую схему лечения. Основная задача - оценить влияние места проживания на распространенность 6 видов заболевания. При этом провели стратификацию по полу, поэтому нужно сравнить разность пропорций каждой нозологии между 1 и 2 зоной проживания отдельно для мужчин и для женщин. Мы уже обсуждали, как рассчитать доверительный интервал для разности долей. Графическое представление долей с ДИ даст ответ и на другие вопросы: какая нозология преобладает, есть ли разница заболеваемости между м. и ж. Т.о. нужно оценить пропорции, а средние и дисперсии оценивать - это для других задач.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.04.2008 - 22:07
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Рискну предложить другие схемы rotate.gif .
1. Традиционная. По сути у вас трехмерная таблица сопряженности с 3 входами: А - нозология (6 категорий), В - пол (2) и С - территория (2). Данные для такой таблицы нужно подготовить: в ней должны быть не относительные частоты (%), а абсолютные (количества человек), которые восстанавливаются по % и общему количеству. Если бы входов было 2 (например, не учитывался бы пол) сравнение структур можно было бы провести с помощью обычного критерия хи-квадрат. Для трехмерной таблицы используется отношение правдоподобия (= хи-квадрат максимального правдоподобия = G-критерий = G^2 = максимального лог-правдоподобия и др.), а саму процедуру проверки обычно проводят поэтапно (иерархический логлинейный анализ): от самого сложного полного взаимодействия (ABC) до полной независимости входов таблицы. Очевидное преимущество такой схемы - все данные обрабатываются одновременно, при этом также возрастает мощность анализа (растет объем выборки). Если окажется значимым взаимодействие АBC - значит все входы связаны, такое взаимодействие можно интерпретировать: структура связи нозологий с полом различна на 2 территориях или на территориальные особенности распределения нозологий влияет пол и т.д. Если же взаимодействие АВС незначимо - проверяются 3 взаимодействия низшего порядка: АB(С) - связь нозологии с полом при усреднении данных по территории, AC(B) и CB(A). Вручную такой анализ считать утомительно, т.к. в нем используется итерационный алгоритм расчета ожидаемых частот. Делал логлинейный анализ в Statistica и SPSS - по этим программам могу подсказать на что нажимать smile.gif.
2. Нетрадиционная. Логлинейный анализ не столько сравнивает структуры, сколько позволяет разобраться что с чем связано и связано ли. Но можно сравнить структуры напрямую, подобно тому как экологи сравнивают структуру распределения видов по биотопам. Здесь для сравнения двух матриц используется прокрустова техника, а для теста значимости - методом перестановок (permutation) оценивается вероятность случайного совпадения данных. Метод назван так именно потому что позволяет оценить насколько одна структура вписывается в "прокрустово ложе" другой структуры. В этом случае неважно какие частоты использовать: абсолютные или относительные, т.к. прокрустово преобразование включает этап преобразования размера. Почитать и скачать бесплатную программу можно здесь: http://www.zoo.utoronto.ca/jackson/pro1.html
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.04.2008 - 06:48
Сообщение #5





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 18.04.2008 - 21:15) *
нужно сравнить разность пропорций каждой нозологии между 1 и 2 зоной проживания отдельно для мужчин и для женщин.

Считаю, что нельзя этого делать. Да и каких пропорций? Там 6 нозологий, а не 2 исхода. Пропорции по полам? Если так - мы и исследуем пропорции по полам. Другая задача стоит - различие по территориям.
Прав nokh. Только задача - менее общая.
Вот ссылка для загрузки 4-й главы монографии Аптона, посвященной данной проблеме http://lib.socio.msu.ru/l/library?e=d-000-...d79400f7a44e1.6.
Рассмотрены различные виды гипотез: взаимная независимость 3-х факторов, условная независимость и т.д. Поэтому необходимо точно гипотезу сформулировать.
Имеется еще работа прямо по теме "Goodman L.A. On methods for comparing contingency tables" 1963 года. Исследуется однородность k таблиц сопряженности размера i x j критерием хи-квадрат. Еще можно, используя прием, подсказанный Аптоном, просто перегруппируя исходные таблицы, исследовать влияние различных факторов (в том числе пола, если нужно).


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.04.2008 - 21:03
Сообщение #6





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Игорь, вы так умеете запугать врачей- аспирантов так, что авторы постера выпадают из дискуссии. Знание большого числа критериев - дело хорошее, но нужно дать клиническое объяснение полученному статистическому анализу. Вернемся к конкретной задаче и еще больше ее конкретизируем. Из 6 легочных заболеваний в 1 зоне проживания (на рудниках)туберкулез выявлен у 45% мужчин и у 21% женщин. Во второй зоне проживания (на курорте) туберкулез выявлен у 23% мужчин и у 20% женщин. Один из возможных вопросов - чаще ли болеют туберкулезом мужчины работающие на рудниках, чем проживающие на курорте? Анализ таблиц сопряженности, которую nokh подробно описал, вполне подходит, вот только сложность в том, что эти доли не являются распространенностью заболевания, поскольку 100% - все больные разными болезнями, и это не доли больных относительно здоровых. В прикрепленном файле - иллюстрация к таблице сопряженности (3х2), ясно какие % различаются на 5% уровне.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 22.04.2008 - 07:46
Сообщение #7





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 21.04.2008 - 21:03) *
Игорь, вы так умеете запугать врачей- аспирантов так, что авторы постера выпадают из дискуссии. Знание большого числа критериев - дело хорошее, но нужно дать клиническое объяснение полученному статистическому анализу. Вернемся к конкретной задаче и еще больше ее конкретизируем.

Дело не в большом числе критериев, а в попытке выбора одного, но годного для представленного дизайна.

Вот nokh предложил анализировать трехвходовую таблицу сопряженности. Так и нужно делать. Как раз структуру заболеваемости и исследуем. Критерии хи-квадрат, методы для стратифицированных таблиц подходят (подробнейшим образом описаны в бесплатно доступном Руководстве по StatXact).

Вроде бы все верно. Одно НО. Посмотрите на первый пост темы. Там нет никаких таблиц сопряженности! По процентам исходную таблицу не восстановить! Для восстановления исходной таблицы необходимо знать не долю, а КОЛИЧЕСТВО случаев. Следовательно, все выкладки - воображаемые. Если автор представит данные в виде частот, тогда можно рассуждать и о трехвходовых таблицах, и об отношениях, а уж тем более о доверительных интервалах (см. пример ниже) для них.

Если же мы оперируем тем, что есть, без домысливания несуществующей (утраченной?) информации, см. мой первый пост темы.

Пример, полученный из одной и той же процентной таблицы
------------------------------------------------------------------------
Таблица 1
10 40
90 60

Таблица 2
100 400
900 600

Для таблицы 1
Относительный риск
0,333333333
Нижний 95% 0,188592849
Верхний 95% 0,589158664
Разность пропорций
0,4
Нижний 95% 0,25087633
Верхний 95% 0,54912367
Отношение шансов
0,166666667
Нижний 95% 0,077471364
Верхний 95% 0,358555425

Для таблицы 2
Относительный риск
0,333333333
Нижний 95% 0,278393245
Верхний 95% 0,399115687
Разность пропорций
0,4
Нижний 95% 0,355725992
Верхний 95% 0,444274008
Отношение шансов
0,166666667
Нижний 95% 0,130808928
Верхний 95% 0,212353838



Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 22.04.2008 - 08:55
Сообщение #8





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Вы правы в том, что таблицы сопряженности нет, и нам не нужно фантазировать, какие факторы - пол или зона проживания, или все вместе интересует автора. Есть только проценты и их нужно сравнить. Доверительные интервалы - это не мода, а требование доказательной медицины, которая ориентирует врача на клиническую интерпретацию результата и позволяет ответить на вопрос устраивает ли его нижняя граница ДИ. Вы можете пранализировать многовходовую таблицу самым правильным критерием и получить р=0,04 или р=0,06. И в первом и во втором случае все равно нужно углубиться в каждую нозологию для сравнения влияния пола и места проживания на частоту выявления конкретной болезни.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 22.04.2008 - 13:20
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А в том виде, в котором данные представлены их анализировать вообще нельзя. Обратите внимание:
1) Это структура заболеваемости, там данные суммируются до 100% и, соответственно, они зависимые - т.е. ни один из критериев, которые требуют независимости данных (а это все) не подходят
2) Количество пациентов не известно, а, соответственно, оценить размер дисперсии не представляется возможным.

Если численность пациентов в группах известно, то можно восстановить исходные частоты и тогда можно использовать упомянуое выше логлинейное моделирование.
Однако вопрос - сравнить структуру заболеваемости. На это можно ответить другим вопросом, а что понимается по "сравнить структуру". Мне кажется, что надо вначале стандартизовать данные по полу (т.е. сделать ситуацию при которой половая структура регионов одинаковая), а затем просто посмотеть распределение заболеваний по процентам. Дело в том, что это похоже на описательное исследование когда изучается не выборка, а популяция (соответственно, показатели статистической ошибки вычислять можно, но надо думать, что тогда является популяцией).
Что же касается стандартизации, то тут все просто.
предположим, что ситуация такова:
Регион 1 Регион 2
М Ж М Ж
0,3 0.1 0.5 0.2
0.5 0.5 0.3 0.5
0.2 0.4 0.2 0.2
Стандартная популяция состоит из 100 мужчин и 100 женщин
Региона 1 Регион 2
30 10 40 50 20 70
50 50 100 30 50 80
20 40 60 20 20 40
Делим суммарные значения на 200 и, соответственно, стандартизованные данные по регионам
20% 35%
50% 40%
30% 20%
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему