Случай-контроль, размер групп? |
Здравствуйте, гость ( Вход | Регистрация )
Случай-контроль, размер групп? |
11.06.2008 - 13:41
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 11.06.2008 Пользователь №: 5093 |
Добрый день!
Имеем 16000 человек с диагнозом, т.е. случаев, и 1500 здоровых - контролей. Несоответствие размера групп явное. При этом имеем несколько факторов риска, влияние которых хотим оценить. Что посоветуете сделать? Рассматривать имеющуюся численность? Или делать выборки из групп, если да, то какой численностью лучше? |
|
11.06.2008 - 18:59
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 11.06.2008 Пользователь №: 5093 |
Я наверное сумбурно поставила вопрос? Или просто никто не хочет мне помочь?
|
|
11.06.2008 - 21:05
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Используйте весь имеющийся материал: чем больше выборки, тем точнее оценки интересующих эффектов. Самый простой путь - предположить для начала, что факторы риска действуют независимо друг от друга и аддитивно. Такой материал можно сводить в таблицы сопряженности 2х2 со входами "Фактор риска" (действует - не действует) и "Заболевание" (есть - нет) и для проверки независимости входов анализировать критерием хи-квадрат или лучше G-квадрат (отношение максимального правдоподобия) . Для интерпретации и описания результатов используйте проценты, относительные риски или отношения шансов.
|
|
11.06.2008 - 23:57
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
На самом деле ответ на этот, казалось бы простой вопрос, не такой уже и простой. Судя по посту планируется исследование по дизайну случай- контроль. Имеются определенные требования к формированию группы случай (заболевание есть) и контроль (заболевания нет). Хорошо изложено у Флетчет в клинической эпидемиологии. Факторы риска оценивают рассчитывая отношение шансов (OR) для каждого фактора или оценивают их методом логистической регрессии. Из рекомендаций по размеру групп, не просто чем больше тем лучше, а группа контроля должна быть в 2-3 раза больше основной. Это, если коротко.
|
|
12.06.2008 - 08:52
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 11.06.2008 Пользователь №: 5093 |
Спасибо всем, раньше обычно такие группы и были 1:2. А тут подсунули базу - полный бардак)
Отношение шансов конечно же буду использовать, люблю их очень ))) |
|
13.06.2008 - 23:52
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Из рекомендаций по размеру групп, не просто чем больше тем лучше, а группа контроля должна быть в 2-3 раза больше основной. Это, если коротко. На самом деле не обязательно. Предположим, что контролей заполучить сложнее, чем случаи. Тогда можно делать и наоборот - группа случаев в 2-3 раза больше. Другое дело, что если разница между группами начинает превышать 4 раза (а в посте - почти 10), то смысла в анализе такого соотношения нет. Поэтому разумнее было бы попробовать сделать парный дизайн, поскольку он мощнее и не требует модельного допущения, как в случае регрессии. Т.е. к 1500 контролей подобрать случаи из базы по полу, возрасту и ряду других факторов, которые могут влиять на заболевание, но не являются интересующими исследователя. Затем полученные пары анализируются по McNemar. На один контроль разумно подобрать 1-2 случая (если удастся, обычно в составленных без планирования базах парный дизайн быстро утыкается в то, что случаи - мужчины, а контроль - женщины, или еще что-то в этом роде). |
|
14.06.2008 - 12:58
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... можно делать и наоборот - группа случаев в 2-3 раза больше. Другое дело, что если разница между группами начинает превышать 4 раза (а в посте - почти 10), то смысла в анализе такого соотношения нет... Тоже читал подобные рекомендации, однако там это никак не обосновывалось. По идее, чем больше объемы выборок, тем выше мощность статистического критерия. Почему же тогда теряется смысл в таких сравнениях? По крайней мере с точки зрения статистики здесь все безупречно. А вот использование парного экспериментального плана для пусь похожих, но разных объектов - прием, широко используемый исследователями скорее по договоренности и в силу удобства, но оставляющий вопрос корректности открытым. Буду признателен вам за ссылку, где эти рекомендации обосновываются. |
|
14.06.2008 - 15:23
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Тоже читал подобные рекомендации, однако там это никак не обосновывалось. По идее, чем больше объемы выборок, тем выше мощность статистического критерия. Почему же тогда теряется смысл в таких сравнениях? По крайней мере с точки зрения статистики здесь все безупречно. А вот использование парного экспериментального плана для пусь похожих, но разных объектов - прием, широко используемый исследователями скорее по договоренности и в силу удобства, но оставляющий вопрос корректности открытым. Буду признателен вам за ссылку, где эти рекомендации обосновываются. Вы правы относительно размера выборки, но только в том случае, если численность групп составляет 1:1. В противном случае дисперсия в группе (контроля) не меняется и дальнейшее снижение дисперсии в группе (случаев) ни к чему не приводит. Представьте себе ситуацию, что у нас в группе контроля 1 человек. Сколько случаев не набирай, он не будет репрезентативным представителем популяции контролей. Можете самостоятельно поэскпериментировать с формулами расчета выборки (например, взяв Stata, чтобы не считать вручную) и меняя там соотношение групп. Что касается парного дизайна, то (сошлюсь на Armitage и Berry, Statistical Methods in Medical Research) тут усиление мощности происходит от использования парного дизайна. Поскольку парный дизайн аналогичен дизайнам с повторными измерениями, то используя его Вы снижаете дисперсию ошибки за счет парности по вмешивающимся факторам. Простой пример: изучаем влияние холестерина на развитие ИБС. АД также влияет на развитие ИБС. Если мы АД не учитываем, разный его уровень является "шумом", который мешает нам получить информацию о влиянии ХС (Т.е. любые различия между пациентами могут объясняться (1) разным ХС, (2) разным АД). Если мы берем пациентов с одинаковым АД, то единственно, чем они отличаются друг от друга - это уровнем ХС, поэтому любые различия между ними есть следствие (в простейшем случае) действия разного уровня ХС. Строго говоря, большая мощность многомерных методик заключается в модельном удалении эффекта третьих переменных. Однако модель есть модель и ее описать можно с ошибкой. Мы лет 10 назад анализировали относительную эффективность парного дизайна на данных когортного исследования и выяснили, что это мощный метод, но вероятность подбора пар достаточно низка (только около 35% пациентам удалось подобрать пары). Но у нас было примерное равенство лиц с разными уровнями факторов риска. В данном же случае, со значительным преобладанием одной группы мне кажется, что парный дизайн будет эффективнее (но не видя самой базы сказать сложно). |
|
14.06.2008 - 18:41
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Спасибо! Видимо это действительно трудно понять не поигравшись с цифрами. Будем играться. Рекомендуемая Вами книга мелькает на форуме не первый раз. Нашел, уже листаю. Ознакомиться с книгой можно по ссылкам с данного сайта:http://www.adoop.cn/medical-insurance/show-38484-1.html
|
|
15.06.2008 - 20:10
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Спасибо! Видимо это действительно трудно понять не поигравшись с цифрами. Будем играться. Рекомендуемая Вами книга мелькает на форуме не первый раз. Нашел, уже листаю. Ознакомиться с книгой можно по ссылкам с данного сайта:http://www.adoop.cn/medical-insurance/show-38484-1.html Прелести парного дизайна (если то же издание, что и у меня), описаны на стр. 103, 121 и про дисперсию на стр. 203. Есть еще интересная страничка, описывающая проблемы неравных групп http://onlinestatbook.com/chapter13/unequal.html. Попробовать самому посчитать численность выборки при неравных группах можно на этой странице: http://statpages.org/proppowr.html там быстро становится видно, как меняя соотношение контролей и случаев после n1/n2=4 численность группы (контроля) при увеличении (случаев) перестает меняться. |
|
17.06.2008 - 07:07
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Спасибо за ссылки. Ресурс на Java понравился. Воспользовался им для расчета численности выборок для двух произвольных примеров (разные частоты, ошибки I и II рода). Графики ниже показывают, что после именно n1/n2=4 (см. точку 0,25) ничего кардинально не изменяется. Единственное кардинальное изменение - точка перегиба графика. К сожалению формула для неравных выборок у Флейса слишком сложна и мне не удалось вывести функцию зависимости n2 от n1 при заданных частотах и ошибках, чтобы найти координаты точки перегиба аналитически. На глаз она находится в районе 0,3, возможно между, 0,25 и 0,3. В принципе, ее можно интерполировать, потом попробую - интересно точка ли это или узкая область. Если Вы имели в виду эту точку (область), то после нее смысл анализа не теряется, просто происходит качественная потеря его эффективности . Действительно, для первого примера вместо 66 наблюдений (по 33 в каждой группе) при соотношении опыт : контроль = 1 : 10 потребуется уже 166 наблюдений, во втором примере - вместо 468 - 1189. Если же это ретроспективное исследование и материал уже набран, то не вижу никаких проблем чтобы использовать его целиком. Конечно парный дизайн более рационален, но применительно к данному случаю нельзя заранее решить что будет более эффективно - использовать материал целиком или искать пары. Выход - считать оба варианта.
Идею разнокачественной репрезентативности выборок в случае сильных различий в их объемах понял. Еще почитаю, но похоже что это еще одна внестатистическая обертка, сродни обертки терапевтической значимости поверх значимости статистической. |
|