Форум врачей-аспирантов > Объем выборки для 2 групп для определения распространенности факторов риска

DrAsya

7.01.2009 - 17:23

Уважаемые специалисты!
Очень надеюсь на помощь.
Проблема такая: на определенной территории собираюсь провести исследование распространенности факторов риска сердечно-сосудистых заболеваний. Планируется провести обследование 2 основных нац. групп по 15 факторам риска. Обследование одномоментное. Каким образом сформировать выборку, чтобы она была репрезентативной и каким должен быть её объем?
Заранее спасибо!

плав

8.01.2009 - 13:38

Цитата(DrAsya @ 7.01.2009 - 17:23)

Уважаемые специалисты!
Очень надеюсь на помощь.
Проблема такая: на определенной территории собираюсь провести исследование распространенности факторов риска сердечно-сосудистых заболеваний. Планируется провести обследование 2 основных нац. групп по 15 факторам риска. Обследование одномоментное. Каким образом сформировать выборку, чтобы она была репрезентативной и каким должен быть её объем?
Заранее спасибо!

чтобы была репрезентативной - надо брать случайную выборку из числа жттелей территории, чтобы знать объем нужно знать разброс значений для факторов рика и желаемую точность, но по опыту (таких исследований делалось уйма, начиная с 1970х годов), требуется от 3000 человек, если одного пола.

DrAsya

10.01.2009 - 21:27

Немного не поняла...
Спасибо за ответ, но то, что Вы говорите, я и сама предполагала...
Хотелось бы конкретики.
Как вычислить конкретную цифру? 3 тыс. всего (или каждой национальности)?
И как набирать лучше эту случайную выборку
Данные (так как это факторы риска ССЗ) качественные и количественные.

DrAsya

10.01.2009 - 21:31

Что касается точности - за максимумом не гонюсь)), как большинству аспирантов хочется при минимальном числе выборки максимум допустимой точности. Допустим, 90 - 95 %.

плав

11.01.2009 - 10:30

Цитата(DrAsya @ 10.01.2009 - 21:31)

Что касается точности - за максимумом не гонюсь)), как большинству аспирантов хочется при минимальном числе выборки максимум допустимой точности. Допустим, 90 - 95 %.

Не правильно. Какая ошибка допустима. Например, распространенность курения - с какой точностью +/-5%, +/-10% или +/-1%?
Вообще-то я в принципе не понимаю смысла в этой работе, по крайней мере так, как Вы написали - научной новизны у нее нет. Даже национальные группы за последние 35 лет в СССР/РФ были описаны. Отсутствие исследований конкретной национальной группы не составляет, по замечанию ВАК, новизны. Кстати, а как оценить точно национальность? по паспорту? (так там два человека одинаковой наследственности получуваш полурусский могут быть и чувашом, и русским).
Вообще же для расчета выборки надо знать
1) ожидаемую величину в группе исследования
2) ожидаемую величину в группе контроля
3) разброс величин там и там,
т.е. для ХС у русских и бурятов - средний ХС у русских, средний у бурят, стандратное отклонения ХС у русских, стандартное отклонение ХС у бурят.

DrAsya

11.01.2009 - 21:06

Спасибо за быстрый ответ!
Сначала о несущественном)
Есс-но, делать какие-то открытия, за которые дают Нобелевскую премию, я не планирую. Да и много ли из проводимых сейчас исследований могут претендовать на подобное? Дело тут, в многих случаях, не в умственных способностях отдельно взятого аспиранта, а в соответствующих условиях для работы. Конечно, гении творят в любых условиях. Но я - не гений ;-) Тема предложена научным руководителем.
Насчет смысла в работе - исследование из разряда популяционных, т. е я планирую оценить факторы риска нескольких нац. групп. В паспорте вообще-то национальность не обозначена. Так что я попросту спрошу (и про бабушек-дедушек не поленюсь). НЕ планируется доказать, что одни здоровые, другие - не очень, планируется изучить и посмотреть, кто здоровые, кто не очень! Кроме того, планируется изучить потребность в высокотехнологичной помощи в данном, конкретно взятом регионе.
Относительно ожидаемых величин. Допустим, я найду таковых для русских... А как быть с прочими?
Очень прошу, если есть варианты, поделиться! Критика, плиз, конструктивная! Люблю критику)

плав

11.01.2009 - 22:00

Цитата(DrAsya @ 11.01.2009 - 21:06)

Спасибо за быстрый ответ!
Сначала о несущественном)
Есс-но, делать какие-то открытия, за которые дают Нобелевскую премию, я не планирую. Да и много ли из проводимых сейчас исследований могут претендовать на подобное? Дело тут, в многих случаях, не в умственных способностях отдельно взятого аспиранта, а в соответствующих условиях для работы. Конечно, гении творят в любых условиях. Но я - не гений ;-) Тема предложена научным руководителем.
Насчет смысла в работе - исследование из разряда популяционных, т. е я планирую оценить факторы риска нескольких нац. групп. В паспорте вообще-то национальность не обозначена. Так что я попросту спрошу (и про бабушек-дедушек не поленюсь). НЕ планируется доказать, что одни здоровые, другие - не очень, планируется изучить и посмотреть, кто здоровые, кто не очень! Кроме того, планируется изучить потребность в высокотехнологичной помощи в данном, конкретно взятом регионе.
Относительно ожидаемых величин. Допустим, я найду таковых для русских... А как быть с прочими?
Очень прошу, если есть варианты, поделиться! Критика, плиз, конструктивная! Люблю критику)

Для разнообразия сегодня конструктивная

1) Если известны показатели для одной группы (русских) примите ее как "контрольную". Скажем, ХС=5,5 ммоль/л, стандартное отклонение 1 ммоль/л
Соответственно, теперь, если надо, скажем, для бурят, то выдвигаете гипотезу - ХС у бурят выше на 0,5 ммоль/л. Или, что лучше - не хотелось бы пропустить различия в 0,3 ммоль/л. Далее надо определиться с уровнем значимости (обычно 0,05) и мощностью исследования (т.е. вероятностью не пропустить различия, если они существуют, минимальный уровень 80%)
Теперь у Вас есть все, что нужно для оценки численности выборки для данного фактора риска:
ХС (контроль) - 5,5 ммоль/л
ХС (буряты) - 5,8 ммоль/л (5,5+0,3)
Стандартное отклонение (одинаковое в двух группах) - 1,0
Простейшая формула N=2*C/d^2, где С - коэффициент, зависящий от мощности исследования и уровня достоверности (для р=0,05 и мощности 0,8 примерно 8), d - размер эффекта (разность средних деленная на стандартное отклонение).
Подставляем, получаем 2*8/(0,3)^2=178 человек в каждой группе

Далее, есть качественные показатели, например, курение. Тут также надо оценить распространенность (ожидаемую) курения в двух группах. Скажем у русских 0,6, у бурят ожидаем 0,7.
Общая формула N=2*C*p*(1-p)/(p2-p1)^2, тут р - полусумма распространенностей, р2 и р1 - распространенности в национальных группах.
Получаем
2*8*0,65*0,35/0,05^2=1456 человек в каждой группе

Аналогично для других факторов риска.

Если же надо оценить саму распространенность (не сравнение), то тогда надо определиться с какой точностью. Доверительный интервал как раз описывает интервал истинного (популяционного) значения, который совместим с Вашими выборочными данными.
Полуширина 95% интервала для количественного показателя (примерно)
2*SD/sqrt(N), соответственно, N=4*SD^2/w, где w -ширина интервала.
Для примера с ХС, хотим найти популяционную среднюю с точностью +/-0,1 ммоль/л
N=4*1/0,1^2=400 человек (надо обследовать 400 человек)

Для качественного показателя (примерно)
N=4*(p*(1-p))^2/w^2
Эта величина достигает макксимума при р=0,5, соответственно можно упростить, что максимальный размер выборки
1/w^2
Соответственно, если надо оценить распространенность курения у бурят с точностью +/-5% понадобится
1/0,05^2=400 человек

Конечно, формулы примерные, лучше пользоваться компьютерными программами, но идея, надеюсь, понятна.

DrAsya

13.01.2009 - 20:38

Спасибо, и правда, конструктивная))
Вышенаписанное я поняла так: приведено 2 варианта - со сравнением с использованием контрольной группы и без сравнения.
Я думаю, что в моем случае лучше изначально брать вариант изучения распространенности, потому что я не знаю, какие будут предполагаемые цифры разницы между контрольной группой и другой группой (или группами). Правильнее (и проще) идти по второму пути. Изучив распространенность факторов риска в каждой группе, потом можно сравнить их между собой. Ведь можно?
Кроме того, есть вопросы:
1) Где можно подробнее прочитать о приведенных формулах? При расчете ведь надо будет на них ссылаться.
2) Какая программа больше подходит в данном случае? Где её скачать можно?
3) Расчет идет по каждому фактору риска, так? А потом все это складывается? У меня, например, 14 факторов риска.
4) Конечный рез-т надо будет же увеличивать на процент неотклика? Как мне вывести этот процент? Пригласить первую партию и по их явке уточнить выборку?
Может быть, это все самоочевидные для кого-то вещи, но мне статистика дается с трудом

плав

13.01.2009 - 21:06

Цитата(DrAsya @ 13.01.2009 - 20:38)

Спасибо, и правда, конструктивная))
Вышенаписанное я поняла так: приведено 2 варианта - со сравнением с использованием контрольной группы и без сравнения.
Я думаю, что в моем случае лучше изначально брать вариант изучения распространенности, потому что я не знаю, какие будут предполагаемые цифры разницы между контрольной группой и другой группой (или группами). Правильнее (и проще) идти по второму пути. Изучив распространенность факторов риска в каждой группе, потом можно сравнить их между собой. Ведь можно?
Кроме того, есть вопросы:
1) Где можно подробнее прочитать о приведенных формулах? При расчете ведь надо будет на них ссылаться.
2) Какая программа больше подходит в данном случае? Где её скачать можно?
3) Расчет идет по каждому фактору риска, так? А потом все это складывается? У меня, например, 14 факторов риска.
4) Конечный рез-т надо будет же увеличивать на процент неотклика? Как мне вывести этот процент? Пригласить первую партию и по их явке уточнить выборку?
Может быть, это все самоочевидные для кого-то вещи, но мне статистика дается с трудом

1) Нет, планировать надо сразу либо для сравнения, либо для изучения распространенность - разные цели и задачи - определяется темой диссертации
2) О формулах можо прочитать в книгах по статистике, краткое введение есть у Гланца (переводчики назвали мощность чувствительностью) и две главы в Плавинский С. Биостатистика, 2005. Плюс к этому громадное количество англоязычных ресурсов, просто введите в гугле power and sample size
3) Программа - любая, которая считает размер выборки. В сети много кальуляторов, но зачастую неизвестны их алгоритмы. Все статистичекие системы SAS/Stata/R/S-plus/Statistica имеют модули оценки размера выборки. R можно скачать с их сервера (http://cran.r-project.org/) остальное надо купить
3) Расчет ведется по тому параметру, который даст наибольший размер выборки (т.е. не суммируются а выбирается наибольший размер выборки) или, если планруется многоакторный анализ - по особым алгоритмам (не приводил, да и чаще всего не надо)
4) Да, нади иметь представления о проценте отклика. Поскольку процент отклика не должен быть меньше 70%, то можно просто умножить полученную численность на 1,43

Расчет идет

DrAsya

16.01.2009 - 21:31

Спасибо! К сожалению, временно не могла заходить в инт-т, поэтому не сразу ответила. Слова понятны (которыми написаны советы), надо будет подумать о покупке программы.
Такой вопрос: если взять больше число, чем может понадобиться, тогда тоже надо считать выборку? (Выборку считать буду в любом случае, вопрос для спортивного интереса) Н-р, если взять по 1500 для 2 групп, это 3000 в общем, вряд ли же понадобится большее число участников?
Sorry за глупость

плав

17.01.2009 - 13:35

Цитата(DrAsya @ 16.01.2009 - 21:31)

Спасибо! К сожалению, временно не могла заходить в инт-т, поэтому не сразу ответила. Слова понятны (которыми написаны советы), надо будет подумать о покупке программы.
Такой вопрос: если взять больше число, чем может понадобиться, тогда тоже надо считать выборку? (Выборку считать буду в любом случае, вопрос для спортивного интереса) Н-р, если взять по 1500 для 2 групп, это 3000 в общем, вряд ли же понадобится большее число участников?
Sorry за глупость

Больше можно, теоретически, в клинических испытаниях этический комитет должен задробить такой протокол (большее количество людей будет в группе неэффективного лечения, чем могло бы..., но это теоретически и не у нас). Относительно популяционных исследований - там лозунг чем больше, тем лучше, основной ограничитель средства на исследования, можетет 3 тыс., берите 3 тысячи, хуже не будет.

DrAsya

18.01.2009 - 18:13

Большое спасибо за советы! Начну работать

Думаю, что на этом мои вопросы вряд ли закончатся....