Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Выбор метода
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
ElenaElis
Подскажите, пожалуйста, правильно ли я определилась с выбором метода анализа. Начну с самого простого. У меня есть 2 группы больных: одна с метастазами в головном мозге (около 700 чел), другая без них (около 10000). Мне нужно посмотреть зависимость метастазирования в головной мозг от разных параметров, начиная с пола, размера первичной опухоли, гистологии, уровня инвазии и т.д. с целью выбора факторов риска. Думаю в качестве однофакторного анализа применить критерий Х2 для произвольной (либо 2х2 ) таблиц сопряженности. Будет ли это правильным? Заранее большое спасибо!
DoctorStat
Цитата(ElenaElis @ 12.09.2011 - 11:07) *
Думаю в качестве однофакторного анализа применить критерий Х2 для произвольной (либо 2х2 ) таблиц сопряженности. Будет ли это правильным?
Критерий хи-квадрат для таблиц 2х2 требует соблюдения условия - все ожидаемые числа должны быть больше 5. Если это условие не выполняется, используйте точный критерий Фишера. Кроме того, для таблиц 2х2 рекомендуется использовать поправку Йейтса на непрерывность. Оба метода реализованы в бесплатной программе doctorstat2x2, выложенной на моем сайте.
p2004r
Цитата(ElenaElis @ 12.09.2011 - 09:07) *
Подскажите, пожалуйста, правильно ли я определилась с выбором метода анализа. Начну с самого простого. У меня есть 2 группы больных: одна с метастазами в головном мозге (около 700 чел), другая без них (около 10000). Мне нужно посмотреть зависимость метастазирования в головной мозг от разных параметров, начиная с пола, размера первичной опухоли, гистологии, уровня инвазии и т.д. с целью выбора факторов риска. Думаю в качестве однофакторного анализа применить критерий Х2 для произвольной (либо 2х2 ) таблиц сопряженности. Будет ли это правильным? Заранее большое спасибо!


А почему сначала не сделать например lda (линейный дискриминантный анализ ) или RandomForest, и посмотреть а вообще можно ли (и насколько уверенно, применив например бутстреп) отличить больных от здоровых по совокупности параметров? Или даже вообще начать с простого pca и посмотреть как выглядят в пространстве принципиальных компонент эти обе группы?
DrgLena
Тип исследования определяет выбор методов анализа. Сейчас это называют дизайн. В данном случае тип исследования case ? control. Case ? 700, Control ? 10000. Почитайте, какой вид анализа используют при таком дизайне.
На первом этапе, действительно, нужны таблицы сопряженности, чтобы узнать какие значения ранговых или бинарных показателей связаны с метастазированием. Для количественных показателей (размер опухоли) можно вначале найти оптимальную точку разделения и на ее основе сделать бинарную переменную. Например, выстояние опухоли более 6 мм является фактором риска метастазирования в первые 5 лет наблюдения. Создав такие бинарные переменные (для номинальных также можно создать бинарные, например - эпителиоионый клеточный тип ? фактор риска, все остальные ? альтернатива). После этого этапа можно посмотреть и таблицы 2х2, но не для того чтобы применить критерий Х2, хотя его оценка остается традиционной для диссертационных работ. Но для количественной оценки влияния фактора риска используют отношение шансов (OR), которое легко считается по такой таблице, гораздо сложнее посчитать 95% ДИ, но и это уже обсуждалось на форуме. Для оценки влияния множества факторов используют логистическую регрессию, предикторы могут быть как бинарные, ранговые, так и количественные. Экспоненциальные коэффициенты в такой регрессии имеют ясный смысл.
ElenaElis
Большое спасибо за очень полезные советы! Буду все осмыслять и пробовать реализовать. И не подскажите ли хорошие материалы в открытом доступе по логистической регрессии?
Игорь
Цитата(ElenaElis @ 12.09.2011 - 14:28) *
И не подскажите ли хорошие материалы в открытом доступе по логистической регрессии?

Наберите в поиске на нашем форуме "логистическая" - этот метод обсуждался в ряде тем. Там же даны и ссылки на источники и ПО.
sayrus
Цитата(DrgLena @ 12.09.2011 - 14:37) *
В данном случае тип исследования case ? control. Case ? 700, Control ? 10000. Почитайте, какой вид анализа используют при таком дизайне.


Наверное, не совсем так. Case-control - это когда каждому case (случай - человек с изучаемым состоянием) подбирается n-ое количество control (контроль - люди без этого состояния), часто от 1 до 3-х.
Подбор осуществляется путем сопоставления случаев и контролей по значимым признакам (часто от 2 до 4). Значимость определяется теоретическими предположениями или эмпирическими данными. Например, если известно (допущение), что риск возникновения некоего осложнения во многом определяется 3 переменными - полом, возрастом и уровнем параметра X, то сопоставление "участников" исследования проводится именно по этим 3-и показателям, при этом допускается некоторый "люфт" в величине количественных показателей. Например, при сопоставлении по возрасту автор исследования может подбирать пары отличающиеся по возрасту не более чем на 1-5 лет (величина допустимого различия также определяется теоретическими и/или эмпирическими данными). В случае, описанном автором вопроса, по всей видимости речь идет о каком-то варианте когортного исследования.

В зарубежной литературе при анализе факторов риска традиционно применяется 2-этапный подход (далее упрощенно). На первом этапе проводится "однофакторный" анализ. Различия качественных признаков (в зависимости от числа категорий) в сравниваемых группах оцениваются с помощью критерия Пирсона хи-квадрат [Фишер не понадобится, т.к. вряд ли есть смысл искать фактор риска для события, отмечаемого у менее чем 5 больных] или критерия Манна-Уитни. Количественные признаки анализируются с помощью параметрического/непараметрического критерия [часто это t-критерий Стьюдента для несвязанных выборок и критерий Манн-Уитни соответственно]. Второй этап: включение в какой-либо из многофакторных анализов (регресионный и пр.) признаков, по которым установлено статистически значимое различие (пороговое значение для р 0,05/0,10 и даже 0,25), и выделение т.н. независимых предикторов или факторов риска. Причем для количественных признаков может понадобиться трансформация или перекодирование в качественный признак. Надо отметить, что проведение многофакторного анализа потребует выполнение ряда условий, часть из которых уже обсуждались на этом форуме.
DrgLena
И все же, это классическое обсервационное исследование факторов риска, а дизайн случай ? контроль может предполагать различные методы формирования выборки, в том числе может быть и, так называемый, подбор ?копий пар?. Отличительная особенность этого вида исследования состоит в том, что к моменту начала исследования все исходы уже наступили. В когортном исследовании , когда оцениваются факторы риска в начале исследования участники не имеют изучаемого заболевания.
Именно из ?за высокой вероятности возникновения систематических ошибок в исследованиях случай ? контроль и используют подбор ?копий пар?, но при больших выборках ошибки снижаются и в статьях редко описывают именно такой метод формирования контрольной выборки.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.