Здравствуйте!
Помогите, пожалуйста, с исследованием. К врачу попадали дети с подозрением на заболевание, их обследовали в течение некоторого периода, затем делали вывод о наличии заболевания. Здоровыми оказались 30 детей (их взяли в качестве контрольной группы), больными - 40. Факторов ~200. В основном, дихотомические, количественные (на вскидку, нормальное распределение встречается достаточно редко) и несколько порядковых. Задача пока размыта. Насколько я понимаю, часть анализов была получена инвазивно, часть - нет. Врач хочет диагностировать заболевание наименее инвазивно, словом нужно найти значимые факторы риска.
Что я сделал:
1) для дихотомических посчитал хи-квадрат, тест Фишера, отношение шансов (ОШ)
2) для всех факторов, для каких получилось (нет нулевых частот) подобрал коэффициенты логистической регрессии, тест Вальда, ОШ
3) посчитал корреляцию по Спирмену
Все 3 метода указывают на значимость (плюс-минус) 41 фактора. Исключил факторы, у которых в доверительный интервал ОШ попадает 1 (у них и значимость с корреляцией не очень хорошие) - осталось 33 фактора.
Что делать дальше?? )))
1) Я посмотрел корреляции у этих 33 факторов между собой. В этой таблице 33x33 порядка половины корреляций значимы. Как это можно интерпретировать и что с этим делать? Я пытался исключить ложные связи, но непонятно как.
2) Про факторы, которые не попали в список значимых можно вообще забыть?
3) Хотелось бы провести многофакторный анализ, например, логистическую регрессию, чтобы получить скорректированные ОШ. Но переменных слишком много, а данных слишком мало, чтобы включить в уравнение все факторы. А если строить модель включением/исключением факторов, то меня смущает произвольность выбора последних. Допустим, отобрали 10 факторов. А что если у врача, который лечит ребенка нет данных по этим 10 факторам, а есть данные по каким-то другим? Наше решающее правило будет для него бесполезно.
4) Как обычно проводят исследования в таких случаях?