Цитата(naustro @ 3.03.2014 - 19:25)

Уважаемые господа, можно ли обратиться к Вам за помощью?
Имеется база данных, основанная на анкетировании более 1500 человек, в которой категориально (да - нет) отражены такие симптомы как головные боли, боли в пояснице, боли в грудной клетке и пр. (более 30), на их основе вычисленный индекс состояния здоровья (непрерывная величина от 0 до 1). Для каждого случая естественно записаны предикты, такие как населенный пункт, возраст (или возрастная группа), пол, профессия, привычки, группа риска (на основе воздействия химических загрязнителей поллютантов - 3 группы) и пр.
Стоит задача выявить предикторы вызывающие значимое повышение отношение шансов наблюдаемых симптомов, а также оценить комплексное влияние этих факторов (предикторов).
Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).
В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?
Будем рады любому ответу...
Данных немало, можно пробовать разные подходы. Конкретика зависит от того, как вы собираетесь пользоваться разработанным на основе анализа инструментом, что прогнозировать, на каком этапе и как группировать симптомы и т.п.
(1) Самый "тупой" подход, но полезный для прочувствования материала: построить 30 множественных регрессий (без взаимодействий) - по одной на каждый симптом и составить таблицу (30 х N предикторов), в которой плюсами отметить ячейки со значимым положительным влиянием предиктора, минусом - со значимым отрицательным, а 0 - отсутствие значимого влияния (+ цветами ячейки подкрасить). Такая таблица хорошо поддаётся осмыслению и поможет составить план на дальнейшие анализы материала. Ну, например, сразу будут видны предикторы, вложившиеся сразу в несколько симптомов, вложившиеся в 1-2 и не вложившиеся никуда. Выявятся основные факторы риска, с которыми можно работать глубже: комбинируя, взаимодействуя и т.п. Полезно и симптомы осмыслить: все ли информативны?
(2) Многомерный анализ. Здесь хорошо подойдёт множественный анализ соответствий (Canonical correspondence analysis). В отличие от обычного анализа соответствий он позволяет анализировать не всю изменчивость (инерцию) многомерного пространства данных, а лишь ту её часть, которая задаётся пространством предикторов. Можно не углубляться слишком, а просто ограничиться графическим анализом нескольких первых измерений на ординационных диаграммах. Будет видно, какие группы симптомов выстраиваются в направлении векторов каких предикторов или их групп. Это даст возможность обозначить наиболее сильные в наборе данных связи (групп) симптомов с предикторами и их сочетаниям. Далее эти связи можно проверять логлинейным анализом или малым числом конкретных логистических регрессий. Вместо канонич. анализа соответствий можно использовать анализ главных координат и/или многомерное шкалирование (здесь есть терминологические невязки) и выявить наболее плотные кластеры симптомов (например, с использованием коэффициентов сходства Жаккара - отличная мера близости для альтернативных данных), дать им медицинские обозначения, а далее моделировать риски для таких групп симптомов...
(3) Если важна точность прогноза в ущерб пониманию, можно поиграться с нейронными сетями - это большая и специфическая область со своими подводными камнями и наработками...
Короче, нужно на практике пробовать, что лучше подойдёт именно для вашей цели исследования.