Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Вопрос по анализу данных
naustro
сообщение 3.03.2014 - 16:25
Сообщение #1





Группа: Пользователи
Сообщений: 1
Регистрация: 3.03.2014
Из: Новосибирск
Пользователь №: 26118



Уважаемые господа, можно ли обратиться к Вам за помощью?
Имеется база данных, основанная на анкетировании более 1500 человек, в которой категориально (да - нет) отражены такие симптомы как головные боли, боли в пояснице, боли в грудной клетке и пр. (более 30), на их основе вычисленный индекс состояния здоровья (непрерывная величина от 0 до 1). Для каждого случая естественно записаны предикты, такие как населенный пункт, возраст (или возрастная группа), пол, профессия, привычки, группа риска (на основе воздействия химических загрязнителей поллютантов - 3 группы) и пр.
Стоит задача выявить предикторы вызывающие значимое повышение отношение шансов наблюдаемых симптомов, а также оценить комплексное влияние этих факторов (предикторов).

Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).

В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?

Будем рады любому ответу...


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 4.03.2014 - 16:37
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(naustro @ 3.03.2014 - 16:25) *
Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).

В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?

Будем рады любому ответу...


1) Это дежурный вопрос. Вот так по каждой зависимой величине пройдясь можно получить что на что влияет со всеми взаимодействиями
http://forum.disser.ru/index.php?showtopic=3424

Для оценки предсказания сочетания зависимых величин можно генерить эти сочетания, и искать значимые предикторы описанным выше способом. Это экстенсивный подход (ввиду маленького объема данных он вполне подойдет).

2) В Вашей постановке наиболее духу задачи отвечают канонические корреляции. Но их надо уметь описать.

3) Что бы убрать мультиколлинеарность предикторов достаточно провести pca с последующим varimax вращением всех выделенных компонент. Большинство предикторов останутся в "интерпретируемом состоянии".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему