Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Вопрос по анализу данных
Alex
сообщение 3.04.2007 - 19:02
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 3.04.2007
Пользователь №: 4028



Уважаемые господа, можно ли обратиться к Вам за помощью?
Имеется база данных, основанная на анкетировании более 1500 человек, в которой категориально (да - нет) отражены такие симптомы как головные боли, боли в пояснице, боли в грудной клетке и пр. (более 30), на их основе вычисленный индекс состояния здоровья (непрерывная величина от 0 до 1). Для каждого случая естественно записаны предикты, такие как населенный пункт, возраст (или возрастная группа), пол, профессия, привычки, группа риска (на основе воздействия химических загрязнителей поллютантов - 3 группы) и пр.
Стоит задача выявить предикторы вызывающие значимое повышение отношение шансов наблюдаемых симптомов, а также оценить комплексное влияние этих факторов (предикторов).

Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).

В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?

Будем рады любому ответу...

P.S. Пользуем программу Statistica 6
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Alex
сообщение 4.04.2007 - 19:02
Сообщение #2





Группа: Пользователи
Сообщений: 6
Регистрация: 3.04.2007
Пользователь №: 4028



Огромное спасибо за оперативный ответ!
По всей видимости я сумбурно изложил описание входящих данных и запутал общество в том, а что же хотелось бы получить на выходе.
Позволю себе повториться:
в разных точках страны проводились опросы людей с целью выяснения симптомов их недугов (в базах данных это категориальные величины, 0-1), на основе которых вычислен искусственный индекс здоровья (переменная величина от 0 до 1). То есть, зависимые переменные бинарны, за исключением индекса здоровья.
в каждом из случаев фиксировались предикторы (пол, место (2 деревни), возрастная группа (3группы), курение (да нет), алкоголизм, .... группа риска (3 группы в зависимости от степени и характера контакта с поллютантом - ингаляционный путь, попадание на кожу, прямого контакта не было но было проживание в зараженной местности), причем естественно последний показатель та самая переменная в основном ради которой и проводилось все исследование.

Встала задача выяснить, а насколько перечисленные предикторы определяют частоты встречаемости отмеченных симптомов и сущевствует ли взаимодействие этих предикторов которое увеличивает шансы частот проявления данных симптомов (естественно значимые)?

Сразу позволю оговориться и вынести на суд общественности свое резюме: по специальности я эколог, но работаю в команде эпидемиологов. Таким образом это данные коллектива медицинской части.

Может быть Вам покажутся несколько несуразными и простыми наши проблемы, но дело в том что передо мной никогда не стояло решение подобных задач, как впрочем я и не был обладателем таких баз данных большая часть из которых это бинарные показатели (данные с которыми я работаю - нормальные числовые и уже само наличие нуля по причине отсутствия информации вызывает холодный пот), к слову сказать анкетные данные я так понял не могут похвастаться четкостью - много пропусков по той или иной причине.

Почему epi info?, сам не понимаю почему ее пытаются использовать, скорее всего из-за того что это стандартный пакет "навязываемый" международными эпидемиалогическими организациями...., при этом я не вижу в ней ничего хорошего, тем более что все реализуемо в пакете Statistica

Что дает логистическая регрессия? Однофактоная - огромная значимость места - отлично, интерпретация лежит на поверхности, значит данная местность испытывала высокую нагрузку токсикантов.
Многофакторная - все рассыпалось....

Может причиной всему избыточность предикторов, место, возраст, профессия сами по себе переменные такой функции как показатель группы риска...

Таким образом пребываем в раздумьях, дальше ковырять логистическую регрессию (приемлема ли она здесь), или воспользоваться лог линейным анализом, непараметрикой, деревьями классификации или др?


Заранее благодарен за ответ,
С уважением Alex

P.S.: буду рад если отпишете на e-mail repetty@yandex.ru ваши мысли по поводу хода анализа подобных данных пускай в общих чертах, может когда нибудь сталкивались с аналогичными задачами.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему