Здравствуйте, гость ( Вход | Регистрация )
3.03.2014 - 16:25
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1 Регистрация: 3.03.2014 Из: Новосибирск Пользователь №: 26118 |
Уважаемые господа, можно ли обратиться к Вам за помощью?
Имеется база данных, основанная на анкетировании более 1500 человек, в которой категориально (да - нет) отражены такие симптомы как головные боли, боли в пояснице, боли в грудной клетке и пр. (более 30), на их основе вычисленный индекс состояния здоровья (непрерывная величина от 0 до 1). Для каждого случая естественно записаны предикты, такие как населенный пункт, возраст (или возрастная группа), пол, профессия, привычки, группа риска (на основе воздействия химических загрязнителей поллютантов - 3 группы) и пр. Стоит задача выявить предикторы вызывающие значимое повышение отношение шансов наблюдаемых симптомов, а также оценить комплексное влияние этих факторов (предикторов). Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации). В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа? Будем рады любому ответу... ![]() |
|
|
![]() |
![]() |
![]() |
4.03.2014 - 22:11
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
1. Не такая уж это симпатичная идея - использовать модель бинарного отклика (ака логистическая регрессия, простейший бинарный классификатор) для моделирования некоторой непрерывной величины, которая едва ли напоминает сигмоид. Все, что будете иметь на выходе-это возможность с умным видом сказать, что, мол, пациент скорее жив, чем мертв. Только, чур, без обид.
Если очень хочется побаловаться с регрессионными техниками, можно попробовать искусственно этот самый индекс здоровья представить в виде градаций упорядоченной переменной (типа 0-0,5 "мертв", 0,5-0,7 - "негоден в мирное время, годен к нестроевой в военное время", 0,7-1,0 - "здоровье космонавта" и далее оценить модель множественного отклика (мультиномиальный логит). 2. Мультиколлинеарность (?) (интересно, а как поставили этот диагноз) - не всегда является абсолютным злом: просто статистические свойства оценок становятся хуже (н-р, теряется их эффективность). Простейший способ борьбы - разделить один коррелированный предиктор на другой и использовать эту конструкцию как самостоятельный предиктор, чуть более сложная техника - метод инструментальных переменных. Однако, выбор инструментов-головная боль та еще. И в смысле оценивания таких регрессий с мультиколлинеарными матрицами вариаций-ковариаций регрессоров тоже не все плохо: есть гребневая ("ридж") регрессия, есть LASSO Тибширани. Словом, выкрутиться можно. |
|
|
![]() |
![]() |
naustro Вопрос по анализу данных 3.03.2014 - 16:25
nokh Цитата(naustro @ 3.03.2014 - 19:25) ... 3.03.2014 - 17:57
anserovtv Прежде чем собирать данные, нужно знать. какими ме... 4.03.2014 - 08:29
p2004r Цитата(naustro @ 3.03.2014 - 16:25) ... 4.03.2014 - 16:37
nokh Цитата(p2004r @ 4.03.2014 - 19:37) 2... 4.03.2014 - 17:43
p2004r Цитата(nokh @ 4.03.2014 - 17:43) До ... 5.03.2014 - 21:33
100$ А вот еще отлично ортогонализует вектора процедура... 6.03.2014 - 12:01![]() ![]() |