Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Вопрос по анализу данных
naustro
сообщение 3.03.2014 - 16:25
Сообщение #1





Группа: Пользователи
Сообщений: 1
Регистрация: 3.03.2014
Из: Новосибирск
Пользователь №: 26118



Уважаемые господа, можно ли обратиться к Вам за помощью?
Имеется база данных, основанная на анкетировании более 1500 человек, в которой категориально (да - нет) отражены такие симптомы как головные боли, боли в пояснице, боли в грудной клетке и пр. (более 30), на их основе вычисленный индекс состояния здоровья (непрерывная величина от 0 до 1). Для каждого случая естественно записаны предикты, такие как населенный пункт, возраст (или возрастная группа), пол, профессия, привычки, группа риска (на основе воздействия химических загрязнителей поллютантов - 3 группы) и пр.
Стоит задача выявить предикторы вызывающие значимое повышение отношение шансов наблюдаемых симптомов, а также оценить комплексное влияние этих факторов (предикторов).

Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).

В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?

Будем рады любому ответу...


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 4.03.2014 - 16:37
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(naustro @ 3.03.2014 - 16:25) *
Попытка провести данный анализ методом логистической регрессии с помощью одноименного модуля epi info 2000 (стандартная программа используемая в эпидемиалогии и лежащая в свободном доступе) дает неплохие результаты при
учете только одного из перечислденных факторов. При учете нескольких взаимодействующих факторов, получаем
неподдающиеся интерпретации результаты, что может быть вызвано однако сильной взаимосвязью предикторов, которые возможно необходимо минимизировать (что не хотелось бы, из-за потери части информации).

В связи с этим хотелось бы обратиться к Вам с вопросом, может имеет смысл воспользоваться каким-нибудь другим методом анализа?

Будем рады любому ответу...


1) Это дежурный вопрос. Вот так по каждой зависимой величине пройдясь можно получить что на что влияет со всеми взаимодействиями
http://forum.disser.ru/index.php?showtopic=3424

Для оценки предсказания сочетания зависимых величин можно генерить эти сочетания, и искать значимые предикторы описанным выше способом. Это экстенсивный подход (ввиду маленького объема данных он вполне подойдет).

2) В Вашей постановке наиболее духу задачи отвечают канонические корреляции. Но их надо уметь описать.

3) Что бы убрать мультиколлинеарность предикторов достаточно провести pca с последующим varimax вращением всех выделенных компонент. Большинство предикторов останутся в "интерпретируемом состоянии".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 4.03.2014 - 17:43
Сообщение #3





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 4.03.2014 - 19:37) *
2) В Вашей постановке наиболее духу задачи отвечают канонические корреляции. Но их надо уметь описать.

До 1), пока не дорос smile.gif , а вот с 2) не согласен. Раз есть предикторы, значит не "корреляции", а регрессия. Т.к. интересует не полная связь, а лишь та её часть, которая обусловлена действием предикторов, - на решение накладывается это ограничение, поэтому часто такие ординационные техники называются "соnstrained ordination". В случае нормального распределения зависимых переменных это - анализ избыточности (Redundancy analysis), а в случае зависимых переменных, представленных бинарными данными (случай топикстартера) - канонический анализ соответствий (Canonical correspondence analysis). В сообщении выше я забыл в переводе написать "канонический", но один хрен, по-русски про него толком не нагуглить, а англ. варианте написал правильно. Хотя лично мне он не очень нравится по силе обобщения редуцированных данных (в семействе многомерных техник можно накомбинировать лучше), но это - классика.
Цитата(p2004r @ 4.03.2014 - 19:37) *
3) Что бы убрать мультиколлинеарность предикторов достаточно провести pca с последующим varimax вращением всех выделенных компонент. Большинство предикторов останутся в "интерпретируемом состоянии".

А какой смысл крутить вместе с шумом? Не встречал таких рекомендаций, дайте, пожалуйста, ссылку.

Сообщение отредактировал nokh - 4.03.2014 - 17:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 5.03.2014 - 21:33
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 4.03.2014 - 17:43) *
До 1), пока не дорос smile.gif , а вот с 2) не согласен. Раз есть предикторы, значит не "корреляции", а регрессия. Т.к. интересует не полная связь, а лишь та её часть, которая обусловлена действием предикторов, - на решение накладывается это ограничение, поэтому часто такие ординационные техники называются "соnstrained ordination". В случае нормального распределения зависимых переменных это - анализ избыточности (Redundancy analysis), а в случае зависимых переменных, представленных бинарными данными (случай топикстартера) - канонический анализ соответствий (Canonical correspondence analysis). В сообщении выше я забыл в переводе написать "канонический", но один хрен, по-русски про него толком не нагуглить, а англ. варианте написал правильно. Хотя лично мне он не очень нравится по силе обобщения редуцированных данных (в семействе многомерных техник можно накомбинировать лучше), но это - классика.

А какой смысл крутить вместе с шумом? Не встречал таких рекомендаций, дайте, пожалуйста, ссылку.


1) Что значит "не дорос" ? smile.gif Там простой перебор фактически идёт.

2) Как есть именно "предикторы", так есть именно "зависимые". Множественное число означает, что предсказать хотят вектор, а не один элемент вектора. По хорошему это http://en.wikipedia.org/wiki/Structured_prediction . Кстати! library(bnlearn) в данном случае вполне себе средство выбора для топикстартера.

Из традиционного анализа это всё что Каноническое. Поскольку вся многомерка это _чистая_ геометрия, на которую все рассуждения типа "берем нормальные распределения для участвующих в анализе данных и на их примере доказываем что то полезное" не накладывают никаких ограничений. Ну самое большее какие то статкритерии выведены... но к чему они там, где надо просто "глазами" смотреть? Нет таких критериев которые заменяют глаза в многомерной статистике. Исходные точки в многомерном пространстве остаются теми же точками просто в другой системе координат.

3) Шума никакого нет, есть побочное следствие способа выбора исходной ортогональной системы координат выражающееся в выделении максимума вариации при проведении очередной оси. А варимакс вращение сохраняет ортогональность, но перераспределяет вариацию. Применять ортогонализацию переменных отправляемых в логистическую регрессию не советует только ленивый smile.gif Более того требование к предикторам оной и заключается в отсутствии взаимосвязи --- иначе вычисление коэффициентов становится численно не устойчивым. Все при этом дружно стонут о пропадающей возможности интерпретировать смысл коэффициентов.

Дополнительно применить варимакс вращение без сокращения числа переменных после ортогонализации вполне себе логически вытекающий прием (который никак не влияет, а всего лишь дополняет давно обоснованную рекомендацию ортогонализации) позволяющий "потерять смысл" только для совсем "клинических случаев" взаимозависимости предикторов. Можете на меня сослаться если что smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему