Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> ~200 факторов - методы анализа
Ares_ekb
сообщение 20.10.2012 - 07:29
Сообщение #1





Группа: Пользователи
Сообщений: 9
Регистрация: 31.08.2010
Пользователь №: 22710



Здравствуйте!

Помогите, пожалуйста, с исследованием. К врачу попадали дети с подозрением на заболевание, их обследовали в течение некоторого периода, затем делали вывод о наличии заболевания. Здоровыми оказались 30 детей (их взяли в качестве контрольной группы), больными - 40. Факторов ~200. В основном, дихотомические, количественные (на вскидку, нормальное распределение встречается достаточно редко) и несколько порядковых. Задача пока размыта. Насколько я понимаю, часть анализов была получена инвазивно, часть - нет. Врач хочет диагностировать заболевание наименее инвазивно, словом нужно найти значимые факторы риска.

Что я сделал:
1) для дихотомических посчитал хи-квадрат, тест Фишера, отношение шансов (ОШ)
2) для всех факторов, для каких получилось (нет нулевых частот) подобрал коэффициенты логистической регрессии, тест Вальда, ОШ
3) посчитал корреляцию по Спирмену

Все 3 метода указывают на значимость (плюс-минус) 41 фактора. Исключил факторы, у которых в доверительный интервал ОШ попадает 1 (у них и значимость с корреляцией не очень хорошие) - осталось 33 фактора.

Что делать дальше?? )))

1) Я посмотрел корреляции у этих 33 факторов между собой. В этой таблице 33x33 порядка половины корреляций значимы. Как это можно интерпретировать и что с этим делать? Я пытался исключить ложные связи, но непонятно как.

2) Про факторы, которые не попали в список значимых можно вообще забыть?

3) Хотелось бы провести многофакторный анализ, например, логистическую регрессию, чтобы получить скорректированные ОШ. Но переменных слишком много, а данных слишком мало, чтобы включить в уравнение все факторы. А если строить модель включением/исключением факторов, то меня смущает произвольность выбора последних. Допустим, отобрали 10 факторов. А что если у врача, который лечит ребенка нет данных по этим 10 факторам, а есть данные по каким-то другим? Наше решающее правило будет для него бесполезно.

4) Как обычно проводят исследования в таких случаях?

Сообщение отредактировал Ares_ekb - 20.10.2012 - 07:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ole4901
сообщение 2.11.2012 - 19:54
Сообщение #2





Группа: Пользователи
Сообщений: 2
Регистрация: 2.11.2012
Пользователь №: 24335



Лично я здесь ничего интересного не нашел. Мой вам совет, сперва обучитесь русскому языку, а потом создавайте темы.


Signature
Мой сайт: Бизнес идеи
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.11.2012 - 16:05
Сообщение #3





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Ares_ekb @ 20.10.2012 - 10:29) *
...Все 3 метода указывают на значимость (плюс-минус) 41 фактора. Исключил факторы, у которых в доверительный интервал ОШ попадает 1 (у них и значимость с корреляцией не очень хорошие) - осталось 33 фактора.

Что делать дальше?? )))

1) Я посмотрел корреляции у этих 33 факторов между собой. В этой таблице 33x33 порядка половины корреляций значимы. Как это можно интерпретировать и что с этим делать? Я пытался исключить ложные связи, но непонятно как...

2) Про факторы, которые не попали в список значимых можно вообще забыть?

3) Хотелось бы провести многофакторный анализ, например, логистическую регрессию, чтобы получить скорректированные ОШ. Но переменных слишком много, а данных слишком мало, чтобы включить в уравнение все факторы. А если строить модель включением/исключением факторов, то меня смущает произвольность выбора последних. Допустим, отобрали 10 факторов. А что если у врача, который лечит ребенка нет данных по этим 10 факторам, а есть данные по каким-то другим? Наше решающее правило будет для него бесполезно.

4) Как обычно проводят исследования в таких случаях?



Вопрос 3. У практикующих врачей показателей ВСЕГДА меньше, чем у аспирантов и исследователей, занимающихся данной темой. С этим ничего не поделать, по крайней мере быстро. Поэтому логичный вариант: сделать и показать 2 модели (решающих правила, дискриминантых ключа и т.п.) - 1) наиболее результативную по всему массиву показателей и 2) наиболее результативную из доступных для врача показателей. По известным мне фактам заключаю, что в ряде случаев некоторые врачи достаточно живо и с заинтересованностью откликаются на данные по новым маркёрам риска или их сочетаниям и готовы отстаивать внедрение этого в практику на местах, а где-то и внедряют. Поэтому должен быть и "самый приземлённый вариант" и чуть более сложные альтернативы. В ряде случаев издержки выбора варианта лечения можно разделить с пациентом: есть люди, готовые потратиться на дополнительные анализы, за ради более дешёвого или более надёжного лечения в последующем. Поэтому наилучший, хоть и далёкий от практики вариант тоже должен быть.

Вопрос 2. Думаю, что пока - да. Со значимыми бы разобраться. Ясно, что такой вариант - не самый оптимальный, т.к. возможно отброшенный вариант будет отлично работать в сочетании с к/л другим фактором. Но перебрать все сочетания хотя сейчас технически и возможно, но доверия к такой модели всё равно не будет: уж больно силён дисбаланс между числом показателей и объёмом выборки.

Вопрос 1. Можно рекомендовать осваивать многомерные методы. Хотя надёжность решения для матрицы 33 показателя х 70 человек тоже невелика, но анализ типа главных компонент (нелинейных главных компонент в случае ненормальных, порядковых, качественных и даже дихотомических показателей в наборе) позволят разобраться в структуре показателей и числе тех процессов, которые они описывают. Скорее всего все эти 33 показателя описывают изменчивость всего 2-5 процессов, комбинации которых и порождают всё видимое многообразие данных. Можно попытаться "воссатновить" и опознать эти процессы. Далее можно сильно прорядить 33 показателя откинув те, что дают малые нагрузки на факторы. Или даже выбрать из кажого паттерна по 2 самых "сильных" и независимых показателя и взять в окончательную модель (например логистическую) уже не 33, а 4-10 показателей.

PS Есть многомерные методы, заточенные на анализ именно таких "плоских" матриц как ваша, которые обходят проблему слабой детерминированности. Несколько лет назад я ставил какой-то специальный пакет для R и пробовал работать с ним. Результаты не особо оправдали ожидания. К сожалению названия пакета и своих записей быстро не нашёл.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.11.2012 - 10:49
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 26.11.2012 - 16:05) *
PS Есть многомерные методы, заточенные на анализ именно таких "плоских" матриц как ваша, которые обходят проблему слабой детерминированности. Несколько лет назад я ставил какой-то специальный пакет для R и пробовал работать с ним. Результаты не особо оправдали ожидания. К сожалению названия пакета и своих записей быстро не нашёл.


Есть несколько пакетов которые выбирают оптимальный набор предикторов. Например значимый набор предикторов позволяет выявить Boruta. Есть методы которые сразу фитят решение по ROC.

Пропущенные значения в модели... ну раз все на компьютере и так и так считаться должно, то можно просто фитить модель под набор имеющийся у врача адхок. Возникла потребность сразу и зафитил модель, проверил автоматически ее эффективность и подставил данные пациента. Второй вариант --- подставить вместо пропущенных параметров оптимальной модели набор наиболее вероятных параметров (тут в идеале надо семплер писать марковский для эффективности) и получить вместо точечной оценки интервал (или распределение оценки) и уже его сравнивать с граничным значением.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему