Форум врачей-аспирантов > Логистическая регрессия или другое? Выбор оптимального метода

Camel1000

3.06.2013 - 17:56

Всем доброго времени суток!

Не помогут ли уважаемые джинны

в определении направления действий в такой ситуации?

Имеется два значения для экспрессии некоего гена - 0 и 1 (низкая и высокая). В выборке из 70 больных для каждого из них известна экспрессия и некоторый набор клинических показателей, часть - ординальные, часть -номинальные, часть - непрерывные (все виды). Хочется узнать, есть ли связь между уровнем экспрессии гена и любым набором этих показателей? То есть есть ли связь между экспрессией и каждым параметром по отдельности? Или между экспрессией и совокупностью одного-двух-трех-... показателей? Как это лучше сделать и как вычленить такие наборы? Логистическая регрессия? Кластерный анализ? Тест для тренда Кохрана-Армитажа или разновидность хи-квадрата для трендов? В каком направлении копать?

Заранее спасибо!

nokh

3.06.2013 - 23:00

Цитата(Camel1000 @ 3.06.2013 - 20:56)

Всем доброго времени суток!

Не помогут ли уважаемые джинны

в определении направления действий в такой ситуации?

Имеется два значения для экспрессии некоего гена - 0 и 1 (низкая и высокая). В выборке из 70 больных для каждого из них известна экспрессия и некоторый набор клинических показателей, часть - ординальные, часть -номинальные, часть - непрерывные (все виды). Хочется узнать, есть ли связь между уровнем экспрессии гена и любым набором этих показателей? То есть есть ли связь между экспрессией и каждым параметром по отдельности? Или между экспрессией и совокупностью одного-двух-трех-... показателей? Как это лучше сделать и как вычленить такие наборы? Логистическая регрессия? Кластерный анализ? Тест для тренда Кохрана-Армитажа или разновидность хи-квадрата для трендов? В каком направлении копать?

Заранее спасибо!

Раз нужно найти ниточки за которые распутывать клубок связей показателей и искать паттерны в большом наборе данных, то копать нужно в направлении Разведочного анализа данных (Exploratory data analysis, EDA). Здесь много техник, которые так или иначе помогут нащупать нужные совокупности показателей, которые потом можно подтвердить более традиционными техниками, скажем логистической регрессией. Если работать последней сразу - скорее всего ничего не получится, т.к. выборка для этой техники недостаточно большая. Мне нравится техника нелинейных главных компонет CATPCA из пакета SPSS (я писал про неё на этом форуме и здесь: http://www.livejournal.com/search/?journal...s&q=CATPCA). В R эта техника есть в пакете homals, по которому есть статья (http://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&ved=0CD4QFjAC&url=http%3A%2F%2Fcran.r-project.org%2Fweb%2Fpackages%2Fhomals%2Fvignettes%2Fhomals.pdf&ei=QfGsUfeAKISw4QS9wIDAAg&usg=AFQjCNE6GCkasV85w7SauitXkTXw4X69dg&sig2=Q8oDVmPP0OOc1hL4bVGrFQ&bvm=bv.47244034,d.bGE&cad=rjt), но нет внятной помощи по опциям. Можно попробовать анализ главных координат (PCoA), используя в качестве показателя связи между переменными корреляцию Спирмена "ро". Этот метод удобно сделан в бесплатном пакете PAST (http://folk.uio.no/ohammer/past/). Я не люблю кластерный анализ за примитивность, но на худой конец можно и им посмотреть с какими показателями в одной ветке окажется экспрессия. Это можно сделать в том же пасте; практика показывает, что лучше не использовать универсальнную меру Говера (Gower), лучше - корреляцию Rho Спирмена.

anserovtv

4.06.2013 - 09:13

Если бы данных было чуть больше ,до 100. то я бы попробовал создать регрессионную модель в IBM SPSS Amos.
Кроме значимых связей между независимыми переменными и зависимой в модели оцениваются и взаимодействия между независимыми переменными.

Но сначала бы я попробовал логистическую регрессию ,возможно по категориям, если хватит данных.

p2004r

5.06.2013 - 20:37

Цитата(Camel1000 @ 3.06.2013 - 17:56)

Всем доброго времени суток!

Не помогут ли уважаемые джинны

в определении направления действий в такой ситуации?

Имеется два значения для экспрессии некоего гена - 0 и 1 (низкая и высокая). В выборке из 70 больных для каждого из них известна экспрессия и некоторый набор клинических показателей, часть - ординальные, часть -номинальные, часть - непрерывные (все виды). Хочется узнать, есть ли связь между уровнем экспрессии гена и любым набором этих показателей? То есть есть ли связь между экспрессией и каждым параметром по отдельности? Или между экспрессией и совокупностью одного-двух-трех-... показателей? Как это лучше сделать и как вычленить такие наборы? Логистическая регрессия? Кластерный анализ? Тест для тренда Кохрана-Армитажа или разновидность хи-квадрата для трендов? В каком направлении копать?

Заранее спасибо!

попытаться построить рандом форест который разделяет эти 0 и 1. и посмотреть вклад показателей. есть несколько методов поверх рандом форест которые могут оптимизировать набор показателей в направлении наилучшего разделения 0 и 1. например Boruta в R и еще один пакет по ROC смотрит оптимальные показатели того же рандом фореста.

Camel1000

6.06.2013 - 14:10

Всем спасибо за помощь, этого мне хватит разбираться на месяц

попробую покопать. Еще раз спасибо!

Енот

29.09.2013 - 21:18

Коллеги! Если есть возможность, поделитесь, пожалуйста, статьями или ссылками на статьи в отечественных научных изданиях, в которых применялся метод регрессионного анализа. Они необходимы в качестве примера для написания собственной публикации с аналогичным видом анализа.