Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Генотип, ко-факторы, исход, как анализировать?
p2004r
сообщение 23.10.2014 - 22:36
Сообщение #16





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(don @ 25.09.2014 - 09:47) *
Прошу помощи у бывалых:
1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему.
2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их?

Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу.
Также прилагается Hapfelmeier, 2013


1) Воспользоваться любым методом импутации данных

А для отбора значимых предикторов можно использовать library(Boruta), на этом форуме уже есть пример её использования. Метод ищет значимые, а не просто имеющие большое значение с точки зрения рандомфореста предикторы.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 28.10.2014 - 09:54
Сообщение #17





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Доброго времени суток!
Возникло ещё несколько вопросов.
Цитата(TheThing @ 29.09.2014 - 18:07) *
...удобно использовать комбинацию методов: случайный лес, MDR, логистическая регрессия. Случайный лес - в качестве фильтра наиболее важных СНИПов, MDR - оценка взаимодействия СНИПов и оценка каждого из генотипов, а также их комбинаций, нахождения типа связи между СНИПами...


1) Скажите, если исключить из этого перечня случайный лес, что мы потеряем? Ведь МДР тоже может выделить "важные" снипы?

2) Как Вы считаете, не будет ли ошибкой (с точки зрения множественных сравнений), если пытаться с помощью MDRa оценить связи SNP с каждым из анализируемых параметров, чтобы в итоге сказать "с цветом глаз ассоциированы вот эти снипы, с цветом волос - вот эти, а с длиной ресниц - ничего" ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 28.10.2014 - 10:06
Сообщение #18





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(p2004r @ 24.10.2014 - 01:36) *
1) Воспользоваться любым методом импутации данных

Благодарю за ответ!
Объясню ситуацию:
1) Доступное количество наблюдений по снипам и статусу case/control = 430
2) Доступное количество наблюдений по параметрам х1, х2, х3 = 250, 200, 180
То есть, если использовать методы импутации, получится что половина (в лучшем случае) данных окажется импутированной.
Позвольте вопрос: правомерно ли брать в анализ переменную, в которой половина данных импутирована?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 28.10.2014 - 12:33
Сообщение #19





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(TheThing @ 30.09.2014 - 17:07) *
Вот что получилось по урезанной базе по всем снипам при прмощи метода MDR:
...


В литературе по MDR речь идет ещё о вычислении permutation accuracy [Ritchie, Motsinger, 2005], однако я что то не вижу в программе (MDR v. 3.0.2) ничего похожего... Не знаете, куда оно делось? smile.gif

Сообщение отредактировал don - 28.10.2014 - 13:24
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.10.2014 - 18:13
Сообщение #20





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(don @ 28.10.2014 - 10:06) *
Благодарю за ответ!
Объясню ситуацию:
1) Доступное количество наблюдений по снипам и статусу case/control = 430
2) Доступное количество наблюдений по параметрам х1, х2, х3 = 250, 200, 180
То есть, если использовать методы импутации, получится что половина (в лучшем случае) данных окажется импутированной.
Позвольте вопрос: правомерно ли брать в анализ переменную, в которой половина данных импутирована?


1) Ну вообщето импутация и делается так, "что бы ни один волосок не шевелнулся" smile.gif
То есть некое многомерное распределение которое представляет из себя данная выборка (или модель данных на основе этого распределения) не поменяло своих параметров после добавления пропущенных случаев. Таким образом работа фактически после импутации ведется с исходным распределением.

Другое дело, если хочется определить насколько "неопределенность" вноситься в некие вычисляемые параметры. Ну или хочется получить для каждого "импутируемого" значения процентили разпределения.

2) Если модель допускает некоторые инварианты импутации данных и если Вы делаете импутацию множество раз, то вместо одной выборки получается набор выборок в котором представлено распределение (по которому можно вычислить распределение) интересующей статистики в зависимости от а) имеющихся данных и б) неопределенности предположения о значении отстутствующих данных. Этакий "импутационный бутстреп" smile.gif

От метода импутации данных с "детерменированным" поведением такого "каждый раз разного" поведения можно добится проведя "складной нож" (или опять же бутстреп) по полным случаям, поскольку их всегда можно подставить потом "на место".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.10.2014 - 18:20
Сообщение #21





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Вот тут приатачен файл с примером анализа пакетом Boruta

http://forum.disser.ru/index.php?showtopic...amp;#entry16317


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему