Генотип, ко-факторы, исход, как анализировать? |
Здравствуйте, гость ( Вход | Регистрация )
Генотип, ко-факторы, исход, как анализировать? |
23.10.2014 - 22:36
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Прошу помощи у бывалых: 1) Каким должен быть код для вычисления кондиционной важности переменных при наличии пропусков данных? В приложении к [Hapfelmeier, 2013] есть код, но там другие задачи исследования и я не могу разобрать что к чему. 2) Как нарисовать индивидуальные деревья в cforest и правильно интерпретировать их? Может быть, кто - то соизволит поковыряться с моими данными, на этот случай прилагаю таблицу. Также прилагается Hapfelmeier, 2013 1) Воспользоваться любым методом импутации данных А для отбора значимых предикторов можно использовать library(Boruta), на этом форуме уже есть пример её использования. Метод ищет значимые, а не просто имеющие большое значение с точки зрения рандомфореста предикторы. |
|
28.10.2014 - 09:54
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Доброго времени суток!
Возникло ещё несколько вопросов. ...удобно использовать комбинацию методов: случайный лес, MDR, логистическая регрессия. Случайный лес - в качестве фильтра наиболее важных СНИПов, MDR - оценка взаимодействия СНИПов и оценка каждого из генотипов, а также их комбинаций, нахождения типа связи между СНИПами... 1) Скажите, если исключить из этого перечня случайный лес, что мы потеряем? Ведь МДР тоже может выделить "важные" снипы? 2) Как Вы считаете, не будет ли ошибкой (с точки зрения множественных сравнений), если пытаться с помощью MDRa оценить связи SNP с каждым из анализируемых параметров, чтобы в итоге сказать "с цветом глаз ассоциированы вот эти снипы, с цветом волос - вот эти, а с длиной ресниц - ничего" ? |
|
28.10.2014 - 10:06
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
1) Воспользоваться любым методом импутации данных Благодарю за ответ! Объясню ситуацию: 1) Доступное количество наблюдений по снипам и статусу case/control = 430 2) Доступное количество наблюдений по параметрам х1, х2, х3 = 250, 200, 180 То есть, если использовать методы импутации, получится что половина (в лучшем случае) данных окажется импутированной. Позвольте вопрос: правомерно ли брать в анализ переменную, в которой половина данных импутирована? |
|
28.10.2014 - 12:33
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Вот что получилось по урезанной базе по всем снипам при прмощи метода MDR: ... В литературе по MDR речь идет ещё о вычислении permutation accuracy [Ritchie, Motsinger, 2005], однако я что то не вижу в программе (MDR v. 3.0.2) ничего похожего... Не знаете, куда оно делось? Сообщение отредактировал don - 28.10.2014 - 13:24 |
|
28.10.2014 - 18:13
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Благодарю за ответ! Объясню ситуацию: 1) Доступное количество наблюдений по снипам и статусу case/control = 430 2) Доступное количество наблюдений по параметрам х1, х2, х3 = 250, 200, 180 То есть, если использовать методы импутации, получится что половина (в лучшем случае) данных окажется импутированной. Позвольте вопрос: правомерно ли брать в анализ переменную, в которой половина данных импутирована? 1) Ну вообщето импутация и делается так, "что бы ни один волосок не шевелнулся" То есть некое многомерное распределение которое представляет из себя данная выборка (или модель данных на основе этого распределения) не поменяло своих параметров после добавления пропущенных случаев. Таким образом работа фактически после импутации ведется с исходным распределением. Другое дело, если хочется определить насколько "неопределенность" вноситься в некие вычисляемые параметры. Ну или хочется получить для каждого "импутируемого" значения процентили разпределения. 2) Если модель допускает некоторые инварианты импутации данных и если Вы делаете импутацию множество раз, то вместо одной выборки получается набор выборок в котором представлено распределение (по которому можно вычислить распределение) интересующей статистики в зависимости от а) имеющихся данных и б) неопределенности предположения о значении отстутствующих данных. Этакий "импутационный бутстреп" От метода импутации данных с "детерменированным" поведением такого "каждый раз разного" поведения можно добится проведя "складной нож" (или опять же бутстреп) по полным случаям, поскольку их всегда можно подставить потом "на место". |
|
28.10.2014 - 18:20
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Вот тут приатачен файл с примером анализа пакетом Boruta
http://forum.disser.ru/index.php?showtopic...amp;#entry16317 |
|