Генотип, ко-факторы, исход - Форум врачей-аспирантов

Генотип, ко-факторы, исход, как анализировать?

don Просмотр профиля	15.06.2014 - 14:09 Сообщение #1
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	Здравствуйте, коллеги! Прошу помощи в анализе данных. Задача исследования - оценить связь между генотипом (15 SNP), "промежуточным фенотипом" (параметры биохимии, иммунологии и др.), исходом (ЗНО есть/нет). Существующий сервис "SNPstats" (http://bioinfo.iconcologia.net/SNPstats_web) выдает отношения шансов, "adjustet by фактор1+фактор2+...", используется при этом "logistic regression models" (то есть, логит-регрессию?). Хотелось бы поточнее узнать, что значит "adjusted by". Кроме того, в данной програме остается "за кадром", какой из факторов является ведущим. Возможно, есть какие то альтернативные методы анализа, позволяющие оценить вклад конкретных факторов? Посоветуйте, пожалуйста. Заранее благодарен. И есть ещё один вопрос: По разным SNP имеется разное количество генотипированных, как и разное количество известных значений по каждому из "промежуточных фенотипов" и исходов. То есть, грубо говоря, выборки по каждому из SNP перекрываются только отчасти. Нужно ли в этом случае рассматривать проблему множественных сравнений? Спасибо!

Ответов

anserovtv Просмотр профиля	28.09.2014 - 19:44 Сообщение #2
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927	Коды, генерируемые программой, можно преобразовать в коды R или SAS и в другие форматы. Сообщение отредактировал anserovtv - 28.09.2014 - 21:05

don Просмотр профиля	29.09.2014 - 14:00 Сообщение #3
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	anserovtv Большое Вам спасибо за первую ссылочку (до второй пока не добрался, рабочая сеть не позволяет)! Наглядно и доступно представлен алгоритм "классического" random forests. Однако, автор верно заметил, что классический вариант RF "не переваривает" анализ смешанных количественных и категориальных данных, в этом случае необходим cforest. Коллеги, если кто-то натыкался на пример использования cforest, будьте добры, поделитесь! Сообщение отредактировал don - 29.09.2014 - 14:02

TheThing Просмотр профиля	29.09.2014 - 15:07 Сообщение #4
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251	Цитата(don @ 29.09.2014 - 14:00) anserovtv Большое Вам спасибо за первую ссылочку (до второй пока не добрался, рабочая сеть не позволяет)! Наглядно и доступно представлен алгоритм "классического" random forests. Однако, автор верно заметил, что классический вариант RF "не переваривает" анализ смешанных количественных и категориальных данных, в этом случае необходим cforest. Коллеги, если кто-то натыкался на пример использования cforest, будьте добры, поделитесь! C кодом cforest ответил Вам в личку. Не совсем понятно, зачем Вам рассматривать каждое дерево по отдельности и что-то интерпретировать, ведь каждое дерево имеет свою индивидуальную структуру и свой прогноз, а конечный результат сводится к голосованию за результат, который дает большинство деревьев. Можно вывести структуру каждого из 100 (как в Вашем случае) деревьев, но потом все это интерпретировать будет заданием очень непростым и вряд ли полезным. После того, как cforest выдает Вам наиболее значимые предикторы на уровне СНИПов, Вам интересно ведь посмотреть какой генотип ассоциируется с риском развития заболевания или имеет наоборот протективный эффект. Для этого очень удобно использовать комбинацию методов: случайный лес, MDR, логистическая регрессия. Случайный лес - в качестве фильтра наиболее важных СНИПов, MDR - оценка взаимодействия СНИПов и оценка каждого из генотипов, а также их комбинаций, нахождения типа связи между СНИПами. Лог. регрессия - финальный этап, создание модели, которая включает лишь факторы, которые определились как важные из первых двух методов, валидация результатов. P.S. В Вашей базе - что прогнозируется? nat или cr? Если cr - получается, что исследуете очень редкое заболевание? Сообщение отредактировал TheThing - 29.09.2014 - 15:12

don Просмотр профиля	28.10.2014 - 09:54 Сообщение #5
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460	Доброго времени суток! Возникло ещё несколько вопросов. Цитата(TheThing @ 29.09.2014 - 18:07) ...удобно использовать комбинацию методов: случайный лес, MDR, логистическая регрессия. Случайный лес - в качестве фильтра наиболее важных СНИПов, MDR - оценка взаимодействия СНИПов и оценка каждого из генотипов, а также их комбинаций, нахождения типа связи между СНИПами... 1) Скажите, если исключить из этого перечня случайный лес, что мы потеряем? Ведь МДР тоже может выделить "важные" снипы? 2) Как Вы считаете, не будет ли ошибкой (с точки зрения множественных сравнений), если пытаться с помощью MDRa оценить связи SNP с каждым из анализируемых параметров, чтобы в итоге сказать "с цветом глаз ассоциированы вот эти снипы, с цветом волос - вот эти, а с длиной ресниц - ничего" ?

Сообщений в этой теме

don Генотип, ко-факторы, исход 15.06.2014 - 14:09

TheThing 1) Что означает adjusted..Вы включаете в модель од... 15.06.2014 - 15:15

p2004r Если данных достаточное количество, то стоило бы п... 16.06.2014 - 00:05

don Благодарю, коллеги, за ответы. Буду разбираться... 17.06.2014 - 09:09

don Добрый день, коллеги! Изучение вопроса привело... 25.09.2014 - 09:47

p2004r Цитата(don @ 25.09.2014 - 09:47) Про... 23.10.2014 - 22:36

don Цитата(p2004r @ 24.10.2014 - 01:36) ... 28.10.2014 - 10:06

p2004r Цитата(don @ 28.10.2014 - 10:06) Бла... 28.10.2014 - 18:13

anserovtv Попробуйте прочитать о важности переменных здесь ... 28.09.2014 - 19:41

anserovtv Коды, генерируемые программой, можно преобразовать... 28.09.2014 - 19:44

don anserovtv Большое Вам спасибо за первую ссылочку (... 29.09.2014 - 14:00

TheThing Цитата(don @ 29.09.2014 - 14:00) ans... 29.09.2014 - 15:07

don Цитата(TheThing @ 29.09.2014 - 18:07... 29.09.2014 - 21:09

TheThing Цитата(don @ 29.09.2014 - 21:09) Про... 29.09.2014 - 21:41

don Цитата(TheThing @ 30.09.2014 - 00:41... 30.09.2014 - 06:55

TheThing Цитата(don @ 30.09.2014 - 06:55) Пре... 30.09.2014 - 08:54

don Цитата(TheThing @ 30.09.2014 - 11:54... 30.09.2014 - 10:34

TheThing Цитата(don @ 30.09.2014 - 10:34) А е... 30.09.2014 - 14:07

don Цитата(TheThing @ 30.09.2014 - 17:07... 28.10.2014 - 12:33

don Доброго времени суток! Возникло ещё несколько ... 28.10.2014 - 09:54

p2004r Вот тут приатачен файл с примером анализа пакетом ... 28.10.2014 - 18:20

« Предыдущая тема · Медицинская статистика · Следующая тема »