Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Генотип, ко-факторы, исход, как анализировать?
don
сообщение 15.06.2014 - 14:09
Сообщение #1





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Здравствуйте, коллеги! Прошу помощи в анализе данных.
Задача исследования - оценить связь между генотипом (15 SNP), "промежуточным фенотипом" (параметры биохимии, иммунологии и др.), исходом (ЗНО есть/нет).
Существующий сервис "SNPstats" (http://bioinfo.iconcologia.net/SNPstats_web) выдает отношения шансов, "adjustet by фактор1+фактор2+...", используется при этом "logistic regression models" (то есть, логит-регрессию?). Хотелось бы поточнее узнать, что значит "adjusted by".
Кроме того, в данной програме остается "за кадром", какой из факторов является ведущим.
Возможно, есть какие то альтернативные методы анализа, позволяющие оценить вклад конкретных факторов?
Посоветуйте, пожалуйста. Заранее благодарен.

И есть ещё один вопрос:
По разным SNP имеется разное количество генотипированных, как и разное количество известных значений по каждому из "промежуточных фенотипов" и исходов.
То есть, грубо говоря, выборки по каждому из SNP перекрываются только отчасти. Нужно ли в этом случае рассматривать проблему множественных сравнений?
Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
anserovtv
сообщение 28.09.2014 - 19:44
Сообщение #2





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Коды, генерируемые программой, можно преобразовать в коды R или SAS и в другие форматы.

Сообщение отредактировал anserovtv - 28.09.2014 - 21:05
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 29.09.2014 - 14:00
Сообщение #3





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



anserovtv
Большое Вам спасибо за первую ссылочку (до второй пока не добрался, рабочая сеть не позволяет)! Наглядно и доступно представлен алгоритм "классического" random forests.
Однако, автор верно заметил, что классический вариант RF "не переваривает" анализ смешанных количественных и категориальных данных, в этом случае необходим cforest.
Коллеги, если кто-то натыкался на пример использования cforest, будьте добры, поделитесь!

Сообщение отредактировал don - 29.09.2014 - 14:02
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 29.09.2014 - 15:07
Сообщение #4





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(don @ 29.09.2014 - 14:00) *
anserovtv
Большое Вам спасибо за первую ссылочку (до второй пока не добрался, рабочая сеть не позволяет)! Наглядно и доступно представлен алгоритм "классического" random forests.
Однако, автор верно заметил, что классический вариант RF "не переваривает" анализ смешанных количественных и категориальных данных, в этом случае необходим cforest.
Коллеги, если кто-то натыкался на пример использования cforest, будьте добры, поделитесь!


C кодом cforest ответил Вам в личку.
Не совсем понятно, зачем Вам рассматривать каждое дерево по отдельности и что-то интерпретировать, ведь каждое дерево имеет свою индивидуальную структуру и свой прогноз, а конечный результат сводится к голосованию за результат, который дает большинство деревьев. Можно вывести структуру каждого из 100 (как в Вашем случае) деревьев, но потом все это интерпретировать будет заданием очень непростым и вряд ли полезным.

После того, как cforest выдает Вам наиболее значимые предикторы на уровне СНИПов, Вам интересно ведь посмотреть какой генотип ассоциируется с риском развития заболевания или имеет наоборот протективный эффект. Для этого очень удобно использовать комбинацию методов: случайный лес, MDR, логистическая регрессия. Случайный лес - в качестве фильтра наиболее важных СНИПов, MDR - оценка взаимодействия СНИПов и оценка каждого из генотипов, а также их комбинаций, нахождения типа связи между СНИПами. Лог. регрессия - финальный этап, создание модели, которая включает лишь факторы, которые определились как важные из первых двух методов, валидация результатов.

P.S. В Вашей базе - что прогнозируется? nat или cr? Если cr - получается, что исследуете очень редкое заболевание?

Сообщение отредактировал TheThing - 29.09.2014 - 15:12
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 29.09.2014 - 21:09
Сообщение #5





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(TheThing @ 29.09.2014 - 18:07) *
P.S. В Вашей базе - что прогнозируется? nat или cr? Если cr - получается, что исследуете очень редкое заболевание?

Прогнозируется cr (некое заболевание).
Это урезанная база, здесь cr 24 из 165, в оригинальной базе 55 из 439. Но в оригинальной базе 45 предикторов, включая 13 снипов, и громадное количество пропусков в некоторых из них (более 50%). Поэтому пришлось несколько сузить масштабы анализа, убрав часть предикторов. Возможно, это неверно. Поправьте меня, если я не прав.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 29.09.2014 - 21:41
Сообщение #6





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(don @ 29.09.2014 - 21:09) *
Прогнозируется cr (некое заболевание).
Это урезанная база, здесь cr 24 из 165, в оригинальной базе 55 из 439. Но в оригинальной базе 45 предикторов, включая 13 снипов, и громадное количество пропусков в некоторых из них (более 50%). Поэтому пришлось несколько сузить масштабы анализа, убрав часть предикторов. Возможно, это неверно. Поправьте меня, если я не прав.


Мне сложно Вас поправить, поскольку я практически не знаю дизайна исследования, целей, задач и т.д. - если Вы решили урезать массив, значит на то были причины.

Посмотрел немного Вашу базу, прикольная smile.gif (в том смысле, что собрано столько материала!!). Однако, например, первые три СНИПа IL1b_rs1143634, IL2_rs2069762, IL4_rs2070874, а точнее распределение их генотипов в группах больных и здоровых (cr) не позволяет их нормально анализировать, поскольку наблюдается или perfect separation (то есть классы больных и здоровых идеально расходятся и большинство алгоритмов сходит с ума поэтому) или алгоритм просто не сходится (did not converge), поскольку присутствуют не все комбинации генотипов в базе данных (может быть потому что Вы ее сократили) - это беда всех параметрических методов, в том числе и логит-регрессии(curse of dimensionality).

Что-то нужно думать с базой..
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- don   Генотип, ко-факторы, исход   15.06.2014 - 14:09
- - TheThing   1) Что означает adjusted..Вы включаете в модель од...   15.06.2014 - 15:15
- - p2004r   Если данных достаточное количество, то стоило бы п...   16.06.2014 - 00:05
- - don   Благодарю, коллеги, за ответы. Буду разбираться...   17.06.2014 - 09:09
- - don   Добрый день, коллеги! Изучение вопроса привело...   25.09.2014 - 09:47
|- - p2004r   Цитата(don @ 25.09.2014 - 09:47) Про...   23.10.2014 - 22:36
|- - don   Цитата(p2004r @ 24.10.2014 - 01:36) ...   28.10.2014 - 10:06
|- - p2004r   Цитата(don @ 28.10.2014 - 10:06) Бла...   28.10.2014 - 18:13
- - anserovtv   Попробуйте прочитать о важности переменных здесь ...   28.09.2014 - 19:41
- - anserovtv   Коды, генерируемые программой, можно преобразовать...   28.09.2014 - 19:44
|- - don   anserovtv Большое Вам спасибо за первую ссылочку (...   29.09.2014 - 14:00
|- - TheThing   Цитата(don @ 29.09.2014 - 14:00) ans...   29.09.2014 - 15:07
|- - don   Цитата(TheThing @ 29.09.2014 - 18:07...   29.09.2014 - 21:09
||- - TheThing   Цитата(don @ 29.09.2014 - 21:09) Про...   29.09.2014 - 21:41
||- - don   Цитата(TheThing @ 30.09.2014 - 00:41...   30.09.2014 - 06:55
||- - TheThing   Цитата(don @ 30.09.2014 - 06:55) Пре...   30.09.2014 - 08:54
||- - don   Цитата(TheThing @ 30.09.2014 - 11:54...   30.09.2014 - 10:34
||- - TheThing   Цитата(don @ 30.09.2014 - 10:34) А е...   30.09.2014 - 14:07
||- - don   Цитата(TheThing @ 30.09.2014 - 17:07...   28.10.2014 - 12:33
|- - don   Доброго времени суток! Возникло ещё несколько ...   28.10.2014 - 09:54
- - p2004r   Вот тут приатачен файл с примером анализа пакетом ...   28.10.2014 - 18:20


Добавить ответ в эту темуОткрыть тему