Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип, (Инфаркт миокарда и атеросклероз)

Alianna Просмотр профиля	18.02.2015 - 15:08 Сообщение #1
Группа: Пользователи Сообщений: 4 Регистрация: 18.02.2015 Пользователь №: 27040	Здравствуйте! Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных?

Ответов

nokh Просмотр профиля	22.02.2015 - 13:44 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Всяк сверчок знай свой шесток! А то огребёшь! Ну, вот по голове мы ребёнка настучали, а конфетку не дали - типа: "вон магазин - сама купишь!" Думаю, Aliann'у нужно сперва всё-таки похвалить за грамотно сформулированный вопрос, который замаскировал юный возраст исследователя; на этом форуме нередко аспиранты формулируют вопросы хуже... Во вторых, нужно кое-что объяснить с учётом появившейся новой информации . 1). В настоящее время основных языков науки два: математический и английский. Возможно, через 30-50 лет это будет программный язык и русский, или китайский, или испанский... А через 300-500 - язык мыслеобразов. Но пока - то что имеем. Поэтому когда речь заходит о статьях, которые нужно штудировать имеются в виду именно англоязычные статьи и ресурсы. Если повезёт - могут попасться хорошие статьи на русском и даже почти не устаревшие обзоры. Но, во-первых, "если повезёт" - не научно (хотя и бывает), а во-вторых шансы на это тем меньше, чем более перспективно и динамично развивается научное направление. Поэтому не следует обижаться: просто вы искали под фонарём, а не там, где это лежит. Достаточно набить в гугле что-нибудь типа "genotype-phenotype analysis software" и можно уже на первых 3 страницах найти то, чего по-русски просто не написано. 2). Любой статистический метод - это определённый инструмент, созданный для работы с определённым материалом (типом данных) и с определённой целью. Поэтому часто некорректно говорить о хороших или плохих статистических пакетах. Всё относительно: смотря для чего. Например, вам нужно сшить платье (определить влияние генотипа на фенотип), а отец вместо швейной машинки гордо приносит вам набор инструментов для ремонта автомобиля (пакет Statistica). На ваши сомнения он обижается и говорит, что это дорогой и, возможно, лучший набор, и все мужики в соседних гаражах (окрестных НИИ) пользуются такими же, а то и хуже. Что остаётся: или искать машинку (нужный метод и пакет), или пытаться приспособить то, что дали: кроить ножницами по металлу, прокалывать шилом дырочки и скреплять проволокой или болтиками с гайками. Получится у вас платье? Очевидно, что нет. Но получится что-то похожее на платье, по крайней мере - издалека. Если повезёт - может даже фигуру смоделирует . А для папуасов-ровесников - так и вообще фантастика. Заканчивая аналогию - то же и с неспециализированным пакетом: что-то получится, возможно даже в чём-то вполне логично получится. Но это будет непрофессионально, а то и вообще кустарно. 3). Ваша задача осложняется тем, что методов и пакетов для поиска зависимости фенотипа от генотипа очень много и, насколько мне известно, явных общепризнанных лидеров нет: каждый автор/разработчик нахваливает своё. Когда передо мной стояла сходная задача я покопался в этом многообразии, затем махнул рукой и использовал инструменты из своего проверенного временем универсального набора методов. Получилось не особо профессионально, но и не кустарно: носить можно! В следующий раз понадобится - опять отмониторю пакеты и методы гуглом, и если лидеров опять не будет - освою что-нибудь из универсального набора р2004r, какую-нибудь "боруту" . В Statistica мой способ - анализ избыточности (Redundancy analysis) с фиктивными (dummy) независимыми переменными и рангами зависимых переменных - не реализовать. Наиболее близкое что там есть - метод PLS (Partial Least Squares или Projection to Latent Structure). Это своего рода гибрид анализа главных компонент (PCA) и множественного регрессионного анализа. От регрессии в нём то, что один набор данных - независимый (х), а второй - зависимый (y). А от PCA - что для регрессии используются не сами значения наборов х и у, а производные от них обобщающающие переменные (таким образом данные очищаются от случайного шума и анализируются во всём комплексе). Поскольку гены действуют на признаки не изолировано, а взаимодействуя, в комплексе и признаки развиваются не изолировано, а в комплексе - для поиска влияния нужен именно подобный сложный, комплексный, многомерный метод. Я методом PLS не пользовался, специалистов можно искать в среде химиков. Но даже если вы таковых найдёте в НИИ или на форумах, вам, как начинающему исследователю пользы от этого не будет - не потянете. Не по скудоумию, а просто пока тяжело будет - нет ни теоретической базы, ни опыта. Появится база - легче пойдёт, но нужно время. 4). В вашем случае реально сделать только более примитивный анализ: один ген - один признак. Для этого генотипы закодировать как 1, 2, 3 ... (например, AA - 1, Аа - 2, аа - 3) и сравнить их по уровню биохимического признака. Например, однофакторным дисперсионным анализом или методом Краскела - Уоллиса. Можно усложнить: учесть дополнительно приём препарата (закодировать как 1 и 2) и сделать двухфакторный дисперсионный анализ. Также рассчитать средние значения признака для каждого генотипа. Не факт, что что-то обнаружите - можно не обнаружить даже самыми крутыми из профессиональных методов. Не факт, что обнаруженное обязательно будет реальным - когда проводят много сравнений увеличивается шанс обнаружить то, чего нет. Но зато польза будет несомненно: познакомитесь: (1) с типичным статистическим пакетом, (2) с методами сравнения трёх и более групп, (3) с показателями описательной статистики. Это будет уже незаменимый личный опыт, под него проще подводить теоретическую базу. Успехов! Сообщение отредактировал nokh - 22.02.2015 - 15:35

Сообщений в этой теме

Alianna Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип 18.02.2015 - 15:08

p2004r Цитата(Alianna @ 18.02.2015 - 15:08)... 18.02.2015 - 15:42

nokh Цитата(Alianna @ 18.02.2015 - 17:08)... 18.02.2015 - 19:28

Alianna Цитата(nokh @ 18.02.2015 - 22:28) У ... 19.02.2015 - 07:29

anserovtv Скорее всего, Вам нужно использовать специализиров... 19.02.2015 - 08:22

p2004r Цитата(Alianna @ 19.02.2015 - 07:39)... 19.02.2015 - 12:27

nokh Всяк сверчок знай свой шесток! А то огребёшь... 22.02.2015 - 13:44

p2004r Да, PLS хорошо подходит. Реализация http://cran.r-... 22.02.2015 - 20:57

DoctorStat Цитата(Alianna @ 18.02.2015 - 15:08)... 22.02.2015 - 16:17

nokh Цитата(DoctorStat @ 22.02.2015 - 18... 22.02.2015 - 18:21

DoctorStat Цитата(nokh @ 22.02.2015 - 18:21) и ... 22.02.2015 - 21:07

anserovtv Обнаружил в интернете работу, очень близкую по тем... 22.02.2015 - 22:27

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум