Здравствуйте, гость ( Вход | Регистрация )
18.02.2015 - 15:08
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 18.02.2015 Пользователь №: 27040 |
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? |
|
|
![]() |
![]() |
![]() |
22.02.2015 - 13:44
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Всяк сверчок знай свой шесток! А то огребёшь! Ну, вот по голове мы ребёнка настучали, а конфетку не дали - типа: "вон магазин - сама купишь!" Думаю, Aliann'у нужно сперва всё-таки похвалить за грамотно сформулированный вопрос, который замаскировал юный возраст исследователя; на этом форуме нередко аспиранты формулируют вопросы хуже... Во вторых, нужно кое-что объяснить с учётом появившейся новой информации
1). В настоящее время основных языков науки два: математический и английский. Возможно, через 30-50 лет это будет программный язык и русский, или китайский, или испанский... А через 300-500 - язык мыслеобразов. Но пока - то что имеем. Поэтому когда речь заходит о статьях, которые нужно штудировать имеются в виду именно англоязычные статьи и ресурсы. Если повезёт - могут попасться хорошие статьи на русском и даже почти не устаревшие обзоры. Но, во-первых, "если повезёт" - не научно (хотя и бывает), а во-вторых шансы на это тем меньше, чем более перспективно и динамично развивается научное направление. Поэтому не следует обижаться: просто вы искали под фонарём, а не там, где это лежит. Достаточно набить в гугле что-нибудь типа "genotype-phenotype analysis software" и можно уже на первых 3 страницах найти то, чего по-русски просто не написано. 2). Любой статистический метод - это определённый инструмент, созданный для работы с определённым материалом (типом данных) и с определённой целью. Поэтому часто некорректно говорить о хороших или плохих статистических пакетах. Всё относительно: смотря для чего. Например, вам нужно сшить платье (определить влияние генотипа на фенотип), а отец вместо швейной машинки гордо приносит вам набор инструментов для ремонта автомобиля (пакет Statistica). На ваши сомнения он обижается и говорит, что это дорогой и, возможно, лучший набор, и все мужики в соседних гаражах (окрестных НИИ) пользуются такими же, а то и хуже. Что остаётся: или искать машинку (нужный метод и пакет), или пытаться приспособить то, что дали: кроить ножницами по металлу, прокалывать шилом дырочки и скреплять проволокой или болтиками с гайками. Получится у вас платье? Очевидно, что нет. Но получится что-то похожее на платье, по крайней мере - издалека. Если повезёт - может даже фигуру смоделирует 3). Ваша задача осложняется тем, что методов и пакетов для поиска зависимости фенотипа от генотипа очень много и, насколько мне известно, явных общепризнанных лидеров нет: каждый автор/разработчик нахваливает своё. Когда передо мной стояла сходная задача я покопался в этом многообразии, затем махнул рукой и использовал инструменты из своего проверенного временем универсального набора методов. Получилось не особо профессионально, но и не кустарно: носить можно! В следующий раз понадобится - опять отмониторю пакеты и методы гуглом, и если лидеров опять не будет - освою что-нибудь из универсального набора р2004r, какую-нибудь "боруту" 4). В вашем случае реально сделать только более примитивный анализ: один ген - один признак. Для этого генотипы закодировать как 1, 2, 3 ... (например, AA - 1, Аа - 2, аа - 3) и сравнить их по уровню биохимического признака. Например, однофакторным дисперсионным анализом или методом Краскела - Уоллиса. Можно усложнить: учесть дополнительно приём препарата (закодировать как 1 и 2) и сделать двухфакторный дисперсионный анализ. Также рассчитать средние значения признака для каждого генотипа. Не факт, что что-то обнаружите - можно не обнаружить даже самыми крутыми из профессиональных методов. Не факт, что обнаруженное обязательно будет реальным - когда проводят много сравнений увеличивается шанс обнаружить то, чего нет. Но зато польза будет несомненно: познакомитесь: (1) с типичным статистическим пакетом, (2) с методами сравнения трёх и более групп, (3) с показателями описательной статистики. Это будет уже незаменимый личный опыт, под него проще подводить теоретическую базу. Успехов! Сообщение отредактировал nokh - 22.02.2015 - 15:35 |
|
|
![]() |
![]() |
Alianna Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип 18.02.2015 - 15:08
p2004r Цитата(Alianna @ 18.02.2015 - 15:08)... 18.02.2015 - 15:42
nokh Цитата(Alianna @ 18.02.2015 - 17:08)... 18.02.2015 - 19:28
Alianna Цитата(nokh @ 18.02.2015 - 22:28) У ... 19.02.2015 - 07:29
anserovtv Скорее всего, Вам нужно использовать специализиров... 19.02.2015 - 08:22
p2004r Цитата(Alianna @ 19.02.2015 - 07:39)... 19.02.2015 - 12:27
p2004r Да, PLS хорошо подходит. Реализация http://cran.r-... 22.02.2015 - 20:57
DoctorStat Цитата(Alianna @ 18.02.2015 - 15:08)... 22.02.2015 - 16:17
nokh Цитата(DoctorStat @ 22.02.2015 - 18... 22.02.2015 - 18:21
DoctorStat Цитата(nokh @ 22.02.2015 - 18:21) и ... 22.02.2015 - 21:07
anserovtv Обнаружил в интернете работу, очень близкую по тем... 22.02.2015 - 22:27![]() ![]() |