Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Statistica 10.0 - методы анализа взаимосвязей генотип/фенотип
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Alianna
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? smile.gif
p2004r
Цитата(Alianna @ 18.02.2015 - 15:08) *
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны:

- генотипы по нескольким генам (7 шт.),
- данные биохимических анализов, представленные в виде числовых переменных (29 шт.),
- и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1).

Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно)


1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"?

2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель.

Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена". На этом пути есть в принципе и возможность все гены одновременно предсказать, использовав "многометочную классификацию" (multi-label classification, она по идее должна учитывать в прогнозе взаимодействие генов-меток)... увы таких пакетов довольно мало

library(rFerns)

Код
A decision vector. Must a factor of the same length as nrow(X) for ordinary
many-label classification, or a logical matrix with each column corresponding
to a class for multi-label classification.


... например задать бинарные переменные в виде статинов и генов.

nokh
Цитата(Alianna @ 18.02.2015 - 17:08) *
... Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? smile.gif

У вас неправильный подход к решению научной проблемы. Начинать нужно не с форумов, а со штудирования статей в своей области. Если таковых мало - расширять область поиска на смежные области. Уверен, что если бы вы просмотрели/пролистали 10-15 хороших статей, у вас уже была бы пара-тройка вариантов ответов на свой вопрос. А по 50 статьям можно составить вполне чёткую картину: какие методы используются и в каких пакетах. Уверен, что среди таких пакетов нет Statistica 10. Поскольку все такие методы далеко не простые и требуют определённого опыта - далее логично просить помощи на форумах.
PS Вообще-то, это вам должен был объяснить ваш руководитель.
PSS Ну и вообще, такая работа проводится обычно до сбора материала - чтобы потом не сокрушаться об упущенных тонкостях и потраченных средствах.
Alianna
Цитата(nokh @ 18.02.2015 - 22:28) *
У вас неправильный подход к решению научной проблемы. Начинать нужно не с форумов, а со штудирования статей в своей области. Если таковых мало - расширять область поиска на смежные области. Уверен, что если бы вы просмотрели/пролистали 10-15 хороших статей, у вас уже была бы пара-тройка вариантов ответов на свой вопрос. А по 50 статьям можно составить вполне чёткую картину: какие методы используются и в каких пакетах. Уверен, что среди таких пакетов нет Statistica 10. Поскольку все такие методы далеко не простые и требуют определённого опыта - далее логично просить помощи на форумах.
PS Вообще-то, это вам должен был объяснить ваш руководитель.
PSS Ну и вообще, такая работа проводится обычно до сбора материала - чтобы потом не сокрушаться об упущенных тонкостях и потраченных средствах.


Теперь поясню по порядку.
Сначала про сбор материала. Согласна. Но я выполняю работу на уже собранном материале, который под меня адаптировать изначально никак не могли. Это клинические анализы в больнице, им моя НР сначала была до лампочки (зато теперь некоторые молодые оттуда диссеры по ней собираются защищать).
Статьи штудировались, но, видимо, не те, потому что методики я все же не нашла.
Статистику 10 использует весь институт, на базе которого выполнялась работа. Ни о чем другом там толком не слышали (или просто в один голос рекомендуют названный пакет). Многие считают всю жизнь через простейшие методы. Что еще более удивительно, ВСЕ НИИ рядом были обойдены (даже математический), и НИКТО не дал ответа на вопрос. Никто не знал, как анализировать эту базу именно для наших целей. Так что работа проделана была, и немалая. Но разве нужно описывать всю предысторию? Я надеялась, что получу здесь помощь, а не упреки в бездеятельности.

Цитата(p2004r @ 18.02.2015 - 18:42) *
1) А зачем тогда "статины"? Это предполагается "выключены" гены или "работают"?


Не совсем поняла. Между этими параметрами нет никакой причинно-следственной связи

Цитата
Это же можно проделать и в обратном направлении, по совокупности прочих признаков пытаться предсказать значение конкретного "гена".

Вот это уже неверный подход. Предсказывать гены не имеет смысла, их нужно просто прогенотипировать.

Цитата
2) Ну так берем любой биохимический параметр (или лучше их "статистический агрегат" (например на основе PCA)) и строим его прогноз (например randomForest) от "генов" + "статины". Если какой нибудь library(Boruta) (или AUCRF) включит в модель "статины" и "ген" как значимый фактор, то "ген" наверное что то постоянно делает, если не включит, то вошедший ген возможно на этапе роста что то сделал. Но это именно и есть регрессионный подход, отобрав указанным способом гарантированно значащие переменные можно построить и более традиционную регрессионную модель.

Вот примерно это мы и сделали. Но хотелось бы понять, правильно ли выбран метод линейной регрессии и какие альтернативы. Желательно все же применительно к пакету Statistica, это уже довольно хорошо изученная программа с (насколько я могу судить) широкими возможностями.

Цитата
... например задать бинарные переменные в виде статинов и генов.

Большинство генов в моем случае -- не бинарные переменные, а имеют 3 и даже более значений в том-то и проблема.
anserovtv
Скорее всего, Вам нужно использовать специализированные пакеты программ.
http://vigg.ru/news/news-single/article/se...i-bezopasnosti/
Также читайте на предпоследней странице этого форума о возможностях программы MDR.
p2004r
Цитата(Alianna @ 19.02.2015 - 07:39) *
Не совсем поняла. Между этими параметрами нет никакой причинно-следственной связи

Вот это уже неверный подход. Предсказывать гены не имеет смысла, их нужно просто прогенотипировать.

Вот примерно это мы и сделали. Но хотелось бы понять, правильно ли выбран метод линейной регрессии и какие альтернативы. Желательно все же применительно к пакету Statistica, это уже довольно хорошо изученная программа с (насколько я могу судить) широкими возможностями.

Большинство генов в моем случае -- не бинарные переменные, а имеют 3 и даже более значений в том-то и проблема.


1) Раз уверены в отсутствии влияния "статинов" на данные, тогда исключайте этот параметр из данных.

2) Если вы так всё знаете "о подходах", то зачем спрашиваете? Тут вряд ли кто то будет соревноваться с вами в "филологической статистике" приводя аргументы "из области здравого смысла" и "кажущегося значения слов".

3) Что вы сделали пока что знаете только вы. Никакой информации что за дизайна модели фитились и на каких данных нет. Поэтому сказать есть ли место линейной регрессии в вашем исследовании нельзя. Что касается "шашечек" -- посмотрите внимательно в свою Статистику, туда давно интегрирован R. Если не хватает знаний и некогда их получать (или они кажутся лишними для современного ученого), то наймите специалиста по названным вам методам.

4) Вы видите проблемы не там где они есть на самом деле. И совсем не читаете что вам подсказывают, rFerns как раз такие данные классифицирует (он находит зависимости связанные именно с набором меток у варианты выборки).

Цитата(Alianna @ 19.02.2015 - 07:29) *
Я надеялась, что получу здесь помощь, а не упреки в бездеятельности.


Вам названы http://en.wikipedia.org/wiki/Multi-label_classification и комплиментарный этой задаче http://cran.r-project.org/web/packages/rFerns/rFerns.pdf .

Решение задачи редукции числа предикторов в моделе до статистически значимых http://cran.r-project.org/web/packages/AUCRF/AUCRF.pdf и http://cran.r-project.org/web/packages/Boruta/Boruta.pdf и было предложено решать её для статагрегатов генотипа полученных тривиальным PCA (после преобразования шкал в бинарные).

Вместо того что бы спрашивать по существу, вы даете оценки ответивших вам. smile.gif
Alianna
Цитата(p2004r @ 19.02.2015 - 15:37) *
Вместо того что бы спрашивать по существу, вы даете оценки ответивших вам. smile.gif

Человек мне ничего толком не посоветовал, только упрекнул в стремлении найти готовые ответы за чужой счет, самой ничего не сделав. Учитавая объем проделанной раблоты, мне стало просто обидно. Каков ответ -- такова и реакция.
Цитата
1) Раз уверены в отсутствии влияния "статинов" на данные, тогда исключайте этот параметр из данных.

Они влияют, но не на ГЕНЫ. Гены заложены при рождении, на них ничего не может влиять.

Цитата
2) Если вы так всё знаете "о подходах", то зачем спрашиваете? Тут вряд ли кто то будет соревноваться с вами в "филологической статистике" приводя аргументы "из области здравого смысла" и "кажущегося значения слов".

Ни о какой "филологической статистике" речи нет. Опять же, в отношении генов я просто констатирую факт и говорю, что упор делается не на этом. Я уточнила в начале: нужно оценить влияние генов и статинов на биохимические показатели (см: "Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно)"). По ходу дискуссии я лишь уточняю, что нужно учитывать, а что нет.
Цитата
Вы видите проблемы не там где они есть на самом деле. И совсем не читаете что вам подсказывают, rFerns как раз такие данные классифицирует (он находит зависимости связанные именно с набором меток у варианты выборки).

Уточню еще один параметр. Это ученическая НР, учусь в 11 классе. К сожалению, многими знаниями я пока не обладаю, особенно в области статистики (мой научный руководитель тоже). Поэтому хотелось бы более подробного объяснения. Самостоятельно во всем этом разобраться у нас не выходит.
Предвосхищаю предложение обратиться к специалистам: см. пункт "обегали все окрестные НИИ". Надеюсь хоть где-то хоть как-то разобраться.
p2004r
Цитата(Alianna @ 19.02.2015 - 14:42) *
Человек мне ничего толком не посоветовал, только упрекнул в стремлении найти готовые ответы за чужой счет, самой ничего не сделав. Учитавая объем проделанной раблоты, мне стало просто обидно. Каков ответ -- такова и реакция.

Они влияют, но не на ГЕНЫ. Гены заложены при рождении, на них ничего не может влиять.


Ни о какой "филологической статистике" речи нет. Опять же, в отношении генов я просто констатирую факт и говорю, что упор делается не на этом. Я уточнила в начале: нужно оценить влияние генов и статинов на биохимические показатели (см: "Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно)"). По ходу дискуссии я лишь уточняю, что нужно учитывать, а что нет.

Уточню еще один параметр. Это ученическая НР, учусь в 11 классе. К сожалению, многими знаниями я пока не обладаю, особенно в области статистики (мой научный руководитель тоже). Поэтому хотелось бы более подробного объяснения. Самостоятельно во всем этом разобраться у нас не выходит.
Предвосхищаю предложение обратиться к специалистам: см. пункт "обегали все окрестные НИИ". Надеюсь хоть где-то хоть как-то разобраться.


1) Этот человек дал вам намного более ценный совет чем все остальные (в ответ на ваше весьма невразумительное сообщение с просьбой о помощи). Излагать (и тем более "на лестнице") почему "жизнь такая" и дизайн эксперимента такой контрпродуктивно. Пожалуй этот совет самое ценное что вы можете вынести из сложившейся ситуации с исследованием.

2) Вам русским языком со ссылками (на готовые английские методички) указаны все необходимые методы и их реализации для поиска взаимодействия. Вместо вопросов по применению указанных конкретных пакетов продолжается переливание из пустого в порожнее в виде конкретно вот этого вашего сообщения.

3) Для более конкретной помощи вы увы так и не привели ни одной варианты своей выборки (вместо каких то малоценных оценок поведения тех кто вам же помогает). Ну и если в "обегая окрестные НИИ" вы вели себя аналогичным образом как в этой ветке, то становиться понятным почему все "по кустам попрятались" smile.gif

Приведите кусок данных (или все) в удобном формате с пояснением "что есть что", и тогда будут конкретные советы-ответы. А может кто то и посчитает для своего развлечения и вашего обучения нужный вам анализ (причем именно в таком порядке).
nokh
Всяк сверчок знай свой шесток! А то огребёшь! Ну, вот по голове мы ребёнка настучали, а конфетку не дали - типа: "вон магазин - сама купишь!" Думаю, Aliann'у нужно сперва всё-таки похвалить за грамотно сформулированный вопрос, который замаскировал юный возраст исследователя; на этом форуме нередко аспиранты формулируют вопросы хуже... Во вторых, нужно кое-что объяснить с учётом появившейся новой информации wink.gif .

1). В настоящее время основных языков науки два: математический и английский. Возможно, через 30-50 лет это будет программный язык и русский, или китайский, или испанский... А через 300-500 - язык мыслеобразов. Но пока - то что имеем. Поэтому когда речь заходит о статьях, которые нужно штудировать имеются в виду именно англоязычные статьи и ресурсы. Если повезёт - могут попасться хорошие статьи на русском и даже почти не устаревшие обзоры. Но, во-первых, "если повезёт" - не научно (хотя и бывает), а во-вторых шансы на это тем меньше, чем более перспективно и динамично развивается научное направление. Поэтому не следует обижаться: просто вы искали под фонарём, а не там, где это лежит. Достаточно набить в гугле что-нибудь типа "genotype-phenotype analysis software" и можно уже на первых 3 страницах найти то, чего по-русски просто не написано.

2). Любой статистический метод - это определённый инструмент, созданный для работы с определённым материалом (типом данных) и с определённой целью. Поэтому часто некорректно говорить о хороших или плохих статистических пакетах. Всё относительно: смотря для чего. Например, вам нужно сшить платье (определить влияние генотипа на фенотип), а отец вместо швейной машинки гордо приносит вам набор инструментов для ремонта автомобиля (пакет Statistica). На ваши сомнения он обижается и говорит, что это дорогой и, возможно, лучший набор, и все мужики в соседних гаражах (окрестных НИИ) пользуются такими же, а то и хуже. Что остаётся: или искать машинку (нужный метод и пакет), или пытаться приспособить то, что дали: кроить ножницами по металлу, прокалывать шилом дырочки и скреплять проволокой или болтиками с гайками. Получится у вас платье? Очевидно, что нет. Но получится что-то похожее на платье, по крайней мере - издалека. Если повезёт - может даже фигуру смоделирует smile.gif. А для папуасов-ровесников - так и вообще фантастика. Заканчивая аналогию - то же и с неспециализированным пакетом: что-то получится, возможно даже в чём-то вполне логично получится. Но это будет непрофессионально, а то и вообще кустарно.

3). Ваша задача осложняется тем, что методов и пакетов для поиска зависимости фенотипа от генотипа очень много и, насколько мне известно, явных общепризнанных лидеров нет: каждый автор/разработчик нахваливает своё. Когда передо мной стояла сходная задача я покопался в этом многообразии, затем махнул рукой и использовал инструменты из своего проверенного временем универсального набора методов. Получилось не особо профессионально, но и не кустарно: носить можно! В следующий раз понадобится - опять отмониторю пакеты и методы гуглом, и если лидеров опять не будет - освою что-нибудь из универсального набора р2004r, какую-нибудь "боруту" smile.gif . В Statistica мой способ - анализ избыточности (Redundancy analysis) с фиктивными (dummy) независимыми переменными и рангами зависимых переменных - не реализовать. Наиболее близкое что там есть - метод PLS (Partial Least Squares или Projection to Latent Structure). Это своего рода гибрид анализа главных компонент (PCA) и множественного регрессионного анализа. От регрессии в нём то, что один набор данных - независимый (х), а второй - зависимый (y). А от PCA - что для регрессии используются не сами значения наборов х и у, а производные от них обобщающающие переменные (таким образом данные очищаются от случайного шума и анализируются во всём комплексе). Поскольку гены действуют на признаки не изолировано, а взаимодействуя, в комплексе и признаки развиваются не изолировано, а в комплексе - для поиска влияния нужен именно подобный сложный, комплексный, многомерный метод. Я методом PLS не пользовался, специалистов можно искать в среде химиков. Но даже если вы таковых найдёте в НИИ или на форумах, вам, как начинающему исследователю пользы от этого не будет - не потянете. Не по скудоумию, а просто пока тяжело будет - нет ни теоретической базы, ни опыта. Появится база - легче пойдёт, но нужно время.

4). В вашем случае реально сделать только более примитивный анализ: один ген - один признак. Для этого генотипы закодировать как 1, 2, 3 ... (например, AA - 1, Аа - 2, аа - 3) и сравнить их по уровню биохимического признака. Например, однофакторным дисперсионным анализом или методом Краскела - Уоллиса. Можно усложнить: учесть дополнительно приём препарата (закодировать как 1 и 2) и сделать двухфакторный дисперсионный анализ. Также рассчитать средние значения признака для каждого генотипа. Не факт, что что-то обнаружите - можно не обнаружить даже самыми крутыми из профессиональных методов. Не факт, что обнаруженное обязательно будет реальным - когда проводят много сравнений увеличивается шанс обнаружить то, чего нет. Но зато польза будет несомненно: познакомитесь: (1) с типичным статистическим пакетом, (2) с методами сравнения трёх и более групп, (3) с показателями описательной статистики. Это будет уже незаменимый личный опыт, под него проще подводить теоретическую базу. Успехов!
DoctorStat
Цитата(Alianna @ 18.02.2015 - 15:08) *
Есть группа больных (167 человек), и для них известны...
А где контроль = (генотипы + биохимия) ? С чем вы будете сравнивать группу больных, с самими же больными ? Это бессмысленно. Должна быть группа контроля, специально подобранная (см.литературу: метод исследования случай-контроль) к группе больных. Далее необходимо уточнить, на какой вопрос вы хотите получить ответ:
1) как генотипы влияют на данную болезнь, или
2) как генотипы влияют на биохимию, или
3) как биохимия влияет на развитие болезни ?
Все эти вопросы разные, поэтому и методы анализа тоже будут отличаться.
nokh
Цитата(DoctorStat @ 22.02.2015 - 18:17) *
А где контроль = (генотипы + биохимия) ? С чем вы будете сравнивать группу больных, с самими же больными ? Это бессмысленно. Должна быть группа контроля, специально подобранная (см.литературу: метод исследования случай-контроль) к группе больных. Далее необходимо уточнить, на какой вопрос вы хотите получить ответ:
1) как генотипы влияют на данную болезнь, или
2) как генотипы влияют на биохимию, или
3) как биохимия влияет на развитие болезни ?
Все эти вопросы разные, поэтому и методы анализа тоже будут отличаться.

Поскольку ни инфаркт миокарда, ни атеросклероз в вопросе не прозвучал, я писал о 2). С 1) дела обстоят лучше: есть и методы-лидеры, и пакеты, и обсуждения на форуме и даже обзор на русском: https://yadi.sk/i/j9zJzryseq6Si
p2004r
Да, PLS хорошо подходит. Реализация http://cran.r-project.org/web/packages/pls/pls.pdf вот некая автоматизация отбора в модель значимых предикторов http://cran.r-project.org/web/packages/autopls/index.html

Альтернативная система-комбайн с объединением ансамбля PLS моделей http://cran.r-project.org/web/packages/enp...ettes/enpls.pdf
DoctorStat
Цитата(nokh @ 22.02.2015 - 18:21) *
и даже обзор на русском: https://yadi.sk/i/j9zJzryseq6Si
Спасибо за обзор.
anserovtv
Обнаружил в интернете работу, очень близкую по тематике к исследованиям топикстартера.
http://cardioweb.ru/files/autoref/avtoreferat%201.pdf
(Обратите внимание на фамилию второго научного руководителя!!!)
В ней указаны методы анализа и ПО: APSampler c применением МСМС и др.
Странно, что топикстартер ее не нашел.
Метод MCMC (для других целей) представлен в расширении SPSS, анализ ассоциаций (также для других целей) есть в Deductor , SQL Server и др.
APSampler (в открытом доступе и даже с исходными кодами) можно найти по ссылке
https://code.google.com/p/apsampler/downloa...20DownloadCount
Но у меня программа почему-то не устанавливается.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.