![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]() ![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 18.02.2015 Пользователь №: 27040 ![]() |
Здравствуйте!
Проблема моя такая. Есть группа больных (167 человек), и для них известны: - генотипы по нескольким генам (7 шт.), - данные биохимических анализов, представленные в виде числовых переменных (29 шт.), - и еще один параметр -- принимал пациент препарат статины или нет (закодировано 0/1). Мне нужно проанализировать зависимости между генотипом человека и его анализами (то есть, на какие параметры влияют гены и насколько сильно). Столкнулась с тем, что никто не может дать четкого ответа, какие методики использовать. Пыталась разобраться в регрессионном анализе, но потом оказалось, что он подходит только для исследования взаимосвязей между количественными переменными. Отчаянно нужно помощь статистиков! Как мне правильно проанализировать свою бузу данных? ![]() |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Не совсем поняла. Между этими параметрами нет никакой причинно-следственной связи Вот это уже неверный подход. Предсказывать гены не имеет смысла, их нужно просто прогенотипировать. Вот примерно это мы и сделали. Но хотелось бы понять, правильно ли выбран метод линейной регрессии и какие альтернативы. Желательно все же применительно к пакету Statistica, это уже довольно хорошо изученная программа с (насколько я могу судить) широкими возможностями. Большинство генов в моем случае -- не бинарные переменные, а имеют 3 и даже более значений в том-то и проблема. 1) Раз уверены в отсутствии влияния "статинов" на данные, тогда исключайте этот параметр из данных. 2) Если вы так всё знаете "о подходах", то зачем спрашиваете? Тут вряд ли кто то будет соревноваться с вами в "филологической статистике" приводя аргументы "из области здравого смысла" и "кажущегося значения слов". 3) Что вы сделали пока что знаете только вы. Никакой информации что за дизайна модели фитились и на каких данных нет. Поэтому сказать есть ли место линейной регрессии в вашем исследовании нельзя. Что касается "шашечек" -- посмотрите внимательно в свою Статистику, туда давно интегрирован R. Если не хватает знаний и некогда их получать (или они кажутся лишними для современного ученого), то наймите специалиста по названным вам методам. 4) Вы видите проблемы не там где они есть на самом деле. И совсем не читаете что вам подсказывают, rFerns как раз такие данные классифицирует (он находит зависимости связанные именно с набором меток у варианты выборки). Я надеялась, что получу здесь помощь, а не упреки в бездеятельности. Вам названы http://en.wikipedia.org/wiki/Multi-label_classification и комплиментарный этой задаче http://cran.r-project.org/web/packages/rFerns/rFerns.pdf . Решение задачи редукции числа предикторов в моделе до статистически значимых http://cran.r-project.org/web/packages/AUCRF/AUCRF.pdf и http://cran.r-project.org/web/packages/Boruta/Boruta.pdf и было предложено решать её для статагрегатов генотипа полученных тривиальным PCA (после преобразования шкал в бинарные). Вместо того что бы спрашивать по существу, вы даете оценки ответивших вам. ![]() ![]() |
|
![]() |
![]() |
![]() ![]() |