multifactor dimensionality reduction |
Здравствуйте, гость ( Вход | Регистрация )
multifactor dimensionality reduction |
21.11.2011 - 15:21
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
|
|
21.11.2011 - 17:44
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
так время операции в качестве чего будет использоваться? скорее всего оно бы использовалось не для анализа, а просто для общих сведений, как айдишка. а вообще задача немного поменялась.... сказали из базы проанализировать 4 столбца. к примеру инфаркт миокарда. и найти какие то зависящие факторы. из этого сделать выборку и посмотреть будет ли достаточное количество данных. |
|
21.11.2011 - 17:50
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 20.11.2011 Пользователь №: 23314 |
есть данные по кардиологии. предоперационных набор параметров и постоперационных.планирую применить логистическую регрессиюю для определения риска того или иного вмешатальства и ислледования влияния пороков. посоветовали воспользоваться multifactor dimensionality reduction и permutation test.пока понятия не имею с чего начать и к чему приступить Алена, советую всегда действовать от простого к сложному: у вас есть данные по пациенту до операции и после - с точки зрения статистики это очень удачный случай, так как совокупности напрямую связаны (т.е. вы знаете не "что в среднем бывает после такой-то операции" а конкретную выборку "значение до" - "значение после") Поэтому вы легко сможете оценить эффективность и риски каждого из типов вмешателсьств с помощью критериев для связанных совокупностей. Это первое что вам, на мой взгляд, стоит сделать. следующий шаг - попытаться применить регрессионный анализ. Что это по сути? А то, что вы не просто хотите поисследовать эффективность и риски операции и успокоиться, а еще и предложить коллегам методику прогнозирования рисков для каждого типа вмешательства. То есть, я вам даю набор параметров конкретного (!) пациента, а вы мне даете оценки его параметров после операции. Этим и занимается регрессионный анализ - в общем случае пытаемся построить функцию, которая на входе имеет параметры до операции, а на выходе дает математическое ожидание и дисперсию параметра после операции. Получится или нет - это тоже вопрос исследования. а самый безпроигрышный вариант - найдите хорошую статью где решены аналогичные задачи (тематика в данном случае не важна) - люди уже разбирались, думали, писали - глупо не воспользоваться! Часто такая канва бывает очень важна в начале исследования, а потом уже развивать будете. А то советовать на форумах все горазды, и я в том числе!))) эти советы могут так увести от истины, что потом не распутаться вот например после постов p2004r я тоже чувствую себя стерильным, хотя и имею кандидатскую степень в физмат науках))) |
|
21.11.2011 - 18:00
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
вот например после постов p2004r я тоже чувствую себя стерильным, хотя и имею кандидатскую степень в физмат науках))) ну значит круче к кандидатской по медицине иметь магистерскую в информатике ... и книжки читать по многомерному анализу данных (можно даже изданные в СССР). |
|
21.11.2011 - 18:10
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
Алена, советую всегда действовать от простого к сложному: ...... спасибо! я с вами согласна... я всегда начинаю с поиска похожего чтобы хоть как то понять суть вопроса... я и начинала тему с просьбой о совете что почитать на тему MDR и пермишн теста. но так же понимала что в самой статистике пока не ас. начинаю изучать азы... ситуация так сложилась... 2 года трудилась ни над чем научрук говорил - давай давай, а там посмотрим... когда решилась менять его естественно новая тема, новое направление... вот и буду изучать сию науку... так что сегодня вечером анализирую базу, все параметры до/после. дальше отпишусь с вопросами |
|
21.11.2011 - 18:12
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
просто сама не могла толком сформулировать свои пожелания... извините!
|
|
21.11.2011 - 18:16
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
скорее всего оно бы использовалось не для анализа, а просто для общих сведений, как айдишка. а вообще задача немного поменялась.... сказали из базы проанализировать 4 столбца. к примеру инфаркт миокарда. и найти какие то зависящие факторы. из этого сделать выборку и посмотреть будет ли достаточное количество данных. просто по литературе (запомнилось) обычно встречаешь что учитывают день недели и сезон года, это как я понимаю считается вполне влияющим фактором на исход операции. еще бывает ситуация повторных операций, но здесь ситуация другая. просто так запихивать в glm() (generalized linear models) предикторы явно не стоит. сейчас понятно что имеет место зависимая бинарная --- выжил-нет. как я понял мы ищем что связано с этой переменной? (и её в самом файле с примером данных нет?) тогда нам надо подготовить предикторы, Код > read.csv2("файл с данными.csv") ID Familia Vozrast Data_operatsii Pol 1 13 Абдула?в 72 24.06.2010 Мужской 2 506 Бунчук 57 17.12.2010 Мужской 3 862 Гладчук 85 01.06.2010 Мужской 4 951 Горбенко 60 11.05.2010 Мужской 5 2163 Крoт 56 15.12.2010 Мужской HronichZabol_Legkih Nevrolgiya PerenOperatsii 1 нет нет да 2 лёгкой степени нет нет 3 тяжёлые (требующие ингаляционную гормонотерапию) нет да 4 средней степени да да 5 тяжёлые (требующие ингаляционную гормонотерапию) нет да Stenokardiya Vremya_posle_posled_IM Gipertrof_L_ZH IM 1 напряжения+покоя нет умеренная нет 2 напряжения нет умеренная нет 3 напряжения+покоя нет умеренная нет 4 напряжения нет умеренная нет 5 нет нет умеренная нет например словесно записана степень проявления HronichZabol_Legkih. если это степень проявления и все уровни нарастают от нет, то надо её преобразовать в ранговую величину. "нет" - 0, "легкая" - 1 и т.д. (при этом если гормонотерапия приписывается к разным уровням, то это выносится в отдельный бинарный признак). аналогично преобразуется Gipertrof_L_ZH, тоже в ранговую величину. если это все уровни у стенокардии то её тоже в ранговую наиболее трудно с Vremya_posle_posled_IM. "нет" и время очень даже различные вещи что бы быть в одной переменной. тут надо думать как это представить. |
|
21.11.2011 - 19:01
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Поэтому вы легко сможете оценить эффективность и риски каждого из типов вмешателсьств с помощью критериев для связанных совокупностей. Это первое что вам, на мой взгляд, стоит сделать. В "вашей реальности" в курсе кто такой Бонферонни? "Ковровое бомбометание тестами" вообще самое отвратительное что можно советовать начинающему изучать анализ данных. PS http://languagelog.ldc.upenn.edu/nll/?p=3074 Сообщение отредактировал p2004r - 21.11.2011 - 19:09 |
|
27.11.2011 - 00:10
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Здравствуйте!
Довольно продолжительное время работаю с MDR, программа в основном предназначена для поиска ассоциаций полиморфизмов одиночных нуклеотидов (single nucleotide polymprphism, SNP) и риском развития мультифакторной патологии. Метод имеет определенные преимущества над логистической регрессией, хотя обычно их применяют в "пачке" Для того, чтобы понять принцип работы метода, начните с этого: http://www.ncbi.nlm.nih.gov/pubmed/12584123 (закачивайте полный текст статьи). Кроме этого, MDR уже реализован в R: http://www.ncbi.nlm.nih.gov/pubmed/21846375 Также очень будет полезным почитать блог самого автора, если у Вас работа связана с изучением межгенных взаимодействий (эпистазис) - http://compgen.blogspot.com/ Если что-то будет не понятно - буду рад помочь! |
|
30.11.2011 - 11:23
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
|
|
30.11.2011 - 12:32
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
TheThing, извините еще за глуппый вопрос. я алгоритм и статьи почитала... насколько поняла то этот MDR можно применять не только используя какие то гены для определения риска патологии или нахождения взаимосвязей но и в других отраслях.моя проблема в том что у меня не будет ни одного параметра по генам... а патологию нужно будет определять в зависимости от скажем инфаркта или сердечно сосудистой недостаточности. нету ли каких то ссылок с такого рода материалом??? я просмотрела и все статьи с основных сайтов и в паб меде прорылась. пока безрезультатно....или мне просто нужно будет те пераметры что есть у меня закодировать в файлик ноликами и единичками и дальше работать с ним? тогда что если не 2 значения а больше...
|
|
2.12.2011 - 16:28
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
TheThing, извините еще за глуппый вопрос. я алгоритм и статьи почитала... насколько поняла то этот MDR можно применять не только используя какие то гены для определения риска патологии или нахождения взаимосвязей но и в других отраслях.моя проблема в том что у меня не будет ни одного параметра по генам... а патологию нужно будет определять в зависимости от скажем инфаркта или сердечно сосудистой недостаточности. нету ли каких то ссылок с такого рода материалом??? я просмотрела и все статьи с основных сайтов и в паб меде прорылась. пока безрезультатно....или мне просто нужно будет те пераметры что есть у меня закодировать в файлик ноликами и единичками и дальше работать с ним? тогда что если не 2 значения а больше... Прошу прощения за столь длительный ответ, был в командировке. Дело в том, что MDR действительно разрабатывалась для оценки межгенных взаимодействий, а также взаимодействий ген-окружающая среда, поэтому если у Вас данные не имеют генетической природы, я не советую применять этот метод (возникает вопрос, кто и зачем посоветовал Вам применять его для не генетических исследований?) В PubMed Вы таких работ не найдете. Насколько я представил Вашу задачу, то логистическая регрессия вполне может справиться. Единственное, обратите внимание, сколько у вас предикторов (и какие они - категориальные, количественные и т.д) на входе и какой размер выборки? Часто бывает, что люди запихивают абсолютно все данные, которые удалось внести в базу данных (например около 20 независимых переменных) и при этом размер выборки 40 человек. И если у "нас" такое еще может пройти, то на западе одним из главных вопросов будет - what is the power of the test? |
|
11.02.2012 - 19:45
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 42 Регистрация: 14.11.2011 Пользователь №: 23301 |
всем привет. буду благодарна за подсказки! скажите в МDR как кодируются данные? я смотрела пример там 0,1,2 когда я попыталась ввести скажем еще 3 то уже не работало... и что кодируется нулем что 1 и 2? я о том что к примеру если да то 1, если нет то 0?
|
|
11.02.2012 - 23:04
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
всем привет. буду благодарна за подсказки! скажите в МDR как кодируются данные? я смотрела пример там 0,1,2 когда я попыталась ввести скажем еще 3 то уже не работало... и что кодируется нулем что 1 и 2? я о том что к примеру если да то 1, если нет то 0? На входе метода the dataset; an n by (p+1) matrix where the first column is the binary response vector (coded 0 or 1) and the remaining columns are the p SNP genotypes (coded numerically) 0 1 2 это "case of two biallelic markers with three possible genotypes" http://en.wikipedia.org/wiki/Single-nucleotide_polymorphism как то сразу тяжело предложить как SNP переложить на что то другое |
|
11.02.2012 - 23:48
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400 |
всем привет. буду благодарна за подсказки! скажите в МDR как кодируются данные? я смотрела пример там 0,1,2 когда я попыталась ввести скажем еще 3 то уже не работало... и что кодируется нулем что 1 и 2? я о том что к примеру если да то 1, если нет то 0? Если вы НЕ анализируете межгенные взаимодействия или же взаимодействие ген-окружающая среда, то зачем вам нужно использовать метод MDR?? MDR разрабатывался для анализа генетических данных. |
|