Вопрос по MDR, Multifactor Dimensionality Reductin |
Здравствуйте, гость ( Вход | Регистрация )
Вопрос по MDR, Multifactor Dimensionality Reductin |
7.11.2014 - 07:25
Сообщение
#1
|
|||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Добрый день, коллеги.
Прошу помощи в понимании результатов анализа с помощью MDR, а также ссылок на работы, где проводился подобный анализ. Конкретно интересует как понимать графики энтропии: Также, если кто встречался, подскажите где посмотреть что то вроде руководства к программе MDR. Благодарю вас! Сообщение отредактировал don - 7.11.2014 - 08:04 |
||
|
7.11.2014 - 13:12
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Отвечаю сам на свой вопрос
http://compgen.blogspot.ru/2006/12/mdr-101...rpretation.html |
|
12.11.2014 - 11:49
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Коллеги, подскажите пожалуйста, каким образом вычислить значение р на основе известного значения Т-статистики в quantitative MDR?
В литературе [Gui и др., 2013] встречается следующая формулировка: We use the training score to determine the best K-order interaction model and use the maximum testing score to identify the best overall model. When there is no SNP effect, QMDR attributes from the testing set are equivalent to ones randomly assigned to the high or low level group. Therefore we expect that the null distribution of the testing score follows a normal distribution with mean 0. We can then use an empirical null distribution to estimate the p-value of the chosen model. Иными словами: Если SNP не связан с анализируемым показателем, значения атрибутов QMDR в тестовой выборке эквивалентны таковым случайно отнесенным к группе с высоким или низким уровнем анализируемого показателя. Поэтому ожидается, что нулевое распределение "оценки тестирования" соответствует нормальному распределению со средним = 0. Поэтому можно использовать эмпирическое нулевое распределение, чтобы оценить значение р выбранной модели. Сообщение отредактировал don - 12.11.2014 - 11:54 |
|
12.11.2014 - 18:37
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Вы не сформулировали нулевую гипотезу, ведь t-статистика применяется в различных критериях.
Если я правильно понял. в этом случае проверяется нулевая гипотеза о том, что среднее значение равно нулю. В этом случае применяется одновыборочный t-критерий. Вычисления можно сделать в Excel, SPSS и др. Вручную также несложно вычислить двустороннюю значимость /p-значение/ , используя Вашу T- статистику, число степеней свободы /n-1/, и таблицу критических значений t-критерия Стьюдента. Предполагаю, что все это реализовано и в MDR. Сообщение отредактировал anserovtv - 12.11.2014 - 18:53 |
|
13.11.2014 - 12:45
Сообщение
#5
|
||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию. В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель: Модель nat,CAT_rs7943316 Т-стат (обуч) 3,8483 Т-стат (тест) 3,3525 Сходимость 9/10 На рисунке графически изображено следующее: Model Detail: Combination-----Count------ SOD Average------difference from global average 203,5074-----Predicted 'SOD' 1,A/T--------------42,0--------229,2429-----------------------------------------25,7354------------------1 1,T/T--------------32,0--------141,5875----------------------------------------_-61,9199------------------0 1,A/A--------------10,0--------215,16-------------------------------------------11,6526------------------1 2,A/T --------------64,0--------163,0594----------------------------------------_-40,448------------------0 2,T/T--------------53,0--------224,5962-----------------------------------------21,0888------------------1 2,A/A--------------28,0--------284,0429-----------------------------------------80,5354------------------1 Нулевая гипотеза, если я правильно понимаю, звучит следующим образом: Данная комбинация факторов (nat, CAT_rs...) случайным образом разделяет выборку на категории с повышенным и пониженным (относительно глобального среднего) уровнем исследуемого показателя. То есть, распределение "тестирующей Т-статистики" согласно нулевой гипотезе должно соответствовать нормальному распределению со средним = 0. Сообщение отредактировал don - 13.11.2014 - 12:53 |
|
|
14.11.2014 - 09:59
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Я установил MDR версии 3.0.2. В этой версии в комментариях к Best Model имеется p-значение для критерия хи-квадрат.
Также указаны чувствительность и специфичность и др. для модели с данным набором показателей. Следовательно, главная нулевая гипотеза в MDR анализе - об отсутствии связи между истинной классификацией и классификацией, полученной с помощью данной модели (т.е. составляется и анализируется таблица сопряженности 2 на 2). Другими словами, мы оцениваем качество модели как бинарного классификатора. При этом можно сравнивать модели ( и показатели!). Нулевая гипотеза в Вашей формулировке мне кажется , по крайней мере, очень странной. Сообщение отредактировал anserovtv - 14.11.2014 - 11:12 |
|
15.11.2014 - 18:12
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл. Я объясню ситуацию. В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель: Модель nat,CAT_rs7943316 Т-стат (обуч) 3,8483 Т-стат (тест) 3,3525 ... Можно воспользоваться любым онлайновым калькулятором. Например этим: http://www.graphpad.com/quickcalcs/pValue1/ . Это на сайте конторы, выпускающей серьёзный пакет по анализу регрессионных зависимостей. В графу t вбить значение t-статистики, в графу DF - число степеней свободы. При сравнении выборочного среднего с теоретическим значением число степеней свободы DF будет (n-1) (см. Zar со стр. 97). PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента. Сообщение отредактировал nokh - 15.11.2014 - 21:59 |
|
15.11.2014 - 19:40
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Я установил MDR версии 3.0.2. В этой версии в комментариях к Best Model имеется p-значение для критерия хи-квадрат. Также указаны чувствительность и специфичность и др. для модели с данным набором показателей. ... Очевидно, Вы запустили стандартный вариант MDR. В количественном всё несколько иначе - попробуйте пожалуйста запустить MDR на демонстрационной базе данных с количественным исходом из директории установки MDR (MDR-SampleData-continuous-endpoints.txt). |
|
17.11.2014 - 12:06
Сообщение
#9
|
||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента. Понимаете, я никак не могу уяснить для себя один момент. В qMDR-модель входит несколько показателей: В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы. Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки? |
|
|
18.11.2014 - 09:31
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Задал вопрос Jiang Gui:
In qMDR, when we get a testing T-statistics score, how can we then calculate a p-value of model? Can we simply calculate it using testing T-statistics score and N(samples)-1 degrees of freedom, like Agirbasli et al. (2013) (http://www.ncbi.nlm.nih.gov/pubmed/23988150)? вот что он ответил No. It will give you inflated type I error. You should use empirical null testing score or permutation test to estimate the p-value. |
|
21.11.2014 - 13:13
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы. Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки? Ну это самый простой вопрос, т.к. дальше сложнее. Значимость всегда рассчитывается для всей модели. Примеров - масса: регрессионные модели, хи-квадрат для таблиц сопряжённости, модели дисперсионного анализа... Везде получаем одну статистику и одно значение р. На то она и модель, чтобы подгонять все имеющиеся данные, соответственно и значимость считается для всех данных, а не каких-то отдельных блоков. А вот далее, уже в рамках какой-то полученной модели, может потребоваться дополнительный уточняющий анализ, например: какие наблюдения сильнее всего повлияли на уравнение регрессии, какие ячейки таблицы сопряжённости внесли наибольший вклад в значение хи-квадрат, какие группы в рамках всего дисперсионного комплекса отличались между собой. Однако такая проверка всегда проводится после оценки всей модели и проводится совсем другими статистическими техниками: поиском выбросов и влиятельных наблюдений в регрессии, поиском отклонений Фримана-Тьюки или стандартизованных остатков Хабермана для таблиц сопряжённости, путём запланированных либо апостериорных сравнений в рамках дисперсионного комплекса... Применительно к MDR мне пока многое не понятно, особенно в случае количественного отклика. Бегло посмотрел статью Jiang Gui с соавт. A Simple and Computationally Efficient Approach to Multifactor Dimensionality Reduction Analysis of Gene-Gene Interactions for Quantitative Traits, но пока так и не понял как они сводят оценку модели к t-статистике. Вообще для выбора лучшей модели обычно используются информационные критерии: байесовский или Акаике. Почему авторы пошли по другому пути? почему не считают p для моделей? почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Пока одни вопросы... А что в случае количественного отклика принимается за 0 и 1? |
|
24.11.2014 - 09:45
Сообщение
#12
|
|||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
А что в случае количественного отклика принимается за 0 и 1? Спасибо за интерес к данной теме! За 1 и 0 принимается отклонение от среднего в большую и меньшую сторону. Этот вопрос раскрыт на блоге создателя MDR. http://compgen.blogspot.ru/2006/12/mdr-101...-4-results.html Note that MDR combines the high-risk and low-risk combinations into a new single attribute using constructive induction. It is the new single attribute that is statistically investigated. You can view the distribution of cases and controls for this single MDR attribute by going to the Attribute Construction tab at the top of the software. Once there, select the SNPs in your best model by holding down the control button and left clicking your mouse. Once the right SNPs are selected push the Construct button. This will add the new single MDR attribute to you dataset. Now do a forced analysis with that single constructed attribute and you will be able to see the statistics for the analysis of that variable along with the graphical model. In our newer papers we are putting the graphical model for the constructed attribute next to the graphical model given in the default output to show the MDR attribute construction process. This is helpful for readers to see what MDR is really doing. То есть: ?Старые? атрибуты nat,CAT_rs7943316 3,8483 3,3525 9/10 ?Новый? единый атрибут (?что на самом деле делает MDR?): CAT_rs7943316_nat 3,8685 4,0719 10/10 |
||
|
24.11.2014 - 10:22
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Цитата почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. |
|
24.11.2014 - 11:05
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 |
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. Есть программа для вычисления "permutation p-value", но только для данных с бинарной переменной ответа. http://sourceforge.net/projects/mdr/files/mdrpt/ |
|
24.11.2014 - 13:57
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. Перестановку можно организовать двумя способами: (1) многократным случайным разрушением связей в наборе, т.е. методом Монте-Карло и (2) перебором в точности всех возможных сочетаний (exact permutation). То, что (2) очень сложно уже проходили, но неужели и Монте-Карло на обычном ПК не пойдёт? И что значит "внешняя"? А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают... |
|