Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Вопрос по MDR, Multifactor Dimensionality Reductin
don
сообщение 7.11.2014 - 07:25
Сообщение #1





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Добрый день, коллеги.
Прошу помощи в понимании результатов анализа с помощью MDR, а также ссылок на работы, где проводился подобный анализ.
Конкретно интересует как понимать графики энтропии:

Прикрепленное изображение

Прикрепленное изображение


Также, если кто встречался, подскажите где посмотреть что то вроде руководства к программе MDR.

Благодарю вас!

Сообщение отредактировал don - 7.11.2014 - 08:04
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 7.11.2014 - 13:12
Сообщение #2





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Отвечаю сам на свой вопрос smile.gif
http://compgen.blogspot.ru/2006/12/mdr-101...rpretation.html
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 12.11.2014 - 11:49
Сообщение #3





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Коллеги, подскажите пожалуйста, каким образом вычислить значение р на основе известного значения Т-статистики в quantitative MDR?
В литературе [Gui и др., 2013] встречается следующая формулировка:

We use the training score to determine the best K-order interaction model and use the maximum testing score to identify the best overall model. When there is no SNP effect, QMDR attributes from the testing set are equivalent to ones randomly assigned to the high or low level group. Therefore we expect that the null distribution of the testing score follows a normal distribution with mean 0. We can then use an empirical null distribution to estimate the p-value of the chosen model.

Иными словами:
Если SNP не связан с анализируемым показателем, значения атрибутов QMDR в тестовой выборке эквивалентны таковым случайно отнесенным к группе с высоким или низким уровнем анализируемого показателя. Поэтому ожидается, что нулевое распределение "оценки тестирования" соответствует нормальному распределению со средним = 0. Поэтому можно использовать эмпирическое нулевое распределение, чтобы оценить значение р выбранной модели.

Сообщение отредактировал don - 12.11.2014 - 11:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 12.11.2014 - 18:37
Сообщение #4





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Вы не сформулировали нулевую гипотезу, ведь t-статистика применяется в различных критериях.
Если я правильно понял. в этом случае проверяется нулевая гипотеза о том, что среднее значение равно нулю.
В этом случае применяется одновыборочный t-критерий.
Вычисления можно сделать в Excel, SPSS и др.
Вручную также несложно вычислить двустороннюю значимость /p-значение/ , используя Вашу T- статистику, число степеней свободы /n-1/,
и таблицу критических значений t-критерия Стьюдента.
Предполагаю, что все это реализовано и в MDR.

Сообщение отредактировал anserovtv - 12.11.2014 - 18:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 13.11.2014 - 12:45
Сообщение #5





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию.
В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель:

Модель
nat,CAT_rs7943316
Т-стат (обуч)
3,8483
Т-стат (тест)
3,3525
Сходимость
9/10

Прикрепленное изображение


На рисунке графически изображено следующее:
Model Detail:

Combination-----Count------ SOD Average------difference from global average 203,5074-----Predicted 'SOD'

1,A/T--------------42,0--------229,2429-----------------------------------------25,7354------------------1
1,T/T--------------32,0--------141,5875----------------------------------------_-61,9199------------------0
1,A/A--------------10,0--------215,16-------------------------------------------11,6526------------------1
2,A/T --------------64,0--------163,0594----------------------------------------_-40,448------------------0
2,T/T--------------53,0--------224,5962-----------------------------------------21,0888------------------1
2,A/A--------------28,0--------284,0429-----------------------------------------80,5354------------------1


Нулевая гипотеза, если я правильно понимаю, звучит следующим образом:
Данная комбинация факторов (nat, CAT_rs...) случайным образом разделяет выборку на категории с повышенным и пониженным (относительно глобального среднего) уровнем исследуемого показателя. То есть, распределение "тестирующей Т-статистики" согласно нулевой гипотезе должно соответствовать нормальному распределению со средним = 0.

Сообщение отредактировал don - 13.11.2014 - 12:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 14.11.2014 - 09:59
Сообщение #6





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Я установил MDR версии 3.0.2. В этой версии в комментариях к Best Model имеется p-значение для критерия хи-квадрат.
Также указаны чувствительность и специфичность и др. для модели с данным набором показателей.
Следовательно, главная нулевая гипотеза в MDR анализе - об отсутствии связи между истинной классификацией и классификацией,
полученной с помощью данной модели (т.е. составляется и анализируется таблица сопряженности 2 на 2).
Другими словами, мы оцениваем качество модели как бинарного классификатора.
При этом можно сравнивать модели ( и показатели!).
Нулевая гипотеза в Вашей формулировке мне кажется , по крайней мере, очень странной.

Сообщение отредактировал anserovtv - 14.11.2014 - 11:12
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 15.11.2014 - 18:12
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(don @ 13.11.2014 - 15:45) *
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию.
В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель:

Модель
nat,CAT_rs7943316
Т-стат (обуч)
3,8483
Т-стат (тест)
3,3525
...

Можно воспользоваться любым онлайновым калькулятором. Например этим: http://www.graphpad.com/quickcalcs/pValue1/ . Это на сайте конторы, выпускающей серьёзный пакет по анализу регрессионных зависимостей. В графу t вбить значение t-статистики, в графу DF - число степеней свободы. При сравнении выборочного среднего с теоретическим значением число степеней свободы DF будет (n-1) (см. Zar со стр. 97).

PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента.

Сообщение отредактировал nokh - 15.11.2014 - 21:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 15.11.2014 - 19:40
Сообщение #8





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(anserovtv @ 14.11.2014 - 12:59) *
Я установил MDR версии 3.0.2. В этой версии в комментариях к Best Model имеется p-значение для критерия хи-квадрат.
Также указаны чувствительность и специфичность и др. для модели с данным набором показателей.
...


Очевидно, Вы запустили стандартный вариант MDR.
В количественном всё несколько иначе - попробуйте пожалуйста запустить MDR на демонстрационной базе данных с количественным исходом из директории установки MDR (MDR-SampleData-continuous-endpoints.txt).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 17.11.2014 - 12:06
Сообщение #9





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(nokh @ 15.11.2014 - 21:12) *
PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента.


Понимаете, я никак не могу уяснить для себя один момент.
В qMDR-модель входит несколько показателей:
Прикрепленное изображение

В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы.
Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 18.11.2014 - 09:31
Сообщение #10





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Задал вопрос Jiang Gui:
In qMDR, when we get a testing T-statistics score, how can we then calculate a p-value of model? Can we simply calculate it using testing T-statistics score and N(samples)-1 degrees of freedom, like Agirbasli et al. (2013) (http://www.ncbi.nlm.nih.gov/pubmed/23988150)?
вот что он ответил
No. It will give you inflated type I error. You should use empirical null testing score or permutation test to estimate the p-value.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2014 - 13:13
Сообщение #11





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(don @ 17.11.2014 - 15:06) *
В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы.
Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки?

Ну это самый простой вопрос, т.к. дальше сложнее. Значимость всегда рассчитывается для всей модели. Примеров - масса: регрессионные модели, хи-квадрат для таблиц сопряжённости, модели дисперсионного анализа... Везде получаем одну статистику и одно значение р. На то она и модель, чтобы подгонять все имеющиеся данные, соответственно и значимость считается для всех данных, а не каких-то отдельных блоков. А вот далее, уже в рамках какой-то полученной модели, может потребоваться дополнительный уточняющий анализ, например: какие наблюдения сильнее всего повлияли на уравнение регрессии, какие ячейки таблицы сопряжённости внесли наибольший вклад в значение хи-квадрат, какие группы в рамках всего дисперсионного комплекса отличались между собой. Однако такая проверка всегда проводится после оценки всей модели и проводится совсем другими статистическими техниками: поиском выбросов и влиятельных наблюдений в регрессии, поиском отклонений Фримана-Тьюки или стандартизованных остатков Хабермана для таблиц сопряжённости, путём запланированных либо апостериорных сравнений в рамках дисперсионного комплекса...

Применительно к MDR мне пока многое не понятно, особенно в случае количественного отклика. Бегло посмотрел статью Jiang Gui с соавт. A Simple and Computationally Efficient Approach to Multifactor Dimensionality Reduction Analysis of Gene-Gene Interactions for Quantitative Traits, но пока так и не понял как они сводят оценку модели к t-статистике. Вообще для выбора лучшей модели обычно используются информационные критерии: байесовский или Акаике. Почему авторы пошли по другому пути? почему не считают p для моделей? почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Пока одни вопросы... А что в случае количественного отклика принимается за 0 и 1?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 24.11.2014 - 09:45
Сообщение #12





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(nokh @ 21.11.2014 - 16:13) *
А что в случае количественного отклика принимается за 0 и 1?


Спасибо за интерес к данной теме!
За 1 и 0 принимается отклонение от среднего в большую и меньшую сторону.
Этот вопрос раскрыт на блоге создателя MDR.
http://compgen.blogspot.ru/2006/12/mdr-101...-4-results.html
Note that MDR combines the high-risk and low-risk combinations into a new single attribute using constructive induction. It is the new single attribute that is statistically investigated. You can view the distribution of cases and controls for this single MDR attribute by going to the Attribute Construction tab at the top of the software. Once there, select the SNPs in your best model by holding down the control button and left clicking your mouse. Once the right SNPs are selected push the Construct button. This will add the new single MDR attribute to you dataset. Now do a forced analysis with that single constructed attribute and you will be able to see the statistics for the analysis of that variable along with the graphical model. In our newer papers we are putting the graphical model for the constructed attribute next to the graphical model given in the default output to show the MDR attribute construction process. This is helpful for readers to see what MDR is really doing.
То есть:
?Старые? атрибуты
nat,CAT_rs7943316 3,8483 3,3525 9/10
Прикрепленное изображение

?Новый? единый атрибут (?что на самом деле делает MDR?):
CAT_rs7943316_nat 3,8685 4,0719 10/10
Прикрепленное изображение


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.11.2014 - 10:22
Сообщение #13





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699




Цитата
почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её?


Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 24.11.2014 - 11:05
Сообщение #14





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(p2004r @ 24.11.2014 - 13:22) *
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере.

Есть программа для вычисления "permutation p-value", но только для данных с бинарной переменной ответа.
http://sourceforge.net/projects/mdr/files/mdrpt/
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.11.2014 - 13:57
Сообщение #15





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 24.11.2014 - 13:22) *
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере.

Перестановку можно организовать двумя способами: (1) многократным случайным разрушением связей в наборе, т.е. методом Монте-Карло и (2) перебором в точности всех возможных сочетаний (exact permutation). То, что (2) очень сложно уже проходили, но неужели и Монте-Карло на обычном ПК не пойдёт? И что значит "внешняя"?

А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему