Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Вопрос по MDR, Multifactor Dimensionality Reductin
don
сообщение 7.11.2014 - 07:25
Сообщение #1





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Добрый день, коллеги.
Прошу помощи в понимании результатов анализа с помощью MDR, а также ссылок на работы, где проводился подобный анализ.
Конкретно интересует как понимать графики энтропии:

Прикрепленное изображение

Прикрепленное изображение


Также, если кто встречался, подскажите где посмотреть что то вроде руководства к программе MDR.

Благодарю вас!

Сообщение отредактировал don - 7.11.2014 - 08:04
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
don
сообщение 13.11.2014 - 12:45
Сообщение #2





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию.
В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель:

Модель
nat,CAT_rs7943316
Т-стат (обуч)
3,8483
Т-стат (тест)
3,3525
Сходимость
9/10

Прикрепленное изображение


На рисунке графически изображено следующее:
Model Detail:

Combination-----Count------ SOD Average------difference from global average 203,5074-----Predicted 'SOD'

1,A/T--------------42,0--------229,2429-----------------------------------------25,7354------------------1
1,T/T--------------32,0--------141,5875----------------------------------------_-61,9199------------------0
1,A/A--------------10,0--------215,16-------------------------------------------11,6526------------------1
2,A/T --------------64,0--------163,0594----------------------------------------_-40,448------------------0
2,T/T--------------53,0--------224,5962-----------------------------------------21,0888------------------1
2,A/A--------------28,0--------284,0429-----------------------------------------80,5354------------------1


Нулевая гипотеза, если я правильно понимаю, звучит следующим образом:
Данная комбинация факторов (nat, CAT_rs...) случайным образом разделяет выборку на категории с повышенным и пониженным (относительно глобального среднего) уровнем исследуемого показателя. То есть, распределение "тестирующей Т-статистики" согласно нулевой гипотезе должно соответствовать нормальному распределению со средним = 0.

Сообщение отредактировал don - 13.11.2014 - 12:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 15.11.2014 - 18:12
Сообщение #3





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(don @ 13.11.2014 - 15:45) *
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию.
В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель:

Модель
nat,CAT_rs7943316
Т-стат (обуч)
3,8483
Т-стат (тест)
3,3525
...

Можно воспользоваться любым онлайновым калькулятором. Например этим: http://www.graphpad.com/quickcalcs/pValue1/ . Это на сайте конторы, выпускающей серьёзный пакет по анализу регрессионных зависимостей. В графу t вбить значение t-статистики, в графу DF - число степеней свободы. При сравнении выборочного среднего с теоретическим значением число степеней свободы DF будет (n-1) (см. Zar со стр. 97).

PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента.

Сообщение отредактировал nokh - 15.11.2014 - 21:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
don
сообщение 17.11.2014 - 12:06
Сообщение #4





Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460



Цитата(nokh @ 15.11.2014 - 21:12) *
PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента.


Понимаете, я никак не могу уяснить для себя один момент.
В qMDR-модель входит несколько показателей:
Прикрепленное изображение

В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы.
Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2014 - 13:13
Сообщение #5





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(don @ 17.11.2014 - 15:06) *
В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы.
Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки?

Ну это самый простой вопрос, т.к. дальше сложнее. Значимость всегда рассчитывается для всей модели. Примеров - масса: регрессионные модели, хи-квадрат для таблиц сопряжённости, модели дисперсионного анализа... Везде получаем одну статистику и одно значение р. На то она и модель, чтобы подгонять все имеющиеся данные, соответственно и значимость считается для всех данных, а не каких-то отдельных блоков. А вот далее, уже в рамках какой-то полученной модели, может потребоваться дополнительный уточняющий анализ, например: какие наблюдения сильнее всего повлияли на уравнение регрессии, какие ячейки таблицы сопряжённости внесли наибольший вклад в значение хи-квадрат, какие группы в рамках всего дисперсионного комплекса отличались между собой. Однако такая проверка всегда проводится после оценки всей модели и проводится совсем другими статистическими техниками: поиском выбросов и влиятельных наблюдений в регрессии, поиском отклонений Фримана-Тьюки или стандартизованных остатков Хабермана для таблиц сопряжённости, путём запланированных либо апостериорных сравнений в рамках дисперсионного комплекса...

Применительно к MDR мне пока многое не понятно, особенно в случае количественного отклика. Бегло посмотрел статью Jiang Gui с соавт. A Simple and Computationally Efficient Approach to Multifactor Dimensionality Reduction Analysis of Gene-Gene Interactions for Quantitative Traits, но пока так и не понял как они сводят оценку модели к t-статистике. Вообще для выбора лучшей модели обычно используются информационные критерии: байесовский или Акаике. Почему авторы пошли по другому пути? почему не считают p для моделей? почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Пока одни вопросы... А что в случае количественного отклика принимается за 0 и 1?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.11.2014 - 10:22
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699




Цитата
почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её?


Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.11.2014 - 13:57
Сообщение #7





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(p2004r @ 24.11.2014 - 13:22) *
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере.

Перестановку можно организовать двумя способами: (1) многократным случайным разрушением связей в наборе, т.е. методом Монте-Карло и (2) перебором в точности всех возможных сочетаний (exact permutation). То, что (2) очень сложно уже проходили, но неужели и Монте-Карло на обычном ПК не пойдёт? И что значит "внешняя"?

А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 25.11.2014 - 11:35
Сообщение #8





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 24.11.2014 - 13:57) *
И что значит "внешняя"?

А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают...


1) То есть авторы предполагали, что перемешать собственный датасет пользователь может самостоятельно и это настолько очевидно, что не должно входить в сам пакет.

2) Я собственно именно об этом и писал всегода, проще Boruta (если преобразовать данные для использования им xFerns то и скорость ломовая получается) или аналоги прогнать на датасете (по очереди каждую целевую переменную).

В мдр наверное привлекает людей, что "одним чохом" весь датасет обрабатывается пусть и грубо. (И скорее всего например bnlearn ничего не найдет в таких данных значимого). А думать как прикрутить тест значимости аналогично в многомерку проективную уже думать надо smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- don   Вопрос по MDR   7.11.2014 - 07:25
- - don   Отвечаю сам на свой вопрос http://compgen.blogspo...   7.11.2014 - 13:12
- - don   Коллеги, подскажите пожалуйста, каким образом вычи...   12.11.2014 - 11:49
- - anserovtv   Вы не сформулировали нулевую гипотезу, ведь t-стат...   12.11.2014 - 18:37
- - don   Прошу прощения, но в MDR я ничего, позволяющего вы...   13.11.2014 - 12:45
|- - nokh   Цитата(don @ 13.11.2014 - 15:45) Про...   15.11.2014 - 18:12
|- - don   Цитата(nokh @ 15.11.2014 - 21:12) PS...   17.11.2014 - 12:06
|- - nokh   Цитата(don @ 17.11.2014 - 15:06) В к...   21.11.2014 - 13:13
|- - don   Цитата(nokh @ 21.11.2014 - 16:13) А ...   24.11.2014 - 09:45
|- - p2004r   Цитатапочему в пакете на реализована рандомизацион...   24.11.2014 - 10:22
|- - don   Цитата(p2004r @ 24.11.2014 - 13:22) ...   24.11.2014 - 11:05
|- - nokh   Цитата(p2004r @ 24.11.2014 - 13:22) ...   24.11.2014 - 13:57
|- - p2004r   Цитата(nokh @ 24.11.2014 - 13:57) И ...   25.11.2014 - 11:35
- - anserovtv   Я установил MDR версии 3.0.2. В этой версии в комм...   14.11.2014 - 09:59
|- - don   Цитата(anserovtv @ 14.11.2014 - 12:5...   15.11.2014 - 19:40
- - don   Задал вопрос Jiang Gui: In qMDR, when we get a tes...   18.11.2014 - 09:31
- - anserovtv   Цитатаdon Почему вычисляется одно единственное зна...   29.12.2014 - 22:40


Добавить ответ в эту темуОткрыть тему