Вопрос по MDR - Форум врачей-аспирантов

Вопрос по MDR, Multifactor Dimensionality Reductin

Опции

don

7.11.2014 - 07:25

Сообщение #1

Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460

Добрый день, коллеги.
Прошу помощи в понимании результатов анализа с помощью MDR, а также ссылок на работы, где проводился подобный анализ.
Конкретно интересует как понимать графики энтропии:

Также, если кто встречался, подскажите где посмотреть что то вроде руководства к программе MDR.

Благодарю вас!

Сообщение отредактировал don - 7.11.2014 - 08:04

Ответить с цитированием данного сообщения

Ответов

don

13.11.2014 - 12:45

Сообщение #2

Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460

Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию.
В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель:

Модель
nat,CAT_rs7943316
Т-стат (обуч)
3,8483
Т-стат (тест)
3,3525
Сходимость
9/10

На рисунке графически изображено следующее:
Model Detail:

Combination-----Count------ SOD Average------difference from global average 203,5074-----Predicted 'SOD'

1,A/T--------------42,0--------229,2429-----------------------------------------25,7354------------------1
1,T/T--------------32,0--------141,5875----------------------------------------_-61,9199------------------0
1,A/A--------------10,0--------215,16-------------------------------------------11,6526------------------1
2,A/T --------------64,0--------163,0594----------------------------------------_-40,448------------------0
2,T/T--------------53,0--------224,5962-----------------------------------------21,0888------------------1
2,A/A--------------28,0--------284,0429-----------------------------------------80,5354------------------1

Нулевая гипотеза, если я правильно понимаю, звучит следующим образом:
Данная комбинация факторов (nat, CAT_rs...) случайным образом разделяет выборку на категории с повышенным и пониженным (относительно глобального среднего) уровнем исследуемого показателя. То есть, распределение "тестирующей Т-статистики" согласно нулевой гипотезе должно соответствовать нормальному распределению со средним = 0.

Сообщение отредактировал don - 13.11.2014 - 12:53

nokh Просмотр профиля	15.11.2014 - 18:12 Сообщение #3
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(don @ 13.11.2014 - 15:45) Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл. Я объясню ситуацию. В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель: Модель nat,CAT_rs7943316 Т-стат (обуч) 3,8483 Т-стат (тест) 3,3525 ... Можно воспользоваться любым онлайновым калькулятором. Например этим: http://www.graphpad.com/quickcalcs/pValue1/ . Это на сайте конторы, выпускающей серьёзный пакет по анализу регрессионных зависимостей. В графу t вбить значение t-статистики, в графу DF - число степеней свободы. При сравнении выборочного среднего с теоретическим значением число степеней свободы DF будет (n-1) (см. Zar со стр. 97). PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента. Сообщение отредактировал nokh - 15.11.2014 - 21:59

don

17.11.2014 - 12:06

Сообщение #4

Группа: Пользователи
Сообщений: 24
Регистрация: 11.06.2014
Пользователь №: 26460

Цитата(nokh @ 15.11.2014 - 21:12)

PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента.

Понимаете, я никак не могу уяснить для себя один момент.
В qMDR-модель входит несколько показателей:

В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы.
Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки?

nokh Просмотр профиля	21.11.2014 - 13:13 Сообщение #5
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(don @ 17.11.2014 - 15:06) В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы. Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки? Ну это самый простой вопрос, т.к. дальше сложнее. Значимость всегда рассчитывается для всей модели. Примеров - масса: регрессионные модели, хи-квадрат для таблиц сопряжённости, модели дисперсионного анализа... Везде получаем одну статистику и одно значение р. На то она и модель, чтобы подгонять все имеющиеся данные, соответственно и значимость считается для всех данных, а не каких-то отдельных блоков. А вот далее, уже в рамках какой-то полученной модели, может потребоваться дополнительный уточняющий анализ, например: какие наблюдения сильнее всего повлияли на уравнение регрессии, какие ячейки таблицы сопряжённости внесли наибольший вклад в значение хи-квадрат, какие группы в рамках всего дисперсионного комплекса отличались между собой. Однако такая проверка всегда проводится после оценки всей модели и проводится совсем другими статистическими техниками: поиском выбросов и влиятельных наблюдений в регрессии, поиском отклонений Фримана-Тьюки или стандартизованных остатков Хабермана для таблиц сопряжённости, путём запланированных либо апостериорных сравнений в рамках дисперсионного комплекса... Применительно к MDR мне пока многое не понятно, особенно в случае количественного отклика. Бегло посмотрел статью Jiang Gui с соавт. A Simple and Computationally Efficient Approach to Multifactor Dimensionality Reduction Analysis of Gene-Gene Interactions for Quantitative Traits, но пока так и не понял как они сводят оценку модели к t-статистике. Вообще для выбора лучшей модели обычно используются информационные критерии: байесовский или Акаике. Почему авторы пошли по другому пути? почему не считают p для моделей? почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Пока одни вопросы... А что в случае количественного отклика принимается за 0 и 1?

p2004r Просмотр профиля	24.11.2014 - 10:22 Сообщение #6
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. http://r-statistics.livejournal.com/

nokh Просмотр профиля	24.11.2014 - 13:57 Сообщение #7
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(p2004r @ 24.11.2014 - 13:22) Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. Перестановку можно организовать двумя способами: (1) многократным случайным разрушением связей в наборе, т.е. методом Монте-Карло и (2) перебором в точности всех возможных сочетаний (exact permutation). То, что (2) очень сложно уже проходили, но неужели и Монте-Карло на обычном ПК не пойдёт? И что значит "внешняя"? А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают...

p2004r Просмотр профиля	25.11.2014 - 11:35 Сообщение #8
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 24.11.2014 - 13:57) И что значит "внешняя"? А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают... 1) То есть авторы предполагали, что перемешать собственный датасет пользователь может самостоятельно и это настолько очевидно, что не должно входить в сам пакет. 2) Я собственно именно об этом и писал всегода, проще Boruta (если преобразовать данные для использования им xFerns то и скорость ломовая получается) или аналоги прогнать на датасете (по очереди каждую целевую переменную). В мдр наверное привлекает людей, что "одним чохом" весь датасет обрабатывается пусть и грубо. (И скорее всего например bnlearn ничего не найдет в таких данных значимого). А думать как прикрутить тест значимости аналогично в многомерку проективную уже думать надо http://r-statistics.livejournal.com/

Сообщений в этой теме

don Вопрос по MDR 7.11.2014 - 07:25

don Отвечаю сам на свой вопрос http://compgen.blogspo... 7.11.2014 - 13:12

don Коллеги, подскажите пожалуйста, каким образом вычи... 12.11.2014 - 11:49

anserovtv Вы не сформулировали нулевую гипотезу, ведь t-стат... 12.11.2014 - 18:37

don Прошу прощения, но в MDR я ничего, позволяющего вы... 13.11.2014 - 12:45

nokh Цитата(don @ 13.11.2014 - 15:45) Про... 15.11.2014 - 18:12

don Цитата(nokh @ 15.11.2014 - 21:12) PS... 17.11.2014 - 12:06

nokh Цитата(don @ 17.11.2014 - 15:06) В к... 21.11.2014 - 13:13

don Цитата(nokh @ 21.11.2014 - 16:13) А ... 24.11.2014 - 09:45

p2004r Цитатапочему в пакете на реализована рандомизацион... 24.11.2014 - 10:22

don Цитата(p2004r @ 24.11.2014 - 13:22) ... 24.11.2014 - 11:05

nokh Цитата(p2004r @ 24.11.2014 - 13:22) ... 24.11.2014 - 13:57

p2004r Цитата(nokh @ 24.11.2014 - 13:57) И ... 25.11.2014 - 11:35

anserovtv Я установил MDR версии 3.0.2. В этой версии в комм... 14.11.2014 - 09:59

don Цитата(anserovtv @ 14.11.2014 - 12:5... 15.11.2014 - 19:40

don Задал вопрос Jiang Gui: In qMDR, when we get a tes... 18.11.2014 - 09:31

anserovtv Цитатаdon Почему вычисляется одно единственное зна... 29.12.2014 - 22:40

« Предыдущая тема · Медицинская статистика · Следующая тема »