![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 ![]() |
Добрый день, коллеги.
Прошу помощи в понимании результатов анализа с помощью MDR, а также ссылок на работы, где проводился подобный анализ. Конкретно интересует как понимать графики энтропии: Также, если кто встречался, подскажите где посмотреть что то вроде руководства к программе MDR. Благодарю вас! Сообщение отредактировал don - 7.11.2014 - 08:04 |
||
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 ![]() |
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл.
Я объясню ситуацию. В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель: Модель nat,CAT_rs7943316 Т-стат (обуч) 3,8483 Т-стат (тест) 3,3525 Сходимость 9/10 На рисунке графически изображено следующее: Model Detail: Combination-----Count------ SOD Average------difference from global average 203,5074-----Predicted 'SOD' 1,A/T--------------42,0--------229,2429-----------------------------------------25,7354------------------1 1,T/T--------------32,0--------141,5875----------------------------------------_-61,9199------------------0 1,A/A--------------10,0--------215,16-------------------------------------------11,6526------------------1 2,A/T --------------64,0--------163,0594----------------------------------------_-40,448------------------0 2,T/T--------------53,0--------224,5962-----------------------------------------21,0888------------------1 2,A/A--------------28,0--------284,0429-----------------------------------------80,5354------------------1 Нулевая гипотеза, если я правильно понимаю, звучит следующим образом: Данная комбинация факторов (nat, CAT_rs...) случайным образом разделяет выборку на категории с повышенным и пониженным (относительно глобального среднего) уровнем исследуемого показателя. То есть, распределение "тестирующей Т-статистики" согласно нулевой гипотезе должно соответствовать нормальному распределению со средним = 0. Сообщение отредактировал don - 13.11.2014 - 12:53 |
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Прошу прощения, но в MDR я ничего, позволяющего вычислить р, не нашёл. Я объясню ситуацию. В результате MDR-анализа взаимосвязи нескольких SNP, пола и этнич. принадлежности с неким количественным исходом была получена следующая "лучшая" модель: Модель nat,CAT_rs7943316 Т-стат (обуч) 3,8483 Т-стат (тест) 3,3525 ... Можно воспользоваться любым онлайновым калькулятором. Например этим: http://www.graphpad.com/quickcalcs/pValue1/ . Это на сайте конторы, выпускающей серьёзный пакет по анализу регрессионных зависимостей. В графу t вбить значение t-статистики, в графу DF - число степеней свободы. При сравнении выборочного среднего с теоретическим значением число степеней свободы DF будет (n-1) (см. Zar со стр. 97). PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента. Сообщение отредактировал nokh - 15.11.2014 - 21:59 |
|
![]() |
![]() |
![]()
Сообщение
#4
|
||
Группа: Пользователи Сообщений: 24 Регистрация: 11.06.2014 Пользователь №: 26460 ![]() |
PS. MDR здесь вообще не при чём. Можно придумать миллион методов, так или иначе, сводящихся к t-распределению Стьюдента. Понимаете, я никак не могу уяснить для себя один момент. В qMDR-модель входит несколько показателей: В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы. Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки? |
|
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В каждой клетке Вы видите определенное отличие от среднего. Вопрос в том, какие из этих отличий значимы. Почему вычисляется одно единственное значение р для всей модели, а не для каждой клетки? Ну это самый простой вопрос, т.к. дальше сложнее. Значимость всегда рассчитывается для всей модели. Примеров - масса: регрессионные модели, хи-квадрат для таблиц сопряжённости, модели дисперсионного анализа... Везде получаем одну статистику и одно значение р. На то она и модель, чтобы подгонять все имеющиеся данные, соответственно и значимость считается для всех данных, а не каких-то отдельных блоков. А вот далее, уже в рамках какой-то полученной модели, может потребоваться дополнительный уточняющий анализ, например: какие наблюдения сильнее всего повлияли на уравнение регрессии, какие ячейки таблицы сопряжённости внесли наибольший вклад в значение хи-квадрат, какие группы в рамках всего дисперсионного комплекса отличались между собой. Однако такая проверка всегда проводится после оценки всей модели и проводится совсем другими статистическими техниками: поиском выбросов и влиятельных наблюдений в регрессии, поиском отклонений Фримана-Тьюки или стандартизованных остатков Хабермана для таблиц сопряжённости, путём запланированных либо апостериорных сравнений в рамках дисперсионного комплекса... Применительно к MDR мне пока многое не понятно, особенно в случае количественного отклика. Бегло посмотрел статью Jiang Gui с соавт. A Simple and Computationally Efficient Approach to Multifactor Dimensionality Reduction Analysis of Gene-Gene Interactions for Quantitative Traits, но пока так и не понял как они сводят оценку модели к t-статистике. Вообще для выбора лучшей модели обычно используются информационные критерии: байесовский или Акаике. Почему авторы пошли по другому пути? почему не считают p для моделей? почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Пока одни вопросы... А что в случае количественного отклика принимается за 0 и 1? |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Цитата почему в пакете на реализована рандомизационная процедура, если и в статьях и ответах на вопрос они рекомендуют именно её? Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Скорее всего она внешняя, просто перемешать разрушая все кореляции в датасете, но набор хоятбы пары тысяч точек будет возможет только на кластере. Перестановку можно организовать двумя способами: (1) многократным случайным разрушением связей в наборе, т.е. методом Монте-Карло и (2) перебором в точности всех возможных сочетаний (exact permutation). То, что (2) очень сложно уже проходили, но неужели и Монте-Карло на обычном ПК не пойдёт? И что значит "внешняя"? А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают... |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
И что значит "внешняя"? А вообще будет время нужно посмотреть как метод делит количественный отклик. Если только по принципу больше/меньше среднего - это очень грубо, многомерные техники куда больше информации дают... 1) То есть авторы предполагали, что перемешать собственный датасет пользователь может самостоятельно и это настолько очевидно, что не должно входить в сам пакет. 2) Я собственно именно об этом и писал всегода, проще Boruta (если преобразовать данные для использования им xFerns то и скорость ломовая получается) или аналоги прогнать на датасете (по очереди каждую целевую переменную). В мдр наверное привлекает людей, что "одним чохом" весь датасет обрабатывается пусть и грубо. (И скорее всего например bnlearn ничего не найдет в таких данных значимого). А думать как прикрутить тест значимости аналогично в многомерку проективную уже думать надо ![]() ![]() |
|
![]() |
![]() |
![]() ![]() |