Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Проблема множественных сравнений при регрессионном анализе
Антон Т.
сообщение 6.05.2018 - 12:56
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 6.05.2018
Пользователь №: 31340



Здравствуйте, уважаемые коллеги! Возможно, вопрос не совсем корректно сформулирован, однако для меня важен, прошу помощи. В доступных источниках однозначного ответа не нашел.

Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов?
Пример: есть несколько (27) локусов одного гена, задача - оценить их влияние на развитие заболевания. При использовании таблицы сопряженности 2*2 получен ряд ассоциаций. По канонам, данные результаты нужно откорректировать с учетом множественности сравнений (поправка Бонферрони, FDR и тд). При проведении регрессионного анализа в окончательном уравнении оказались те же аллели (предикторы), что и по результатам, полученным первоначально. Можно ли говорить, что мы проверили таким образом наши результаты на состоятельность с учетом множественности сравнений?

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 7.05.2018 - 23:42
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Антон Т. @ 6.05.2018 - 14:56) *
Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов? ...

Вопрос не совсем корректный, но на тот как его понял я, я бы ответил "Да". Поясню.

1). В ходе анализа таблиц сопряжённости 2х2, из всего массива информации вы вычленяете только один показатель. Помимо увеличения ошибки первого рода, которое вы отметили и о котором беспокоитесь, следует также отметить искусственное устранение взаимодействия показателей при таком подходе. Например, может оказаться, что сочетание локусов A и D приводит к эффекту, который не является суммой эффектов A и D, т.е. их совместное присутствие делает риск заболевания намного больше или намного меньше. А мутация в локусе C модифицирует взаимодействие A*D. Как всё это обнаружить, если анализировать отдельно A против остальных, D против остальных и C против остальных? A если С встречается в популяции очень редко? У меня нет готовых ответов на такие вопросы, но понятно, что проблема намного сложней, чем её пытаетесь решать вы.

2). Когда показателей много, любые поправки становятся консервативными до безобразия. Это может свести на нет любые потенциальные открытия, которые делаются на большом числе выборок или показателей. Поэтому, например, существует мнение, что поправки на множественность начинают вредить при числе групп 5 и более. С другой стороны, биоинформатики используют эти поправки даже для сотен тысяч генов. Ясно, что ни о какой "правильной" статистике здесь речи не идёт, речь идёт лишь о фильтрации данных для обнаружения перспективных показателей.

3). Теперь - что сделали вы.
3.1. Вы отфильтровали перспективные показатели хи-квадратом 2х2. С учётом пункта (1) к этому результату не следует относиться как к окончательному. Тем не менее он может быть полезен, т.к. сокращает число показателей для итоговой модели. Иначе, если это число не сократить, то для регрессионной техники потребуются объёмы выборок, которых у вас скорее всего нет. А на малых и средних выборках анализ "не пойдёт" совсем (программы будут выдавать сообщения о каких-либо ошибках) или будет выдаваться чушь. Почему регрессионный анализ у вас получился я не знаю: либо данных и впрямь много, либо использовалась какая-то пошаговая техника, либо была выбрана некорректная регрессионная техника. Мой небольшой опыт регрессионного анализа с категориальными данными скорее отрицательный. Но так или иначе,
3.2. Вы провели регрессионный анализ. В таком анализе вы учли, что показателей несколько, и все они влияют на признак одновременно. Т.е. вы получили согласованные (adjusted) оценки влияния показателей. Это гораздо лучше и точнее, чем оценки эффектов изолированных таблиц 2х2. Именно в этом смысле можно говорить о том, что регрессия что-то "подтвердила". Хотя точнее, она не подтвердила, а обработала данные полнее.
3.3. Но модель регрессионого анализа скорее всего была достаточно примитивной - аддитивной. Т.е. она учла все показатели, но только линейно, а нелинейные эффекты взаимодействия ушли в ошибку анализа. Насколько полезна такая модель? Даже если модель грубая, она может быть полезна, если позволяет делать более-менее адекватный прогноз, о чём выше уже написали.

4). Что можно было сделать. Не обязательно было фильтровать показатели таблицами сопряжённости. Если эта работа диссертационная, то пойдёт - покажете сперва дедовский статистический инструментарий, а деды это любят. Деды если не увидят среднее +/- станд. ошибку, хи-квадрат и Манна-Уитни, то могут вообще не понять, что статистическая обработка таки была. Но вообще это нерационально. Лучше сразу использовать многомерные разведочные техники типа анализа соответствий (correspondene analysis) и его канонической формы, а также техники "случайного леса" (random forest), чтобы сразу выходить на ценные для прогноза показатели и их сочетания.

5). Для построения полноценных моделей с учётом взаимодействия показателей есть специальные техники. Сталкивался немного применительно к локусам разных генов, не знаю насколько это подойдёт вам. Но погуглите на тему SNP-SNP interaction. Я когда-то ковырялся в этой программе: http://www.multifactordimensionalityreduction.org/ Также прикрепил обзор, который может быть полезен.

Сообщение отредактировал nokh - 7.05.2018 - 23:54
Прикрепленные файлы
Прикрепленный файл  poligennyy_podhod_k_issledovaniyam_poligennyh_zabolevaniy.pdf ( 227,74 килобайт ) Кол-во скачиваний: 291
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему