Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Проблема множественных сравнений при регрессионном анализе
Антон Т.
сообщение 6.05.2018 - 12:56
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 6.05.2018
Пользователь №: 31340



Здравствуйте, уважаемые коллеги! Возможно, вопрос не совсем корректно сформулирован, однако для меня важен, прошу помощи. В доступных источниках однозначного ответа не нашел.

Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов?
Пример: есть несколько (27) локусов одного гена, задача - оценить их влияние на развитие заболевания. При использовании таблицы сопряженности 2*2 получен ряд ассоциаций. По канонам, данные результаты нужно откорректировать с учетом множественности сравнений (поправка Бонферрони, FDR и тд). При проведении регрессионного анализа в окончательном уравнении оказались те же аллели (предикторы), что и по результатам, полученным первоначально. Можно ли говорить, что мы проверили таким образом наши результаты на состоятельность с учетом множественности сравнений?

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 6.05.2018 - 14:35
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Антон Т. @ 6.05.2018 - 12:56) *
Можно ли говорить, что мы проверили таким образом наши результаты на состоятельность с учетом множественности сравнений?

Нет, нельзя. И как вообще понимать состоятельность результатов? Я бы предложил оценивать модель по прогнозной силе на новых наблюдениях.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Антон Т.
сообщение 6.05.2018 - 17:27
Сообщение #3





Группа: Пользователи
Сообщений: 3
Регистрация: 6.05.2018
Пользователь №: 31340



Попробую сформулировать иначе. Есть результаты исследования влияния достаточно большого количества признаков (12 аллелей, 29 генотипов) на небольшой выборке (130-150 человек), разделенных на подгруппы. Получен ряд ассоциаций. После коррекции на множественность сравнения общепринятыми методами (Бенжамини-Хохберга и тем более Бонферрони) результаты оказались статистически незначимы. Однако при проведении регрессионного анализа с теми же генотипами в качестве предикторов ("наличие-отсутствие"), в окончательное уравнение регрессии вошли именно те генотипы, которые были ассоциированы с заболеванием после расчета по 2*2. Получается противоречие. И неясно, что делать дальше - можно ли публиковать результаты, сославшись на результаты лог. регрессии, или воздержаться, принимая во внимание коррекцию на множественность?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 6.05.2018 - 17:34
Сообщение #4





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Антон Т. @ 6.05.2018 - 17:27) *
Попробую сформулировать иначе. Есть результаты исследования влияния достаточно большого количества признаков (12 аллелей, 29 генотипов) на небольшой выборке (130-150 человек), разделенных на подгруппы. Получен ряд ассоциаций. После коррекции на множественность сравнения общепринятыми методами (Бенжамини-Хохберга и тем более Бонферрони) результаты оказались статистически незначимы. Однако при проведении регрессионного анализа с теми же генотипами в качестве предикторов ("наличие-отсутствие"), в окончательное уравнение регрессии вошли именно те генотипы, которые были ассоциированы с заболеванием после расчета по 2*2. Получается противоречие. И неясно, что делать дальше - можно ли публиковать результаты, сославшись на результаты лог. регрессии, или воздержаться, принимая во внимание коррекцию на множественность?

Никакого противоречия нет. Для коэффициентов регрессии тоже есть своя групповая вероятность ошибки первого рода, то есть каждый по отдельности может быть "значим на уровне значимости 0.05", но это не гарантирует, что на том же уровне значимости значима вся совокупность. Опять же: как отбирали предикторы, которые вошли / не вошли? И более глобально: как оценивается качество модели и как принимается решение, что она хорошая? Какое у нее дальнейшее практическое применение?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Антон Т.
сообщение 6.05.2018 - 17:47
Сообщение #5





Группа: Пользователи
Сообщений: 3
Регистрация: 6.05.2018
Пользователь №: 31340



Модели применяются для прогнозирования риска развития заболевания на основании наличия клинических и генетических предикторов. Качество модели обычно проверяем с помощью ROC анализа с вычислением AUC. Ваши ответы прочитал, спасибо, нужно время чтобы обдумать и подтянуть мат. часть (с ней , к сожалению, слабовато похоже). Еще один вопрос - при сравнении 2 или нескольких групп по большому количеству признаков (а в генетических исследованиях подобное встречается часто) получить значимые результаты после коррекции на множественность проблематично. Читая форумы по стат. обработке , встречал мысль, что можно вводить коррекцию не по числу сравниваемых признаков (20-30-...), а только по числу сравниваемых групп, что значительно более лояльно. Насколько это корректно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.05.2018 - 21:30
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Антон Т. @ 6.05.2018 - 17:47) *
Еще один вопрос - при сравнении 2 или нескольких групп по большому количеству признаков (а в генетических исследованиях подобное встречается часто) получить значимые результаты после коррекции на множественность проблематично. Читая форумы по стат. обработке , встречал мысль, что можно вводить коррекцию не по числу сравниваемых признаков (20-30-...), а только по числу сравниваемых групп, что значительно более лояльно. Насколько это корректно?


Все процедуры коррекции заточены не на признаки и группы, а на число проверяемых гипотез: у вас может быть 4 30-мерных группы, которые вы попарно проверяете критерием Хотеллинга. Это означает, что вы проверяете Н0 целых 6 раз: 1vs.2 (p-value1), 1 vs. 3 ( c p-value2), 1 vs. 4 (p-value3), 2 vs. 3 (...), 2 vs. 4 (...), 3vs.4 (p-value6). Вот эти p-value вы и будете корректировать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.05.2018 - 23:42
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Антон Т. @ 6.05.2018 - 14:56) *
Суть вопроса - как влияет ( и влияет ли) проблема множественных сравнений на результаты регрессионного анализа? Если нет, то могут ли результаты регрессионного анализа быть способом ?проверки? значимости результатов других статистических методов? ...

Вопрос не совсем корректный, но на тот как его понял я, я бы ответил "Да". Поясню.

1). В ходе анализа таблиц сопряжённости 2х2, из всего массива информации вы вычленяете только один показатель. Помимо увеличения ошибки первого рода, которое вы отметили и о котором беспокоитесь, следует также отметить искусственное устранение взаимодействия показателей при таком подходе. Например, может оказаться, что сочетание локусов A и D приводит к эффекту, который не является суммой эффектов A и D, т.е. их совместное присутствие делает риск заболевания намного больше или намного меньше. А мутация в локусе C модифицирует взаимодействие A*D. Как всё это обнаружить, если анализировать отдельно A против остальных, D против остальных и C против остальных? A если С встречается в популяции очень редко? У меня нет готовых ответов на такие вопросы, но понятно, что проблема намного сложней, чем её пытаетесь решать вы.

2). Когда показателей много, любые поправки становятся консервативными до безобразия. Это может свести на нет любые потенциальные открытия, которые делаются на большом числе выборок или показателей. Поэтому, например, существует мнение, что поправки на множественность начинают вредить при числе групп 5 и более. С другой стороны, биоинформатики используют эти поправки даже для сотен тысяч генов. Ясно, что ни о какой "правильной" статистике здесь речи не идёт, речь идёт лишь о фильтрации данных для обнаружения перспективных показателей.

3). Теперь - что сделали вы.
3.1. Вы отфильтровали перспективные показатели хи-квадратом 2х2. С учётом пункта (1) к этому результату не следует относиться как к окончательному. Тем не менее он может быть полезен, т.к. сокращает число показателей для итоговой модели. Иначе, если это число не сократить, то для регрессионной техники потребуются объёмы выборок, которых у вас скорее всего нет. А на малых и средних выборках анализ "не пойдёт" совсем (программы будут выдавать сообщения о каких-либо ошибках) или будет выдаваться чушь. Почему регрессионный анализ у вас получился я не знаю: либо данных и впрямь много, либо использовалась какая-то пошаговая техника, либо была выбрана некорректная регрессионная техника. Мой небольшой опыт регрессионного анализа с категориальными данными скорее отрицательный. Но так или иначе,
3.2. Вы провели регрессионный анализ. В таком анализе вы учли, что показателей несколько, и все они влияют на признак одновременно. Т.е. вы получили согласованные (adjusted) оценки влияния показателей. Это гораздо лучше и точнее, чем оценки эффектов изолированных таблиц 2х2. Именно в этом смысле можно говорить о том, что регрессия что-то "подтвердила". Хотя точнее, она не подтвердила, а обработала данные полнее.
3.3. Но модель регрессионого анализа скорее всего была достаточно примитивной - аддитивной. Т.е. она учла все показатели, но только линейно, а нелинейные эффекты взаимодействия ушли в ошибку анализа. Насколько полезна такая модель? Даже если модель грубая, она может быть полезна, если позволяет делать более-менее адекватный прогноз, о чём выше уже написали.

4). Что можно было сделать. Не обязательно было фильтровать показатели таблицами сопряжённости. Если эта работа диссертационная, то пойдёт - покажете сперва дедовский статистический инструментарий, а деды это любят. Деды если не увидят среднее +/- станд. ошибку, хи-квадрат и Манна-Уитни, то могут вообще не понять, что статистическая обработка таки была. Но вообще это нерационально. Лучше сразу использовать многомерные разведочные техники типа анализа соответствий (correspondene analysis) и его канонической формы, а также техники "случайного леса" (random forest), чтобы сразу выходить на ценные для прогноза показатели и их сочетания.

5). Для построения полноценных моделей с учётом взаимодействия показателей есть специальные техники. Сталкивался немного применительно к локусам разных генов, не знаю насколько это подойдёт вам. Но погуглите на тему SNP-SNP interaction. Я когда-то ковырялся в этой программе: http://www.multifactordimensionalityreduction.org/ Также прикрепил обзор, который может быть полезен.

Сообщение отредактировал nokh - 7.05.2018 - 23:54
Прикрепленные файлы
Прикрепленный файл  poligennyy_podhod_k_issledovaniyam_poligennyh_zabolevaniy.pdf ( 227,74 килобайт ) Кол-во скачиваний: 285
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему