Микрочиповые исследования, Microarray analysis - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Микрочиповые исследования, Microarray analysis, особенности статистического анализа

nokh Просмотр профиля	27.12.2017 - 01:07 Сообщение #1
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Предлагаю поделиться опытом и обсудить в этой ветке особенности статистического анализа результатов микрочиповых исследований. Экспрессия генов и иммуносигнатуры. Одноканальные и двухканальные данные. Препроцессинг, статистика для дифференциальной диагностики и постпроцессинг. Кластеризация, температурные карты, чувствительность и специфичность алгоритмов дифференциальной диагностики. Сетевой анализ и.т.п. После 1,5 мес. вхождения в тему остались вопросы и неотреагированные эмоции : Пока есть неудовлетворённость по следующим вопросам. 1) Изменчивость между чипами и внутри чипов до препроцессинга. Расчёт компонентов дисперсии по имеющимся данным дал 60% межчиповой изменчивости не связанной с индивидуальными и групповыми различиями, т.е. 60% технической изменчивости! Сколько шума считается допустимым? 2) Результаты анализа сильно, а возможно и целиком, зависят от препроцессинга. Используется несколько распространённых способов нормализации данных для устранения технической изменчивости: от медианной нормализации до квантильной и далее. То что "далее" подвергает сомнению всё что было "до" и этот процесс не заканчивается. Чем пользуетесь вы? 3) Объединение информации с двух каналов (Red, Green). Вызывает вопросы использование отношения интенсивностей R/G (так называемая М-часть данных для MA plot). Деление - самое неточное действие, усиливающее погрешности данных. Почему как-то не принято использовать A-часть, т.е. среднее: (R+G)/2? 4) Разные методы отфильтровывания наиболее перспективных показателей из тысяч имеющихся дают совершенно разные топ-листы. Степень перекрытия сильно зависит в том числе и от длины списка. У меня получилось 50%-ное перекрытие топ-12 и примерно 5%-ное для топ-150 для усреднённых RG-данных с использованием пакетов genefilter() и limma() из проекта Bioconductor. Но мои результаты практически не совпали с результатами обработки тех же данных двумя группами людей и в других пакетах. Нужно сказать, что и у тех двух групп результаты тоже не совпали... Я не согласен с имеющимся мнением, что способы препроцессинга и выявления топа показателей являются определённой системой договорённостей - ищу способы объективизации результатов. Во что верите вы и каким статистическим инструментарием пользуетесь для укрепления своей веры? В целом сложность в том, что отдельные ветви микрочиповых исследований являются молодыми и пока не накоплено достаточно информации, чтобы с её помощью можно было поверять результаты статистики. Т.о. статистический анализ остаётся "вещью в себе" и нужно как-то эту вещь вывернуть, чтобы использовать для медико-биологических интерпретаций. Сообщение отредактировал nokh - 27.12.2017 - 02:00

ogurtsov Просмотр профиля	28.12.2017 - 22:54 Сообщение #2
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Попробуйте использовать классические подходы машинного обучения: проверяйте прогностическую ценность моделей на отложенных данных. Никакой объективности в биоинформатике пока нет, см., например, недавнюю публикацию о доле ошибок, связанных с одним только неправильным считыванием икселевских файлов, в которых оказывается всякий мусор. Не знаю, насколько все плохо с микрочипами, но я застал эпическое падение перспективной когда-то технологии SAGE. Сообщение отредактировал ogurtsov - 28.12.2017 - 22:58 Биостатистика и язык R

nokh Просмотр профиля	25.01.2018 - 09:22 Сообщение #3
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(ogurtsov @ 29.12.2017 - 00:54) Попробуйте использовать классические подходы машинного обучения: проверяйте прогностическую ценность моделей на отложенных данных. Никакой объективности в биоинформатике пока нет, см., например, недавнюю публикацию о доле ошибок, связанных с одним только неправильным считыванием икселевских файлов, в которых оказывается всякий мусор. Не знаю, насколько все плохо с микрочипами, но я застал эпическое падение перспективной когда-то технологии SAGE. Благодарю. Кроссвалидация в рамках проведённого препроцессинга показывает качество прогноза порядка 80%. Я пока штурмую R и не умею запрограммировать такую кросс-проверку, чтобы делать препроцессинг на части, а проверять на другой. К тому же беда в том, что такие процедуры как квантильная нормализация даёт разные результаты в зависимости от входящих в анализ данных и как тогда нормализовать отложенныую часть? Короче, ещё повоюю... К тому же ожидаются настоящие "отложенные данные" - следующая партия. Там и посмотрим насколько топы сигнатур будут перекрываться.

ogurtsov Просмотр профиля	25.01.2018 - 21:50 Сообщение #4
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(nokh @ 25.01.2018 - 10:22) Благодарю. Кроссвалидация в рамках проведённого препроцессинга показывает качество прогноза порядка 80%. Я пока штурмую R и не умею запрограммировать такую кросс-проверку, чтобы делать препроцессинг на части, а проверять на другой. К тому же беда в том, что такие процедуры как квантильная нормализация даёт разные результаты в зависимости от входящих в анализ данных и как тогда нормализовать отложенныую часть? Короче, ещё повоюю... К тому же ожидаются настоящие "отложенные данные" - следующая партия. Там и посмотрим насколько топы сигнатур будут перекрываться. Запрограммировать не сложно, но есть также вариант прикрутить готовую реализацию https://topepo.github.io/recipes/articles/S...le_Example.html Биостатистика и язык R

p2004r Просмотр профиля	27.01.2018 - 11:43 Сообщение #5
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 25.01.2018 - 09:22) Благодарю. Кроссвалидация в рамках проведённого препроцессинга показывает качество прогноза порядка 80%. Я пока штурмую R и не умею запрограммировать такую кросс-проверку, чтобы делать препроцессинг на части, а проверять на другой. К тому же беда в том, что такие процедуры как квантильная нормализация даёт разные результаты в зависимости от входящих в анализ данных и как тогда нормализовать отложенныую часть? Короче, ещё повоюю... К тому же ожидаются настоящие "отложенные данные" - следующая партия. Там и посмотрим насколько топы сигнатур будут перекрываться. вот готовый пакет https://cran.r-project.org/web/packages/crossval/index.html достаточно прописать свою функцию. http://r-statistics.livejournal.com/

nokh Просмотр профиля	1.02.2018 - 22:59 Сообщение #6
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	> ogurtsov, p2004r Благодарю! Буду пробовать кроссвалидацию, включающую стадию препроцессинга, когда напишу такую функцию, чтобы в процессе анализа ни разу не выпрыгнуть из R в Excel (грешу этим:)

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.