Статистика в иммунологии:, описательная статистика, сравнения, бутстреп |
Здравствуйте, гость ( Вход | Регистрация )
Статистика в иммунологии:, описательная статистика, сравнения, бутстреп |
12.02.2011 - 10:20
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Предлагаю участникам форума поделиться в этой ветке своим опытом анализа иммунологических данных. В последние месяцы намаялись с аспирантками иммунологами-иммуногенетиками с анализом их данных. Проблемы, которые хотелось бы обсудить:
(1) выраженные в % показатели иммунограммы после преобразования арксинуса или Фримана-Тьюки сохраняют асимметрию распределения. Пробовали Бокса-Кокса - получается; но ведь использование степенных преобразований для частот - чистейший эмпирический произвол? (2) сложные асимметричные и, возможно, полимодальные распределения для одних показателей и ровненькие почти симметричные - для других. Получается, что даже интерлейкины не удаётся описать/сравнить единообразно. (3) сложности с графическим представлением результатов дисперсионных анализов (ДА). Делали сложные ДА с перекрёстными и иерархическими эффектами после предварительного преобразования данных по Боксу-Коксу и получали таблицу значимости эффектов и их взаимодействий. Однако графики для непреобразованных или лог-преобразованных переменных совсем не совпадали с бокс-коксовскими. Получается, что значимые эффекты в сложной таблице результатов ДА не удаётся подкрепить графически, кроме как в никому непонятной шкале преобразования Бокса-Кокса. (4) столь любимые иммунологами коробчатые графики (box-and-whiskers plot) не позволяют интерпретировать межгрупповые различия. А учитывая, что разные программы используют разные пороги для отнесения наблюдений к выбросам (причём для нормального распределения, что заведомо неверно) - вообще непонятно что на этих графиках изображается усами, а что выбросами. Причём авторитетных авторов статей это вообще никак не беспокоит. Вместе с тем логичные для таких данных графики с медианами и 95%-ными ДИ для медиан вообще не используются. Хотелось бы совместить на одном графике: медиану (линия), межквартильный размах (короб) и 95%-ные ДИ для медианы (усы), можно даже вручную, но не смог найти программу, где эти показатели для box-and-whiskers plot можно было бы задать вручную (мой любимый KyPlot не строит коробчатые графики:(( ) Позже выложу здесь 3 статьи по статистике в иммунологии (пока это только отвлечёт от описанных проблем), а также поделюсь нашими наработками по приведению иммунологической статистики к единообразному виду - пока на основе порядковых статистик, включая малоизвестные множественные сравнения в рамках непараметрических дисперсионных анализов Краскела-Уоллиса и Фридмана (могу с собранными формулами и примером). А позже хотелось бы обсудить ещё подход с бутстрепом. Сообщение отредактировал nokh - 12.02.2011 - 10:21 |
|
14.02.2011 - 20:28
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 5 Регистрация: 19.12.2010 Пользователь №: 23055 |
Да в иммунологии можно пользоваться относительными величинами, но в педиатрической иммунологии лучше пользоваться абсолютными величинами (например, количество Т-клеток и т.д.). К тому же нет нормального распределения этих величин. В иностранной лит-ре отдельно описываются выбросы, медиана и квартили. Интерпретировать многочисленные данные сложно. Так и непонятно, нужно ли применять поправку Бонферони при сравнении нескольких групп?
|
|
14.02.2011 - 22:57
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Да в иммунологии можно пользоваться относительными величинами, но в педиатрической иммунологии лучше пользоваться абсолютными величинами (например, количество Т-клеток и т.д.). К тому же нет нормального распределения этих величин. В иностранной лит-ре отдельно описываются выбросы, медиана и квартили. Это из проблемы (4). В том то всё и дело, что часто ничего не описывают - дают то, что строит программа. А вариантов коробочных графиков много. Их ввёл в употребление в 1977 году Джон Тьюки. При этом в качестве выбросов он рассматривал значения, отстоящие от нижней и верхней квартилей на 1,5 расстояния межквартильного размаха. Почему на 1,5 - не понятно, так ему нравилось. Часть программ закладывает по умолчанию это число, и в качестве усов дают мин-макс без этих "выбросов". В каких-то дополнительно обозначаются некие "дикие" выбросы (wild outliers). Другие программы предлагают в качестве усов разные процентили или мин-макс. Поскольку толку от всех этих значений вообще нет, а 95%-ные ДИ для медиан программы не строят, мы пришли к такой форме ящика, в котором усами обозначаем просто минимум и максимум - это по крайней мере понятно и однозначно. А вообще, использование в качестве описательной статистики - порядковой статистики мне не очень нравится. Хотя пока на ней и остановились. Допустим есть 3 числа: 55, 56 и 560. Согласитесь, что это не 1, 2 и 3 как будет в порядковой статистике. Т.е. информация если в пределе и не искажается, то теряется. Поэтому и хочу обсудить и другие подходы к описанию данных, в частности - преобразования и бутстреп. Интерпретировать многочисленные данные сложно. Так и непонятно, нужно ли применять поправку Бонферони при сравнении нескольких групп? А с поправкой Бонферрони в принципе всё ясно. Если исследователю неизвестны/недоступны более мощные варианты для множественных сравнений - сойдёт и Бонферрони. Но лично я в последнее время рассматриваю использование этой поправки скорее в качестве маркёра недостаточной квалификации исследователя. Конечно с исключениями. Но зачем сравнивать группы методами, разработанными для 2 групп, когда групп - несколько? При таком подходе, во-первых, используется только часть имеющейся информации (не используются данные о других группах), а значит идёт потеря в мощности теста. Во-вторых, результаты даже такого неоптимального сравнения дополнительно подвергаются ограничению по Бонферрони. Т.е. идёт двойная потеря мощности. Правильный подход - использование омнибусного теста с последующими попарными сравнениями внутри него . Омнибусный тест проверяет весь набор ("омнибус") простых гипотез одновременно. Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия. Но ведь если в качестве параметрического омнибусного теста используется дисперсионный анализ никто не ищет затем попарные различия t-критерием Стьдента, все используют специализированные методы множественных сравнений. Аналогичные методы есть и для случая использования в качестве непараметрического омнибусного теста критерия Краскела-Уоллиса. Это методы: Conover-Inman (ранговый аналог Fisher's LSD), Steel-Dwass (ранговый аналог Tukey's HSD), Schaich-Hamerle и пара-тройка ещё менее распространённых. Как написал выше, формулы я собрал, но пока нет времени привести всё в законченный вид. Приведу - выложу здесь. Т.е. грамотно считать так: сначала Краскел-Уоллис, а если различия есть - выясняем за счёт каких пар с помощью множественных сравнений внутри теста Краскела-Уоллиса. Сообщение отредактировал nokh - 14.02.2011 - 23:23 |
|
15.02.2011 - 17:04
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
А с поправкой Бонферрони в принципе всё ясно. Если исследователю неизвестны/недоступны более мощные варианты для множественных сравнений - сойдёт и Бонферрони. Но лично я в последнее время рассматриваю использование этой поправки скорее в качестве маркёра недостаточной квалификации исследователя. Относительно Бонферрони, все не так уж однозначно, его использование рекомендовано тогда, когда по дизайну исследования интересуют только определенные пары сравнений, и согласно которому собирались данные. Тогда это вполне оправдано. Например, интересует динамика показателя после вмешательства в зависимости от клинических групп. При этом не интересуют различия исходных значений, они как раз могут быть различны и не интересует сравнение между группами после лечения, но необходимо ответить на вопрос значимы различия между до и после воздействия в каждой группе. Для этого в некоторых программах, например GraphPad, можно отобрать нужные пары для Бонферрони. Но если нужные вам различия доказаны тестами для всех пар, то это уже не нужно. Не рекомендуется также использовать Бонферрони при сравнении 5 и более групп. Часто при анализе динамики нарушенного в результате вмешательства показателя необходимо определить в какие сроки он приходит к прежнему уровню, тогда в дисперсионном анализе для повторных измерений графически получают картину всей динамики (например каждый месяц измеряли), на определенный период показатель близок к первоначальному и интересует только сравнение между исходным и этим значением. В зависимости от клинических групп (или других факторов) эти сроки могут быть различны, при этом не интересует вся динамика и сравнение между группами. Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён. ?. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия Да, PAST так выдает , но в самой распространенной, но не сильно лоюбимой программе Statistica в модуле Краскела-Уоллиса имеются множественные сравнения внутри этого теста, метод 1988 года, ссылка и формула в документации есть. А PAST имеет много достоинств, как и недостатков, для меня очень важно, что там есть Diversity с возможностью сравнения индексов, когда то мы на форуме считали руками t, df и p и Вы тоже интересовались сравнением числа и разнообразия осложнений. Басплатная прелесть и документация хорошая. |
|
21.02.2011 - 11:08
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия. Но ведь если в качестве параметрического омнибусного теста используется дисперсионный анализ никто не ищет затем попарные различия t-критерием Стьдента, все используют специализированные методы множественных сравнений. Аналогичные методы есть и для случая использования в качестве непараметрического омнибусного теста критерия Краскела-Уоллиса. Это методы: Conover-Inman (ранговый аналог Fisher's LSD), Steel-Dwass (ранговый аналог Tukey's HSD), Schaich-Hamerle и пара-тройка ещё менее распространённых. Как написал выше, формулы я собрал, но пока нет времени привести всё в законченный вид. Приведу - выложу здесь. Т.е. грамотно считать так: сначала Краскел-Уоллис, а если различия есть - выясняем за счёт каких пар с помощью множественных сравнений внутри теста Краскела-Уоллиса. Здравствуйте! Действительно довольно часто можно увидеть работы, где сравнение групп проводится сначала по Краскелу-Уоллису, а затем проводятся попарные сравнения по Манну-Уитни с использованием поправок на множественные сравнения. Более того, в довольно хорошей книге Энди Фильда (Andy Field) - "Discovering statistics using SPSS" в качестве простого решения проблемы, автор рекомендует именно такой подход (например с применением Бонферрони). Вы могли привести ссылку, где четко написано, что такой подход неправильный? Я несомненно доверяю Вашим словам, но для того, чтобы переубедить своего коллегу, мне потребуется источник, желательно в печатном формате Скажите пожалуйста, будут ли существенно отличаться результаты дисперсионного анализа с поправками на множественность сравнений (Габриэля, Геймс-Ховела и др) от попарного сравнения с помощью критерия Стьюдента и применения тех же самых поправок? Я понимаю, что второй подход не является оптимальным вариантом, но действительно ли будут наши результаты значительно отличаться? Цитата Да, PAST так выдает , но в самой распространенной, но не сильно лоюбимой программе Statistica в модуле Краскела-Уоллиса имеются множественные сравнения внутри этого теста, метод 1988 года, ссылка и формула в документации есть. Если я не ошибаюсь, это метод Siegel & Castellan (1988), но дело в том, что он собой практически представляет аналог тестов Манна-Уитни для всех возможных сравнений. Метод основывается на вычислении разницы между средними рангов различных групп и сравнения этого значения со значением z-критерия (скорректированного по числу сравнений, которые были проведены) и константой, которая базируется на общем размере выборки, а также числа наблюдений в каждой из 2 групп. Сообщение отредактировал TheThing - 21.02.2011 - 11:09 |
|
1.03.2011 - 05:46
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вы могли привести ссылку, где четко написано, что такой подход неправильный? Я несомненно доверяю Вашим словам, но для того, чтобы переубедить своего коллегу, мне потребуется источник, желательно в печатном формате Сразу не нашёл, но посмотрю ещё - мне где-то встречалась очень близко к тому как написал. Просто отмониторил много источников в поиске нужной информации по множественным сравнениям, а оставил на компе только самое важное. Также в качестве доказательства можно использовать то, что в серьёзных книгах критерий Манна-Уитни просто не упоминается в качестве возможного пост-хок теста (например, Холлендер, Вулф (1983) Непараметрические методы статистики, или специально по множественным сравнениям: Hochberg, Tahmane (1987) Multiple comparison procedures; обе есть в сети) Скажите пожалуйста, будут ли существенно отличаться результаты дисперсионного анализа с поправками на множественность сравнений (Габриэля, Геймс-Ховела и др) от попарного сравнения с помощью критерия Стьюдента и применения тех же самых поправок? Я понимаю, что второй подход не является оптимальным вариантом, но действительно ли будут наши результаты значительно отличаться? Может и не будут, но ведь дело в принципе: адекватную или неадекватную статистическую модель мы применяем к данным. Если заведомо неадекватную - то как можно на что-то надеяться? Это как ходить с картой одного города по другому: ерунда, что не подходит, но ведь и названия ряда улиц одинаковы, и разбивка на кварталы похожа, с картой-то ведь всяко лучше чем без неё! Если я не ошибаюсь, это метод Siegel & Castellan (1988), ... Тоже так сначала думал. Оказалось не так. Это - критерий Данна. Он был предложен в 1964 г. Данном (Dunn, 1964), однако распространение получил после 1988 г, когда был приведён в книге Сьегля и Кастеллана (Siegel, Castellan, 1988) и потому в некоторых работах необоснованно называется их именами (Siegel-Castellan test). Аналогично, Критерий Шайха-Хамерли (1984) является в действительности ещё одним критерием Немени (Nemenyi, 1963). |
|
2.03.2011 - 12:23
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
3 статьи по статистике в иммунологии за 1992, 1997 и 2007 гг здесь: http://ifolder.ru/22187951
Последняя - в свободном доступе: http://www.biomedcentral.com/1471-2172/8/27 |
|
9.09.2011 - 12:50
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
далеко от темы...
http://onlinelibrary.wiley.com/doi/10.1046...0199.x/abstract Сообщение отредактировал bubnilkin - 9.09.2011 - 13:10
Прикрепленные файлы
|
|
24.09.2014 - 13:27
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 15.06.2014 Пользователь №: 26464 |
3 статьи по статистике в иммунологии за 1992, 1997 и 2007 гг здесь: http://ifolder.ru/22187951 Последняя - в свободном доступе: http://www.biomedcentral.com/1471-2172/8/27 Здравствуйте! Спасибо за ссылки. Последнюю статью нашел. А две предыдущие (за 1992 и 1997)... Можете выложить их снова. Может у Вас есть еще руководства или книги есть по обработке данных именно в иммунологии? Буду очень благодарен, если поделитесь. Спасибо за помощь. |
|
24.09.2014 - 17:54
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Здравствуйте! Спасибо за ссылки. Последнюю статью нашел. А две предыдущие (за 1992 и 1997)... Можете выложить их снова. Может у Вас есть еще руководства или книги есть по обработке данных именно в иммунологии? Буду очень благодарен, если поделитесь. Спасибо за помощь. Хорошего руководства пока не нашли, скорее всего его нет и нужно писать:) Толку от этих 3 статей немного, но вот они: https://yadi.sk/d/U0b3xwrRbe6w7 На этом форуме полезной информации больше. |
|
26.09.2014 - 02:13
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 15.06.2014 Пользователь №: 26464 |
Хорошего руководства пока не нашли, скорее всего его нет и нужно писать:) Толку от этих 3 статей немного, но вот они: https://yadi.sk/d/U0b3xwrRbe6w7 На этом форуме полезной информации больше. Спасибо за статьи. Согласен, что на форуме очень много полезной информации. Буду ждать появления руководства по стат. обработке данных в иммунологии. |
|
13.09.2015 - 01:25
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
|
|
14.09.2015 - 18:28
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
nokh, случаем, не появились ли мысли по этой теме? Чем дальше, тем больше склоняюсь в пользу ресемплинг-техник: рандомизационных тестов, бутстрепа, складного ножа (понравилась эта старая техника). Они и задачу решают, и + это - сегодняшний день в анализе данных. Проблема в том, что универсального софта нет, точнее есть в виде R, но он для начального уровня плох. Сейчас по мере появления свободного времени хочу посмотреть всякие графические присадки к R: RKWard, Deductor и т.п, а также специализированные пакеты под R со своим графическим интерфейсом, который смогут осилить аспиранты и продвинутые студенты. RCommaner чем дальше тем больше, скоро наверное будет тупо вообще все имеющиеся пакеты с cran подгружать... Ещё появились еретические мысли по поводу бутстрепа в случае многопеременных техник и особенно в случае иммунологии. Делился ими здесь: http://r-statistics.livejournal.com/61797.html Буду признателен за критику, мысли, опыт и т.п. Сообщение отредактировал nokh - 14.09.2015 - 18:29 |
|
14.09.2015 - 20:54
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Ещё появились еретические мысли по поводу бутстрепа в случае многопеременных техник и особенно в случае иммунологии. Делился ими здесь: http://r-statistics.livejournal.com/61797.html Буду признателен за критику, мысли, опыт и т.п. Представляется, что "складной нож" чувствителен к "аномально выпадающим значениям", тогда как бутстреп нет(или как минимум значительно менее). И бутстреп (по результатам статьи по ссылке по ссылке) иногда "неправильно готовят" -- не проверяют на сходимость. А чем более экстремальное значение надо снабдить доверительным интервалом, тем больше объем перевыборок понадобиться (чисто случайных, никак не соображу можно ли принципиально как то приспособить здесь технику монтекарло с псевдослучайными числами). |
|
15.09.2015 - 16:35
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 79 Регистрация: 18.01.2010 Пользователь №: 9836 |
...больше склоняюсь в пользу ресемплинг-техник: рандомизационных тестов, бутстрепа, складного ножа... это - сегодняшний день в анализе данных Не подбросите литературы, доступной для понимания?...универсального софта нет, точнее есть в виде R, но он для начального уровня плох... Возможно, поможет бесплатное решение SAS University Edition (http://www.sas.com/en_us/software/university-edition.html).(Сам, правда, не пользовался и на SAS не работаю .) Там есть модуль SAS/IML, который (если я правильно понимаю) имеет отношение к перечисленным выше техникам; из него в SAS можно кодить на R. Что-то посмотреть можно в блоге: http://blogs.sas.com/content/iml/tag/boots...-and-resampling . |
|