Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Статистика в иммунологии:, описательная статистика, сравнения, бутстреп
nokh
сообщение 12.02.2011 - 10:20
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Предлагаю участникам форума поделиться в этой ветке своим опытом анализа иммунологических данных. В последние месяцы намаялись с аспирантками иммунологами-иммуногенетиками с анализом их данных. Проблемы, которые хотелось бы обсудить:

(1) выраженные в % показатели иммунограммы после преобразования арксинуса или Фримана-Тьюки сохраняют асимметрию распределения. Пробовали Бокса-Кокса - получается; но ведь использование степенных преобразований для частот - чистейший эмпирический произвол?
(2) сложные асимметричные и, возможно, полимодальные распределения для одних показателей и ровненькие почти симметричные - для других. Получается, что даже интерлейкины не удаётся описать/сравнить единообразно.
(3) сложности с графическим представлением результатов дисперсионных анализов (ДА). Делали сложные ДА с перекрёстными и иерархическими эффектами после предварительного преобразования данных по Боксу-Коксу и получали таблицу значимости эффектов и их взаимодействий. Однако графики для непреобразованных или лог-преобразованных переменных совсем не совпадали с бокс-коксовскими. Получается, что значимые эффекты в сложной таблице результатов ДА не удаётся подкрепить графически, кроме как в никому непонятной шкале преобразования Бокса-Кокса.
(4) столь любимые иммунологами коробчатые графики (box-and-whiskers plot) не позволяют интерпретировать межгрупповые различия. А учитывая, что разные программы используют разные пороги для отнесения наблюдений к выбросам (причём для нормального распределения, что заведомо неверно) - вообще непонятно что на этих графиках изображается усами, а что выбросами. Причём авторитетных авторов статей это вообще никак не беспокоит. Вместе с тем логичные для таких данных графики с медианами и 95%-ными ДИ для медиан вообще не используются. Хотелось бы совместить на одном графике: медиану (линия), межквартильный размах (короб) и 95%-ные ДИ для медианы (усы), можно даже вручную, но не смог найти программу, где эти показатели для box-and-whiskers plot можно было бы задать вручную (мой любимый KyPlot не строит коробчатые графики:(( )

Позже выложу здесь 3 статьи по статистике в иммунологии (пока это только отвлечёт от описанных проблем), а также поделюсь нашими наработками по приведению иммунологической статистики к единообразному виду - пока на основе порядковых статистик, включая малоизвестные множественные сравнения в рамках непараметрических дисперсионных анализов Краскела-Уоллиса и Фридмана (могу с собранными формулами и примером). А позже хотелось бы обсудить ещё подход с бутстрепом.

Сообщение отредактировал nokh - 12.02.2011 - 10:21
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Yngi
сообщение 14.02.2011 - 20:28
Сообщение #2





Группа: Пользователи
Сообщений: 5
Регистрация: 19.12.2010
Пользователь №: 23055



Да в иммунологии можно пользоваться относительными величинами, но в педиатрической иммунологии лучше пользоваться абсолютными величинами (например, количество Т-клеток и т.д.). К тому же нет нормального распределения этих величин. В иностранной лит-ре отдельно описываются выбросы, медиана и квартили. Интерпретировать многочисленные данные сложно. Так и непонятно, нужно ли применять поправку Бонферони при сравнении нескольких групп?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.02.2011 - 22:57
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Yngi @ 14.02.2011 - 22:28) *
Да в иммунологии можно пользоваться относительными величинами, но в педиатрической иммунологии лучше пользоваться абсолютными величинами (например, количество Т-клеток и т.д.). К тому же нет нормального распределения этих величин. В иностранной лит-ре отдельно описываются выбросы, медиана и квартили.

Это из проблемы (4). В том то всё и дело, что часто ничего не описывают - дают то, что строит программа. А вариантов коробочных графиков много. Их ввёл в употребление в 1977 году Джон Тьюки. При этом в качестве выбросов он рассматривал значения, отстоящие от нижней и верхней квартилей на 1,5 расстояния межквартильного размаха. Почему на 1,5 - не понятно, так ему нравилось. Часть программ закладывает по умолчанию это число, и в качестве усов дают мин-макс без этих "выбросов". В каких-то дополнительно обозначаются некие "дикие" выбросы (wild outliers). Другие программы предлагают в качестве усов разные процентили или мин-макс. Поскольку толку от всех этих значений вообще нет, а 95%-ные ДИ для медиан программы не строят, мы пришли к такой форме ящика, в котором усами обозначаем просто минимум и максимум - это по крайней мере понятно и однозначно. А вообще, использование в качестве описательной статистики - порядковой статистики мне не очень нравится. Хотя пока на ней и остановились. Допустим есть 3 числа: 55, 56 и 560. Согласитесь, что это не 1, 2 и 3 как будет в порядковой статистике. Т.е. информация если в пределе и не искажается, то теряется. Поэтому и хочу обсудить и другие подходы к описанию данных, в частности - преобразования и бутстреп.
Цитата(Yngi @ 14.02.2011 - 22:28) *
Интерпретировать многочисленные данные сложно. Так и непонятно, нужно ли применять поправку Бонферони при сравнении нескольких групп?

А с поправкой Бонферрони в принципе всё ясно. Если исследователю неизвестны/недоступны более мощные варианты для множественных сравнений - сойдёт и Бонферрони. Но лично я в последнее время рассматриваю использование этой поправки скорее в качестве маркёра недостаточной квалификации исследователя. Конечно с исключениями. Но зачем сравнивать группы методами, разработанными для 2 групп, когда групп - несколько? При таком подходе, во-первых, используется только часть имеющейся информации (не используются данные о других группах), а значит идёт потеря в мощности теста. Во-вторых, результаты даже такого неоптимального сравнения дополнительно подвергаются ограничению по Бонферрони. Т.е. идёт двойная потеря мощности. Правильный подход - использование омнибусного теста с последующими попарными сравнениями внутри него . Омнибусный тест проверяет весь набор ("омнибус") простых гипотез одновременно.
Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия. Но ведь если в качестве параметрического омнибусного теста используется дисперсионный анализ никто не ищет затем попарные различия t-критерием Стьдента, все используют специализированные методы множественных сравнений. Аналогичные методы есть и для случая использования в качестве непараметрического омнибусного теста критерия Краскела-Уоллиса. Это методы: Conover-Inman (ранговый аналог Fisher's LSD), Steel-Dwass (ранговый аналог Tukey's HSD), Schaich-Hamerle и пара-тройка ещё менее распространённых. Как написал выше, формулы я собрал, но пока нет времени привести всё в законченный вид. Приведу - выложу здесь. Т.е. грамотно считать так: сначала Краскел-Уоллис, а если различия есть - выясняем за счёт каких пар с помощью множественных сравнений внутри теста Краскела-Уоллиса.

Сообщение отредактировал nokh - 14.02.2011 - 23:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 15.02.2011 - 17:04
Сообщение #4





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(nokh @ 14.02.2011 - 22:57) *
А с поправкой Бонферрони в принципе всё ясно. Если исследователю неизвестны/недоступны более мощные варианты для множественных сравнений - сойдёт и Бонферрони. Но лично я в последнее время рассматриваю использование этой поправки скорее в качестве маркёра недостаточной квалификации исследователя.

Относительно Бонферрони, все не так уж однозначно, его использование рекомендовано тогда, когда по дизайну исследования интересуют только определенные пары сравнений, и согласно которому собирались данные. Тогда это вполне оправдано. Например, интересует динамика показателя после вмешательства в зависимости от клинических групп. При этом не интересуют различия исходных значений, они как раз могут быть различны и не интересует сравнение между группами после лечения, но необходимо ответить на вопрос значимы различия между до и после воздействия в каждой группе. Для этого в некоторых программах, например GraphPad, можно отобрать нужные пары для Бонферрони. Но если нужные вам различия доказаны тестами для всех пар, то это уже не нужно. Не рекомендуется также использовать Бонферрони при сравнении 5 и более групп.

Часто при анализе динамики нарушенного в результате вмешательства показателя необходимо определить в какие сроки он приходит к прежнему уровню, тогда в дисперсионном анализе для повторных измерений графически получают картину всей динамики (например каждый месяц измеряли), на определенный период показатель близок к первоначальному и интересует только сравнение между исходным и этим значением. В зависимости от клинических групп (или других факторов) эти сроки могут быть различны, при этом не интересует вся динамика и сравнение между группами.
Цитата(nokh @ 14.02.2011 - 22:57) *
Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён.
?. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия

Да, PAST так выдает , но в самой распространенной, но не сильно лоюбимой программе Statistica в модуле Краскела-Уоллиса имеются множественные сравнения внутри этого теста, метод 1988 года, ссылка и формула в документации есть. А PAST имеет много достоинств, как и недостатков, для меня очень важно, что там есть Diversity с возможностью сравнения индексов, когда то мы на форуме считали руками t, df и p и Вы тоже интересовались сравнением числа и разнообразия осложнений. Басплатная прелесть и документация хорошая.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 21.02.2011 - 11:08
Сообщение #5





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(nokh @ 14.02.2011 - 22:57) *
Но дело в том, что достаточно часто применяют такую непараметрическую схему: сначала все группы сравнивают по Краскелу-Уоллису, а потом ищут попарные различия по Манну-Уитни, в т.ч. с поправкой Бонферрони. А это неправильно, хотя такой подход распространён. В частности одна из любимых мной программ PAST выдаёт результаты сравнений по Манну-Уитни в модуле Краскела-Уоллиса именно в качестве апостериорного (post-hoc) критерия. Но ведь если в качестве параметрического омнибусного теста используется дисперсионный анализ никто не ищет затем попарные различия t-критерием Стьдента, все используют специализированные методы множественных сравнений. Аналогичные методы есть и для случая использования в качестве непараметрического омнибусного теста критерия Краскела-Уоллиса. Это методы: Conover-Inman (ранговый аналог Fisher's LSD), Steel-Dwass (ранговый аналог Tukey's HSD), Schaich-Hamerle и пара-тройка ещё менее распространённых. Как написал выше, формулы я собрал, но пока нет времени привести всё в законченный вид. Приведу - выложу здесь. Т.е. грамотно считать так: сначала Краскел-Уоллис, а если различия есть - выясняем за счёт каких пар с помощью множественных сравнений внутри теста Краскела-Уоллиса.


Здравствуйте!

Действительно довольно часто можно увидеть работы, где сравнение групп проводится сначала по Краскелу-Уоллису, а затем проводятся попарные сравнения по Манну-Уитни с использованием поправок на множественные сравнения. Более того, в довольно хорошей книге Энди Фильда (Andy Field) - "Discovering statistics using SPSS" в качестве простого решения проблемы, автор рекомендует именно такой подход (например с применением Бонферрони). Вы могли привести ссылку, где четко написано, что такой подход неправильный? Я несомненно доверяю Вашим словам, но для того, чтобы переубедить своего коллегу, мне потребуется источник, желательно в печатном формате smile.gif

Скажите пожалуйста, будут ли существенно отличаться результаты дисперсионного анализа с поправками на множественность сравнений (Габриэля, Геймс-Ховела и др) от попарного сравнения с помощью критерия Стьюдента и применения тех же самых поправок? Я понимаю, что второй подход не является оптимальным вариантом, но действительно ли будут наши результаты значительно отличаться?

Цитата
Да, PAST так выдает , но в самой распространенной, но не сильно лоюбимой программе Statistica в модуле Краскела-Уоллиса имеются множественные сравнения внутри этого теста, метод 1988 года, ссылка и формула в документации есть.


Если я не ошибаюсь, это метод Siegel & Castellan (1988), но дело в том, что он собой практически представляет аналог тестов Манна-Уитни для всех возможных сравнений. Метод основывается на вычислении разницы между средними рангов различных групп и сравнения этого значения со значением z-критерия (скорректированного по числу сравнений, которые были проведены) и константой, которая базируется на общем размере выборки, а также числа наблюдений в каждой из 2 групп.

Сообщение отредактировал TheThing - 21.02.2011 - 11:09
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.03.2011 - 05:46
Сообщение #6





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(TheThing @ 21.02.2011 - 13:08) *
Вы могли привести ссылку, где четко написано, что такой подход неправильный? Я несомненно доверяю Вашим словам, но для того, чтобы переубедить своего коллегу, мне потребуется источник, желательно в печатном формате smile.gif

Сразу не нашёл, но посмотрю ещё - мне где-то встречалась очень близко к тому как написал. Просто отмониторил много источников в поиске нужной информации по множественным сравнениям, а оставил на компе только самое важное. Также в качестве доказательства можно использовать то, что в серьёзных книгах критерий Манна-Уитни просто не упоминается в качестве возможного пост-хок теста (например, Холлендер, Вулф (1983) Непараметрические методы статистики, или специально по множественным сравнениям: Hochberg, Tahmane (1987) Multiple comparison procedures; обе есть в сети)
Цитата(TheThing @ 21.02.2011 - 13:08) *
Скажите пожалуйста, будут ли существенно отличаться результаты дисперсионного анализа с поправками на множественность сравнений (Габриэля, Геймс-Ховела и др) от попарного сравнения с помощью критерия Стьюдента и применения тех же самых поправок? Я понимаю, что второй подход не является оптимальным вариантом, но действительно ли будут наши результаты значительно отличаться?

Может и не будут, но ведь дело в принципе: адекватную или неадекватную статистическую модель мы применяем к данным. Если заведомо неадекватную - то как можно на что-то надеяться? Это как ходить с картой одного города по другому: ерунда, что не подходит, но ведь и названия ряда улиц одинаковы, и разбивка на кварталы похожа, с картой-то ведь всяко лучше чем без неё! smile.gif
Цитата(TheThing @ 21.02.2011 - 13:08) *
Если я не ошибаюсь, это метод Siegel & Castellan (1988), ...

Тоже так сначала думал. Оказалось не так. Это - критерий Данна. Он был предложен в 1964 г. Данном (Dunn, 1964), однако распространение получил после 1988 г, когда был приведён в книге Сьегля и Кастеллана (Siegel, Castellan, 1988) и потому в некоторых работах необоснованно называется их именами (Siegel-Castellan test). Аналогично, Критерий Шайха-Хамерли (1984) является в действительности ещё одним критерием Немени (Nemenyi, 1963).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 2.03.2011 - 12:23
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



3 статьи по статистике в иммунологии за 1992, 1997 и 2007 гг здесь: http://ifolder.ru/22187951
Последняя - в свободном доступе: http://www.biomedcentral.com/1471-2172/8/27
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 9.09.2011 - 12:50
Сообщение #8





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



далеко от темы...

http://onlinelibrary.wiley.com/doi/10.1046...0199.x/abstract

Сообщение отредактировал bubnilkin - 9.09.2011 - 13:10
Прикрепленные файлы
Прикрепленный файл  Critical_Immune_and_Vaccination.pdf ( 2,55 мегабайт ) Кол-во скачиваний: 499
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
maxandron
сообщение 24.09.2014 - 13:27
Сообщение #9





Группа: Пользователи
Сообщений: 14
Регистрация: 15.06.2014
Пользователь №: 26464



Цитата(nokh @ 2.03.2011 - 12:23) *
3 статьи по статистике в иммунологии за 1992, 1997 и 2007 гг здесь: http://ifolder.ru/22187951
Последняя - в свободном доступе: http://www.biomedcentral.com/1471-2172/8/27

Здравствуйте! Спасибо за ссылки. Последнюю статью нашел. А две предыдущие (за 1992 и 1997)... Можете выложить их снова. Может у Вас есть еще руководства или книги есть по обработке данных именно в иммунологии? Буду очень благодарен, если поделитесь. Спасибо за помощь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.09.2014 - 17:54
Сообщение #10





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(maxandron @ 24.09.2014 - 16:27) *
Здравствуйте! Спасибо за ссылки. Последнюю статью нашел. А две предыдущие (за 1992 и 1997)... Можете выложить их снова. Может у Вас есть еще руководства или книги есть по обработке данных именно в иммунологии? Буду очень благодарен, если поделитесь. Спасибо за помощь.

Хорошего руководства пока не нашли, скорее всего его нет и нужно писать:) Толку от этих 3 статей немного, но вот они: https://yadi.sk/d/U0b3xwrRbe6w7
На этом форуме полезной информации больше.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
maxandron
сообщение 26.09.2014 - 02:13
Сообщение #11





Группа: Пользователи
Сообщений: 14
Регистрация: 15.06.2014
Пользователь №: 26464



Цитата(nokh @ 24.09.2014 - 17:54) *
Хорошего руководства пока не нашли, скорее всего его нет и нужно писать:) Толку от этих 3 статей немного, но вот они: https://yadi.sk/d/U0b3xwrRbe6w7
На этом форуме полезной информации больше.

Спасибо за статьи. Согласен, что на форуме очень много полезной информации. Буду ждать появления руководства по стат. обработке данных в иммунологии.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 13.09.2015 - 01:25
Сообщение #12





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Цитата(nokh @ 24.09.2014 - 17:54) *
Хорошего руководства пока не нашли, скорее всего его нет и нужно писать:)

nokh, случаем, не появились ли мысли по этой теме? rolleyes.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 14.09.2015 - 18:28
Сообщение #13





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(bubnilkin @ 13.09.2015 - 03:25) *
nokh, случаем, не появились ли мысли по этой теме? rolleyes.gif

Чем дальше, тем больше склоняюсь в пользу ресемплинг-техник: рандомизационных тестов, бутстрепа, складного ножа (понравилась эта старая техника). Они и задачу решают, и + это - сегодняшний день в анализе данных. Проблема в том, что универсального софта нет, точнее есть в виде R, но он для начального уровня плох. Сейчас по мере появления свободного времени хочу посмотреть всякие графические присадки к R: RKWard, Deductor и т.п, а также специализированные пакеты под R со своим графическим интерфейсом, который смогут осилить аспиранты и продвинутые студенты. RCommaner чем дальше тем больше, скоро наверное будет тупо вообще все имеющиеся пакеты с cran подгружать...

Ещё появились еретические мысли по поводу бутстрепа в случае многопеременных техник и особенно в случае иммунологии. Делился ими здесь:
http://r-statistics.livejournal.com/61797.html
Буду признателен за критику, мысли, опыт и т.п.

Сообщение отредактировал nokh - 14.09.2015 - 18:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.09.2015 - 20:54
Сообщение #14





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 14.09.2015 - 18:28) *
Ещё появились еретические мысли по поводу бутстрепа в случае многопеременных техник и особенно в случае иммунологии. Делился ими здесь:
http://r-statistics.livejournal.com/61797.html
Буду признателен за критику, мысли, опыт и т.п.


Представляется, что "складной нож" чувствителен к "аномально выпадающим значениям", тогда как бутстреп нет(или как минимум значительно менее). И бутстреп (по результатам статьи по ссылке по ссылке) иногда "неправильно готовят" -- не проверяют на сходимость. А чем более экстремальное значение надо снабдить доверительным интервалом, тем больше объем перевыборок понадобиться (чисто случайных, никак не соображу можно ли принципиально как то приспособить здесь технику монтекарло с псевдослучайными числами).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
bubnilkin
сообщение 15.09.2015 - 16:35
Сообщение #15





Группа: Пользователи
Сообщений: 79
Регистрация: 18.01.2010
Пользователь №: 9836



Цитата(nokh @ 14.09.2015 - 18:28) *
...больше склоняюсь в пользу ресемплинг-техник: рандомизационных тестов, бутстрепа, складного ножа... это - сегодняшний день в анализе данных
Не подбросите литературы, доступной для понимания?

Цитата(nokh @ 14.09.2015 - 18:28) *
...универсального софта нет, точнее есть в виде R, но он для начального уровня плох...
Возможно, поможет бесплатное решение SAS University Edition (http://www.sas.com/en_us/software/university-edition.html).
(Сам, правда, не пользовался и на SAS не работаю smile.gif.)
Там есть модуль SAS/IML, который (если я правильно понимаю) имеет отношение к перечисленным выше техникам; из него в SAS можно кодить на R.
Что-то посмотреть можно в блоге: http://blogs.sas.com/content/iml/tag/boots...-and-resampling .
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему