Анализ процентных показателей (лейкоцитарная формула)

Анализ процентных показателей (лейкоцитарная формула)

Jacksson Просмотр профиля	7.04.2016 - 11:40 Сообщение #1
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2016 Пользователь №: 28154	Добрый день, Требуется сравнить лейкоцитарные формулы между двумя группами пациентов (проценты лимфоцитов, нейтрофилов? и т.д.). Я, естественно, пересчитал всё в абсолютные показатели и их между собой сравнил, но требуют сравнения именно в процентах. Подскажите, пожалуйста, в каком направлении двигаться, т.к. информации по анализу относительных значений как-то весьма скудно (мягко говоря). Вроде как некорректно сравнивать средние проценты, например, лимфоцитов между группами(?). Ведь имеет место некое распределение, которое в сумме даёт единицу (100%)? Дальше ничего конкретного на ум не приходит. Заранее благодарен.

p2004r Просмотр профиля	7.04.2016 - 11:55 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Jacksson @ 7.04.2016 - 11:40) Добрый день, Требуется сравнить лейкоцитарные формулы между двумя группами пациентов (проценты лимфоцитов, нейтрофилов? и т.д.). Я, естественно, пересчитал всё в абсолютные показатели и их между собой сравнил, но требуют сравнения именно в процентах. Подскажите, пожалуйста, в каком направлении двигаться, т.к. информации по анализу относительных значений как-то весьма скудно (мягко говоря). Вроде как некорректно сравнивать средние проценты, например, лимфоцитов между группами(?). Ведь имеет место некое распределение, которое в сумме даёт единицу (100%)? Дальше ничего конкретного на ум не приходит. Заранее благодарен. Бутстрепом посчитать доверительные интервалы для процентов и показать. http://r-statistics.livejournal.com/

ogurtsov Просмотр профиля	7.04.2016 - 12:04 Сообщение #3
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Тут проценты используются умышленно. Это обычные количественные данные, никуда пересчитывать их не нужно. Биостатистика и язык R

Jacksson Просмотр профиля	7.04.2016 - 12:23 Сообщение #4
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2016 Пользователь №: 28154	Цитата(ogurtsov @ 7.04.2016 - 12:04) Тут проценты используются умышленно. Это обычные количественные данные, никуда пересчитывать их не нужно. Да, если честно, то я эти две группы пациентов и сравнил между собой как будто это не проценты, а абсолютные значения, 95% ДИ рассчитал, но почему-то "уверенности в ногах" не чувствую / "осадок остался"© Сообщение отредактировал Jacksson - 7.04.2016 - 12:24

p2004r

7.04.2016 - 13:24

Сообщение #5

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(ogurtsov @ 7.04.2016 - 12:04)

Тут проценты используются умышленно. Это обычные количественные данные, никуда пересчитывать их не нужно.

Вот только степеней свободы опять не хватает на все "показатели"

Рисуют это в пространстве уменьшенной размерности в виде т.н. тернарных графиков.https://en.wikipedia.org/wiki/Ternary_plot

Статистика тоже не такая простая в исходном пространстве.

http://www.stat.boogaart.de/compositions/

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

Ответить с цитированием данного сообщения

ogurtsov Просмотр профиля	7.04.2016 - 14:08 Сообщение #6
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(p2004r @ 7.04.2016 - 13:24) Вот только степеней свободы опять не хватает на все "показатели" Рисуют это в пространстве уменьшенной размерности в виде т.н. тернарных графиков.https://en.wikipedia.org/wiki/Ternary_plot Статистика тоже не такая простая в исходном пространстве. http://www.stat.boogaart.de/compositions/ Каких степеней свободы? Показатели лейкоцитарной формулы имеют биологическую интерпретацию именно в виде процентов, причем каждый по отдельности может оказаться важным для ответа на тот или иной вопрос. Например, если говорят о пониженном уровне сегментоядерных нейтрофилов, то в процентном выражении оно сопоставимо для разных пациентов, а в абсолютном - нет, потому что общее содержание лейкоцитов у двух пациентов может отличаться вдвое и у обоих быть в пределах "нормы" (как ее определяют во врачебной практике). Сообщение отредактировал ogurtsov - 7.04.2016 - 14:12 Биостатистика и язык R

p2004r Просмотр профиля	7.04.2016 - 14:38 Сообщение #7
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(ogurtsov @ 7.04.2016 - 14:08) Каких степеней свободы? Показатели лейкоцитарной формулы имеют биологическую интерпретацию именно в виде процентов, причем каждый по отдельности может оказаться важным для ответа на тот или иной вопрос. Например, если говорят о пониженном уровне сегментоядерных нейтрофилов, то в процентном выражении оно сопоставимо для разных пациентов, а в абсолютном - нет, потому что общее содержание лейкоцитов у двух пациентов может отличаться вдвое и у обоих быть в пределах "нормы" (как ее определяют во врачебной практике). Очень простых, как у любой суммы представленной её слагаемыми. x+y=100, тогда x _полностью_ определяет y. Нарисовать правильно x и y можно только точкой на прямой от 0 до 100 (если x>0 и y >0). А никак не графиком y по x. И попытка посчитать модель не учитывающую это будет героической, но неудачной . Вся статистика "для процентов" считается правильно только в пространстве на одно измерение меньшем чем число слагаемых для которых мы считали проценты. Я дал ссылку, если этого мало вот ещё https://en.wiki2.org/wiki/Compositional_data , http://www.sediment.uni-goettingen.de/staf.../extra/CoDa.pdf http://r-statistics.livejournal.com/

nokh Просмотр профиля	7.04.2016 - 17:04 Сообщение #8
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Jacksson @ 7.04.2016 - 13:40) Добрый день, Требуется сравнить лейкоцитарные формулы между двумя группами пациентов (проценты лимфоцитов, нейтрофилов? и т.д.). Я, естественно, пересчитал всё в абсолютные показатели и их между собой сравнил, но требуют сравнения именно в процентах. Подскажите, пожалуйста, в каком направлении двигаться, т.к. информации по анализу относительных значений как-то весьма скудно (мягко говоря). Вроде как некорректно сравнивать средние проценты, например, лимфоцитов между группами(?). Ведь имеет место некое распределение, которое в сумме даёт единицу (100%)? Дальше ничего конкретного на ум не приходит. Заранее благодарен. Если анализировать формулы целиком, то степеней свободы действительно не хватает. Композиционные данные (к.д., compositional data) - количественные данные, описывающие части целого в относительных единицах. Пределы варьирования таких данных строго ограничены с обеих сторон: снизу - нулевым значением, сверху - максимально возможным значением суммы всех элементов. Проблема к.д. впервые обсуждалась Карлом Пирсоном в статье 1897 г. применительно к корреляционному анализу. Теория к.д. была разработана Джоном Эйчисоном в 1980-х гг. Лейкоцитарная формула - типичный пример к.д. Двигаться можно в двух направлениях. 1) Простой способ. Можно забыть, что лейкоцитарная формула "в сумме даёт единицу (100%)", т.е. является композицией. Сравнения проводить отдельно по каждому показателю. Можно непараметрическими техниками (порядковыми или ресэмплингом), можно параметрическими после предварительного преобразования данных. При работе с частотами параметрикой для отвязки дисперсии от среднего используют специальные преобразования: для редких событий (пуассоновское распределение) - преобразования типа квадратного корня (квадратный корень, преобразование Фримана - Тьюки (Freeman-Tukey transformation), преобразование Анскомба (Anscombe tr-n)), для альтернативных признаков (биномиальное распределение) - угловые преобразования (фи-преобразование арксинуса, угловое преобразование Фримана -Тьюки). Самое известное из них - фи-преобразование, предложенное ещё Фишером, которое переводит ряд % от 0 до 100 в углы от 0 до пи (3,14...). Если проверять гипотезу об отличии не отдельных показателей, а формул целиком - более дискуссионно, но полагаю можно использовать MANOVA, а то и обычный дисперсионный анализ (ANOVA): зависимая переменная - преобразованное значение %, независимые - Показатель лейк. формулы и Группа. В качестве доказательства приемлемости такого подхода приведу простой пример: микроэлементы (в воде, почве, тканях организма), выраженные в мг/л или мг/кг сухого вещества, тоже представляют собой композицию, т.к. их сумма не может превышать 1000 мг. Тем не менее, их не только сравнивают как обычные количественные показатели, но и крутят многомерными техниками типа PCA, что для композиционных данных строго говоря некорректно. Когда благодаря конференциям CoDaWork проблема композиционных данных получила широкую огласку и вышла из границ сугубо минералогии и геохимии, я специально интересовался где проходит тот порог, когда ввиду малой доли в композиции данные можно рассматривать как независимые, а когда уже необходимо учитывать их втиснутость в единицу. Не нашёл никакого численного моделирования ни тогда, ни после, когда появлялся интерес и время вернуться к этой теме. 2) Сложный способ. Работать именно с композицией. Там возможны два подхода. Первый подход - использовать специальные преобразования Эйчисона (Aitchison): Log-Ratio Transformation и его центрированный и изометрический варианты. Эти преобразования позволяют "развернуть" композицию и сделать такие данные похожими на обычные количественные данные. Далее сними можно отработать классическими техниками, включая корреляционный анализ и производные многомерные техники, а затем, при необходимости - снова "свернуть" результат в композицию. Пробовал давно и только для PCA, не могу подсказать насколько успешно получается свернуть средние преобразованных значений в 1 (100%), хотя должно получиться. Помню там проблемы с нулями, которые могут быть как структурными - истинными, так и цензурированными данными типа "менее чем" (nondetects). Второй подход - проводить сравнение композиций напрямую рандомизационной (permutation) техникой, которую нужно правильно организовать. Читал про такое в каком-то сборнике материалов CoDaWork и чуть ли не на примере лейкоцитарной формулы. По-русски про к.д. - ни строчки, но вообще материалов и наработок очень много + уже более 10 лет есть пакеты для R, короче при желании разобраться можно... Сообщение отредактировал nokh - 7.04.2016 - 17:10

DrgLena Просмотр профиля	7.04.2016 - 19:24 Сообщение #9
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	http://ima.udg.edu/Activitats/CoDaWork05/C...W_05_Slides.pdf Когда то тоже думала о композитных данных, в частности некоторые иммунологически показатели рассчитываются из числа лимфоцитов и тоже выражаются в процентах. Интересует как раз анализ системы, а не сдвиг отдельных показателей.

Jacksson Просмотр профиля	7.04.2016 - 22:26 Сообщение #10
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2016 Пользователь №: 28154	Спасибо за информацию Очень познавательно. Думаю пока "старших товарищей" композиционным анализом ошарашивать не буду, а сделаю "по старинке" Но сам уже в процессе закачивания / чтения литературы -- композиционный анализ -- это интересно!!! Сообщение отредактировал Jacksson - 7.04.2016 - 22:27

p2004r Просмотр профиля	8.04.2016 - 12:14 Сообщение #11
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Jacksson @ 7.04.2016 - 22:26) Спасибо за информацию Очень познавательно. Думаю пока "старших товарищей" композиционным анализом ошарашивать не буду, а сделаю "по старинке" Но сам уже в процессе закачивания / чтения литературы -- композиционный анализ -- это интересно!!! Если данные не секретные, или их можно обезличить, то закачивайте сюда. Кто нибудь, да обработает. http://r-statistics.livejournal.com/

Jacksson Просмотр профиля	8.04.2016 - 15:06 Сообщение #12
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2016 Пользователь №: 28154	Цитата(p2004r @ 8.04.2016 - 12:14) Если данные не секретные, или их можно обезличить, то закачивайте сюда. Кто нибудь, да обработает. Да вообще не секретные и не жалко, но самому-то интереснее (и опыт опять-таки)!!! Штудирую "Lecture notes on Compositional Data Analysis"

p2004r Просмотр профиля	8.04.2016 - 18:22 Сообщение #13
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Jacksson @ 8.04.2016 - 15:06) Да вообще не секретные и не жалко, но самому-то интереснее (и опыт опять-таки)!!! Штудирую "Lecture notes on Compositional Data Analysis" Вот раз не жалко, то заливайте. Не будьте эгоистом http://r-statistics.livejournal.com/

DoctorStat Просмотр профиля	8.04.2016 - 21:58 Сообщение #14
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Jacksson @ 8.04.2016 - 15:06) Штудирую "Lecture notes on Compositional Data Analysis" Можно провести аналогию с сравнением 2-х групп по качественным данным с помощью таблиц сопряженности. Анализ разбивается на два шага. Вначале один метод определяет, что различие по КАКИМ-ТО признакам есть, но не уточняет по каким именно. Если на первом шаге различие удалось обнаружить, то уже потом другим методом находятся КОНКРЕТНЫЕ признаки, по которым группы разнятся. В вашем случае исследование должно быть построено аналогично - два шага с последовательной детализацией различий. Просто включи мозги => http://doctorstat.narod.ru

« Предыдущая тема · Медицинская статистика · Следующая тема »