Цитата(Jacksson @ 7.04.2016 - 13:40)

Добрый день,
Требуется сравнить лейкоцитарные формулы между двумя группами пациентов (проценты лимфоцитов, нейтрофилов? и т.д.). Я, естественно, пересчитал всё в абсолютные показатели и их между собой сравнил, но требуют сравнения именно в процентах. Подскажите, пожалуйста, в каком направлении двигаться, т.к. информации по анализу относительных значений как-то весьма скудно (мягко говоря). Вроде как некорректно сравнивать средние проценты, например, лимфоцитов между группами(?). Ведь имеет место некое распределение, которое в сумме даёт единицу (100%)? Дальше ничего конкретного на ум не приходит. Заранее благодарен.
Если анализировать формулы целиком, то степеней свободы действительно не хватает.
Композиционные данные (к.д., compositional data) - количественные данные, описывающие части целого в относительных единицах. Пределы варьирования таких данных строго ограничены с обеих сторон: снизу - нулевым значением, сверху - максимально возможным значением суммы всех элементов. Проблема к.д. впервые обсуждалась Карлом Пирсоном в статье 1897 г. применительно к корреляционному анализу. Теория к.д. была разработана Джоном Эйчисоном в 1980-х гг. Лейкоцитарная формула - типичный пример к.д.
Двигаться можно в двух направлениях.
1) Простой способ. Можно забыть, что лейкоцитарная формула "в сумме даёт единицу (100%)", т.е. является композицией. Сравнения проводить отдельно по каждому показателю. Можно непараметрическими техниками (порядковыми или ресэмплингом), можно параметрическими после предварительного преобразования данных. При работе с частотами параметрикой для отвязки дисперсии от среднего используют специальные преобразования: для редких событий (пуассоновское распределение) - преобразования типа квадратного корня (квадратный корень, преобразование Фримана - Тьюки (Freeman-Tukey transformation), преобразование Анскомба (Anscombe tr-n)), для альтернативных признаков (биномиальное распределение) - угловые преобразования (фи-преобразование арксинуса, угловое преобразование Фримана -Тьюки). Самое известное из них - фи-преобразование, предложенное ещё Фишером, которое переводит ряд % от 0 до 100 в углы от 0 до пи (3,14...).
Если проверять гипотезу об отличии не отдельных показателей, а формул целиком - более дискуссионно, но полагаю можно использовать MANOVA, а то и обычный дисперсионный анализ (ANOVA): зависимая переменная - преобразованное значение %, независимые - Показатель лейк. формулы и Группа. В качестве доказательства приемлемости такого подхода приведу простой пример: микроэлементы (в воде, почве, тканях организма), выраженные в мг/л или мг/кг сухого вещества, тоже представляют собой композицию, т.к. их сумма не может превышать 1000 мг. Тем не менее, их не только сравнивают как обычные количественные показатели, но и крутят многомерными техниками типа PCA, что для композиционных данных строго говоря некорректно. Когда благодаря конференциям CoDaWork проблема композиционных данных получила широкую огласку и вышла из границ сугубо минералогии и геохимии, я специально интересовался где проходит тот порог, когда ввиду малой доли в композиции данные можно рассматривать как независимые, а когда уже необходимо учитывать их втиснутость в единицу. Не нашёл никакого численного моделирования ни тогда, ни после, когда появлялся интерес и время вернуться к этой теме.
2) Сложный способ. Работать именно с композицией. Там возможны два подхода.
Первый подход - использовать специальные преобразования Эйчисона (Aitchison): Log-Ratio Transformation и его центрированный и изометрический варианты. Эти преобразования позволяют "развернуть" композицию и сделать такие данные похожими на обычные количественные данные. Далее сними можно отработать классическими техниками, включая корреляционный анализ и производные многомерные техники, а затем, при необходимости - снова "свернуть" результат в композицию. Пробовал давно и только для PCA, не могу подсказать насколько успешно получается свернуть средние преобразованных значений в 1 (100%), хотя должно получиться. Помню там проблемы с нулями, которые могут быть как структурными - истинными, так и цензурированными данными типа "менее чем" (nondetects).
Второй подход - проводить сравнение композиций напрямую рандомизационной (permutation) техникой, которую нужно правильно организовать. Читал про такое в каком-то сборнике материалов CoDaWork и чуть ли не на примере лейкоцитарной формулы. По-русски про к.д. - ни строчки, но вообще материалов и наработок очень много + уже более 10 лет есть пакеты для R, короче при желании разобраться можно...