Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Описательная статистика при малых группах
doc2012
сообщение 4.01.2017 - 01:29
Сообщение #1





Группа: Пользователи
Сообщений: 14
Регистрация: 31.12.2016
Пользователь №: 29139



Подскажите, пожалуйста:
три малые группы (от 21 до 26 человек в каждой)-непараметричекие методы статистики (априори), а для описательных методов можно использовать Медиану, интерквартильные интервалы (25%, 75%)--?
Также допустимо ли записать даже возраст обследуемых так--пример: "средний возраст в 1 группе составил 31 год [29;33] "---корректна ли запись ?
Можно ли использовать среднее значение и стандартное отклонение (М+/-SD)---читал, вроде, лучше не использовать.--?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.01.2017 - 01:53
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(doc2012 @ 4.01.2017 - 03:29) *
Подскажите, пожалуйста:
три малые группы (от 21 до 26 человек в каждой)-непараметричекие методы статистики (априори), а для описательных методов можно использовать Медиану, интерквартильные интервалы (25%, 75%)--?
Также допустимо ли записать даже возраст обследуемых так--пример: "средний возраст в 1 группе составил 31 год [29;33] "---корректна ли запись ?
Можно ли использовать среднее значение и стандартное отклонение (М+/-SD)---читал, вроде, лучше не использовать.--?


Мы с аспирантами часто проводим такое полезное упражнение, как анализ лучших зарубежных публикаций по их тематике. Можете проделать такую же работу. Найдите 12-15 самых цитируемых и образцовых англоязычных работ как можно ближе к своей тематике и проведите разбор тех методов, которые используют авторы. У нас получается всё время примерно так:

Блок 1. Цитируемые работы без статистики. Это либо свежие обзоры, либо оригинальные теоретические работы. Таких находится штуки 3. Знать нужно, но научиться нечему.

Блок 2. Работы по принципу: "вот и мы попробовали". Обычно это какой-нибудь Data mining, Machine Learning. "Мы только что узнали Известно, что в настоящее время для кластеризации и визуализации многомерных данных успешно применяются самоорганизующиеся карты Кохонена. Мы нихрена не знаем что это такое, но вот вам- пара абзацев из умной книжки". И далее - какие-то результаты из какой-то программы. Если повезёт - работа запомнится и может цитироваться из-за яркой картинки, удачного графа и т.п. Но таких мало, может одна на дюжину попадётся.

Блок 3. Работы с некорректной статистикой. Таких бывает штуки 3-4, т.е. около 25%. Слабое владение статистикой заметно даже новичку, т.к. вызывает вопросы или сомнения, в т.ч. из-за недосказаности. Вот вы где-то встречали, что M +/- SD нехорошо. Действительно, ни один хороший учебник по биостатистике не рекомендует такую форму записи. Хотя бы потому, что +/- уже закрепился за стандартной ошибкой, а использование занятых терминов и обозначений в науке совсем не приветствуется. Ну а если запишут они M (SD) или M; SD - что это им даёт? Интерпретируется ли как-то малое или большое SD, или это просто формальное представление описательной статистики? Далее - что на графиках? В биологии показатели намного чаще распределены асимметрично, поэтому если на столбчатых диаграммах мы видим некий односторонний интервал в виде вбитого в столбик "гвоздя со шляпкой", значит авторы подразумевают симметричный интервал, нижнюю часть которого не дорисовывают. Не дорисовывают не то потому, что не знают об асимметрии распределения, не то потому что не разобрались с программой где считают, не то даже и не собирались разбираться... Здесь же необоснованное использование параметрических методов, сглаживание нелинейных зависимостей сплайнами (типа как в Excel), о которых в работе ни слова нигде не сказано (как, впрочем, и в самом Excel), использование на графиках ложного третьего измерения, использование композиционных данных в корреляционном анализе и родственных техниках, неверная или некорректная трактовка результатов, и др. Короче, авторы что-то сделали, что-то посчитали, но спроси что и почему - сто пудов не ответят. Цитируются потому что пришли к интересному заключению (хотя и без статистики, например - в результате озарения после долгих размышлений над проблемой), "попали в струю", и т.п.

Блок 4. Работы-мозаики. Это некое ассорти из разных блоков. Видно, что один кусок авторы подсмотрели у одних коллег, другой - у других... Куски вроде корректные, а в целом - мешанина. Ну, например, ближе к вашим проблемам: в описательную статистику дают средние с симметричными 95%-ными ДИ (кстати, а корректны ли они?), сравнивают группы порядковой статистикой, корреляцию делают по Пирсону, причём даже с z-преобразованием. Или для количественных признаков приводят 95% ДИ, а для качественных в % - нет. Или везде - порядковая статистика, а в конце обобщение методом главных компонент, причём с по-наивному искренней верой авторов в волшебные выделенные компоненты. Или половина работы - в рамках частотного подхода, половина - в рамках байесовского... Таких работ большинство, процентов 40. Неизбежный этап в развитии любого исследователя, но на котором большинство и застревает.

Блок 5. Добротные работы. Логичные, выдержанные в едином стиле. Всё что приводится - осмыслено. Статистика корректная, причём видно, что она - не ветхая надстройка над идеями, надутыми откуда-то в умную голову автора, а каркас или по крайней мере некие несущие опоры в исследовании. Таких работ не более 10-20%.

Проведите такую работу и у вас сразу появится 2-3 статьи, на которые просто хочется равняться. Равняйтесь!

Я стараюсь придерживаться в описательной статистке единообразия с другими методами в работе.
1) Если сравниваем группы порядковыми методами, ищем порядковые корреляции, то и в описательной статистике должен быть порядковый блок: медиана (квартили). Блок может быть довеском к средним, но быть должен. Графики - коробчатые диаграммы, причём безо всяких звёздочек для якобы "выбросов". Многомерные методы тоже нужно найти соответствующие: нелинейные главные компоненты на рангах, главные координанты на расстоянии (1-ро Спирмена) и т.п.
2) Если для сравнения групп используем параметрические техники после соответствующих нормализующих преобразований (логарифмирование, Бокс - Кокс, угловые преобразования для %), то и описательную статистику логично делать на преобразованных данных с последующей ретрансформацией в исходную шкалу. В таблицах и на графиках - средние и 95%-ные ДИ, которые в этом случае получаются асимметричными (как и само распределение показателя). Кстати, совсем недавно узнал, что за рубежом при установлении референтных интервалов для нормы используется именно этот подход, причём с двухпараметрическим преобразованием Бокса - Кокса, которое в пакетах почти не найти...
3) Можно и описательную статистику и остальные блоки построить на современных ресемплинг-техниках. Тогда логично 95% ДИ считать бутстрепом, сравнения проводить рандомизационными методами (либо точными, либо Монте-Карло), ДИ для корреляций, регрессий, главных компонент также считать бутстрепом.

Чётко придерживаться получается не всегда. По разным причинам.

Отдельно приходится думать как обойти запрет редакций на дублирование информации в таблицах и рисунках. Чтобы информация воспринималась - нужны рисунки, но чтобы цитировалась - нужны таблицы с цифрами. По крайней мере я не цитирую статьи, где авторы не позаботились об удобстве цитирования своей работы: зачем мне измерять на рисунках высоту столбиков и переводить их в цифры, если есть более достойные люди, которые позаботились о своих коллегах?

По поводу собственно стандартов представления данных, то в биологии и медицине чётких рекомендаций нет. По крайней мере я почти ничего не нашёл, даже когда прицельно искал. Здесь нам следует равняться на психологов. Я с этого года решил придерживаться сперва рекомендаций APA (Publication manual of the American Psychological Association. 6th Ed. APA, Washington, DC, 2010. 273 p.), но с нашей десятичной запятой вместо их точки, а уже потом - того, что видел в хороших статьях. Соответственно, медиану и квартили я бы привёл сейчас как "Me (Q1 - Q3)", а среднее с 95% ДИ как "М [LL, UL]".

Сообщение отредактировал nokh - 7.01.2017 - 02:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему