Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Несколько вопросов по статистике и R
nikita_zab
сообщение 12.03.2017 - 23:54
Сообщение #1





Группа: Пользователи
Сообщений: 14
Регистрация: 12.03.2017
Пользователь №: 29479



Уважаемые участники форума, пожалуйста help.gif разобраться с несколькими неясными моментами с которыми мне пришлось столкнуться в процессе подготовки диссертации и изучения статистики в целом.

1. При описании количественных данных рекомендуется использовать среднее и стандартное отклонение при нормальном распределении, медиану и интерквартильный размах при ненормальном распределении. Что лучше указывать, если часть данных имеет ненормальное распределение, а часть данных нормальное? Особенно при публикации статьи, где объем ограничен. Логика мне подсказывает, что если больше переменных с ненормальным распределением, то использовать для всех медиану и интерквартильный размах. А если большая часть переменных имеет нормальное распределение, но есть несколько с ненормальным?

2. К примеру в исследовании было 100 пациентов. Исследователь решил разделить выборку на две группы (40 и 60 пациентов) в зависимости от какого-то признака. При сравнении групп различия не были выявлены. Тогда исследователь решил разделить эту же выборку по другому параметру на другие группы (30 и 70 пациентов). Насколько корректно это делать? Ведь таким образом исследователь может поступать неограниченное количество раз. Насколько корректно представлять при публикации такой подход, например в статье? Или существуют какие-то поправки?

3. Чисто практический вопрос по R. Пытаясь нарисовать график в ggplot2, столкнулся с непонятной проблемой.
Была у меня таблица, где всего два вектора: гистология (hist) и дата (date), (третий появился позже).

# A tibble: 1,580 × 3
hist date histo
<8322456> <dbl> <fctr>
1 brest 2000 brest
2 brest 2000 brest
3 brest 2001 brest
4 brest 2001 brest
5 brest 2001 brest
6 brest 2003 brest
7 brest 2003 brest
8 brest 2003 brest
9 brest 2003 brest
10 brest 2003 brest
# ... with 1,570 more rows

Хотел наглядно показать сколько случаев конкретной опухоли было в конкретный год. Нарисовал соответствующий график с разбивкой на фасеты, т.к. каких-то опухолей было очень много, а какие-то встречаются совсем редко.

histology <- list(
'brest'="Молочная железа",
'cerv'="Шейка матки",
'colon'="Толстая кишка",
'lung'="Легкое",
'melanoma'="Кожа",
'prost'="Простата",
'rcc'="Почка",
'uter'="Тело матки",
'metastatic'="Все метастатические")

h_labeller <- function(variable,value){
return(histology[value])}

ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$hist, ncol=3, labeller=h_labeller, scales="free_y") +
xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3))

Но на последнем этапе изменения порядка фасетов почему-то теряются наблюдения на самом графике. Он становится другой (картинки прикрепил).

th$histo = factor(th$hist,
levels=c('brest','rcc','lung', 'colon', 'prost', 'uter', 'cerv', 'melanoma', 'metastatic'))

ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$histo, ncol=3, scales="free_y") +
xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3))

Пожалуйста, help.gif разобраться в этой проблеме. Я подозреваю, что ответ где-то на поверхности, но этот затык мне не получилось решить самому. Как изменить порядок фасетов без изменения вида графиков и потери наблюдений?
Уже знаю, что можно сторонними пакетами сделать фасеты из обычных графиков, но данный затык не дает покоя.


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 13.03.2017 - 23:05
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(nikita_zab @ 13.03.2017 - 01:54) *
1. При описании количественных данных рекомендуется использовать среднее и стандартное отклонение при нормальном распределении, медиану и интерквартильный размах при ненормальном распределении. Что лучше указывать, если часть данных имеет ненормальное распределение, а часть данных нормальное? Особенно при публикации статьи, где объем ограничен. Логика мне подсказывает, что если больше переменных с ненормальным распределением, то использовать для всех медиану и интерквартильный размах. А если большая часть переменных имеет нормальное распределение, но есть несколько с ненормальным?

Рекомендаций и "рекомендаций" много - кем это рекомендуется? Я бы сказал, что вопрос выбора показателей для описания данных - больше вопрос традиции в конкретных областях или даже научных школах. Чем плохо стандартное отклонение для ненормального распределения? Только тем, что не несёт геометрической интерпретации. Но геологов, которые к нему привыкли, это не смущает: могут давать его даже для данных у которых хвосты распределений поджимаются только логарифмированием и (!) логарифмированием логарифмов. Полагаю, что если ст. отклонение и медиана с квартилями не представляют специального самостоятельного интереса - ими можно и пожертвовать. Для себя проблему описательной статистики я решил через интервальную оценку среднего: 95%-ные доверительные интервалы действительно рекомендуют + такие работы лучше цитируются, поскольку посредством сопоставления ДИ можно делать выводы о статистической значимости различий собственных данных с опубликованными и/или включать статьи в мета-анализ. ДИ можно рассчитать и для нормально-, и ненормально распределённых данных, и для частот - нужно только найти правильные способы.
Цитата(nikita_zab @ 13.03.2017 - 01:54) *
2. К примеру в исследовании было 100 пациентов. Исследователь решил разделить выборку на две группы (40 и 60 пациентов) в зависимости от какого-то признака. При сравнении групп различия не были выявлены. Тогда исследователь решил разделить эту же выборку по другому параметру на другие группы (30 и 70 пациентов). Насколько корректно это делать? Ведь таким образом исследователь может поступать неограниченное количество раз. Насколько корректно представлять при публикации такой подход, например в статье? Или существуют какие-то поправки?

Тут сложно что-то советовать, т.к. это зависит от контекста.
(1) Например, традиционно считается, что и первый и второй показатель неплохо или близко характеризуют одно явление. Ну например шкалы APACHE и SAPS или шкалы Сильвермана и Апгар. При разбиении по одной шкале вы не получаете различий, по другой - получаете. Налицо противоречие, которое можно выгодно преподнести, обсудить, сравнить шкалы специальными методами и т.д. Тогда, конечно, и можно и нужно объединять в одной работе.
(2) Если же из контекста видно, что автор ищет хоть какие-то различия и группировки - то налицо огрехи планирования исследования и такие разбиения никак нельзя совмещать в одной статье. Вообще, ситуация, когда данные собираются под одну гипотезу, а она не оправдывается - весьма распространена. Но при грамотном руководителе и качественно собранных данных из них можно вытянуть ещё много чего интересного, вплоть до того, что это интересное может оказаться куда новее и интереснее исходной гипотезы. Но тогда логичнее уже её и презентовать браво, а не посвящать читателя в интимные подробности о том, как хотели одно, а оно не получилось, но зато получилось что-то другое и поэтому не бейте нас пожалуйста... Ещё бывает, что данные обсчитываются при одном разбиении материала, но потом рецензенты или потенциальные оппоненты указывают на огрехи осуществлённой группировки. И человеку приходится полностью пересчитывать работу. А пока он заканчивает обсчёт за рубежом выходит новая классификация, по которой-то оказывается и нужно разбивать материал, иначе возникнут вопросы, и она пересчитывает всё в третий раз (не шучу, знаю такого человека). Но и в этом случае в конечную работу идёт только одна группировка, а то что уже было опубликовано - ну что теперь, типа быльём поросло...

Сообщение отредактировал nokh - 13.03.2017 - 23:46
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 14.03.2017 - 13:24
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 13.03.2017 - 23:05) *
Тут сложно что-то советовать, т.к. это зависит от контекста.


тут явно намекает человек на множественные сравнения и соответствующие поправки... но главного то он не знает smile.gif, никаких "групп" нет. Группа есть только тогда, когда есть реально полученная (экспериментом или наблюдением) выборка. Все остальное это просто показатели характеризующие конкретные варианты из этой выборки.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему