Здравствуйте, гость ( Вход | Регистрация )
12.03.2017 - 23:54
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
Уважаемые участники форума, пожалуйста
1. При описании количественных данных рекомендуется использовать среднее и стандартное отклонение при нормальном распределении, медиану и интерквартильный размах при ненормальном распределении. Что лучше указывать, если часть данных имеет ненормальное распределение, а часть данных нормальное? Особенно при публикации статьи, где объем ограничен. Логика мне подсказывает, что если больше переменных с ненормальным распределением, то использовать для всех медиану и интерквартильный размах. А если большая часть переменных имеет нормальное распределение, но есть несколько с ненормальным? 2. К примеру в исследовании было 100 пациентов. Исследователь решил разделить выборку на две группы (40 и 60 пациентов) в зависимости от какого-то признака. При сравнении групп различия не были выявлены. Тогда исследователь решил разделить эту же выборку по другому параметру на другие группы (30 и 70 пациентов). Насколько корректно это делать? Ведь таким образом исследователь может поступать неограниченное количество раз. Насколько корректно представлять при публикации такой подход, например в статье? Или существуют какие-то поправки? 3. Чисто практический вопрос по R. Пытаясь нарисовать график в ggplot2, столкнулся с непонятной проблемой. Была у меня таблица, где всего два вектора: гистология (hist) и дата (date), (третий появился позже). # A tibble: 1,580 × 3 hist date histo <8322456> <dbl> <fctr> 1 brest 2000 brest 2 brest 2000 brest 3 brest 2001 brest 4 brest 2001 brest 5 brest 2001 brest 6 brest 2003 brest 7 brest 2003 brest 8 brest 2003 brest 9 brest 2003 brest 10 brest 2003 brest # ... with 1,570 more rows Хотел наглядно показать сколько случаев конкретной опухоли было в конкретный год. Нарисовал соответствующий график с разбивкой на фасеты, т.к. каких-то опухолей было очень много, а какие-то встречаются совсем редко. histology <- list( 'brest'="Молочная железа", 'cerv'="Шейка матки", 'colon'="Толстая кишка", 'lung'="Легкое", 'melanoma'="Кожа", 'prost'="Простата", 'rcc'="Почка", 'uter'="Тело матки", 'metastatic'="Все метастатические") h_labeller <- function(variable,value){ return(histology[value])} ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$hist, ncol=3, labeller=h_labeller, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Но на последнем этапе изменения порядка фасетов почему-то теряются наблюдения на самом графике. Он становится другой (картинки прикрепил). th$histo = factor(th$hist, levels=c('brest','rcc','lung', 'colon', 'prost', 'uter', 'cerv', 'melanoma', 'metastatic')) ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Пожалуйста, Уже знаю, что можно сторонними пакетами сделать фасеты из обычных графиков, но данный затык не дает покоя. ![]()
|
|
|
![]() |
![]() |
![]() |
14.03.2017 - 09:37
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Он становится другой (картинки прикрепил). https://pp.userapi.com/c604821/v604821254/3...htWvF1-WWXA.jpg https://pp.userapi.com/c604821/v604821254/3...uVYsLGcW07k.jpg "Стеганографист на полставки"ТМ Сообщение отредактировал p2004r - 14.03.2017 - 09:38 ![]() |
|
|
![]() |
![]() |
14.03.2017 - 12:02
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
|
|
|
![]() |
![]() |
14.03.2017 - 13:17
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Извините, но я правда не понял. Если проблема настолько очевидна, ткните меня носом, пожалуйста Что "очевидная"? Я и "картинки" то увидел только когда ткнул в "ответить" ![]() |
|
|
![]() |
![]() |
14.03.2017 - 22:06
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
Что "очевидная"? Я и "картинки" то увидел только когда ткнул в "ответить" Сама таблица доступна по ссылке https://drive.google.com/open?id=0B37hlGmAZ...Qkx3a1dUcXJaS28 А вот код: library(ggplot2) histology <- list( 'brest'="Молочная железа", 'cerv'="Шейка матки", 'colon'="Толстая кишка", 'lung'="Легкое", 'melanoma'="Кожа", 'prost'="Простата", 'rcc'="Почка", 'uter'="Тело матки", 'metastatic'="Все метастатические") h_labeller <- function(variable,value){ return(histology[value])} ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$hist, ncol=3, labeller=h_labeller, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) #Изменение порядка фасет th$histo = factor(th$hist, levels=c('brest','rcc','lung', 'colon', 'prost', 'uter', 'cerv', 'melanoma', 'metastatic')) ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Сообщение отредактировал nikita_zab - 14.03.2017 - 22:07 |
|
|
![]() |
![]() |
15.03.2017 - 12:56
Сообщение
#6
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
А так?
Код ggplot(th, aes(x=date)) + geom_bar() + facet_wrap(~ histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3))
![]() |
|
|
![]() |
![]() |
15.03.2017 - 20:37
Сообщение
#7
|
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479 |
А так? Код ggplot(th, aes(x=date)) + geom_bar() + facet_wrap(~ histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Спасибо... Выходит, что лучше указывать векторы без привязки к dataframe? До этого ggplot видел информацию неправильно? Или это баг |
|
|
![]() |
![]() |
16.03.2017 - 11:08
Сообщение
#8
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо... Выходит, что лучше указывать векторы без привязки к dataframe? До этого ggplot видел информацию неправильно? Или это баг Судя по автору пакета: "это не баг, это фича"(С) У ggplot2 есть автор --- господин Викхам, и его можно непосредственно спросить про данное поведение пакета на странице пакета. ![]() |
|
|
![]() |
![]() |
nikita_zab Несколько вопросов по статистике и R 12.03.2017 - 23:54
nokh Цитата(nikita_zab @ 13.03.2017 - 01... 13.03.2017 - 23:05
nikita_zab Цитата(nokh @ 13.03.2017 - 23:05) Ре... 14.03.2017 - 12:01

nokh Цитата(nikita_zab @ 14.03.2017 - 14... 15.03.2017 - 21:50

nikita_zab Цитата(nokh @ 15.03.2017 - 21:50) Не... 15.03.2017 - 22:26

100$ Цитата(nikita_zab @ 15.03.2017 - 22... 16.03.2017 - 00:40
p2004r Цитата(nokh @ 13.03.2017 - 23:05) Ту... 14.03.2017 - 13:24![]() ![]() |