Несколько вопросов по статистике и R - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Несколько вопросов по статистике и R

nikita_zab Просмотр профиля	12.03.2017 - 23:54 Сообщение #1
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Уважаемые участники форума, пожалуйста разобраться с несколькими неясными моментами с которыми мне пришлось столкнуться в процессе подготовки диссертации и изучения статистики в целом. 1. При описании количественных данных рекомендуется использовать среднее и стандартное отклонение при нормальном распределении, медиану и интерквартильный размах при ненормальном распределении. Что лучше указывать, если часть данных имеет ненормальное распределение, а часть данных нормальное? Особенно при публикации статьи, где объем ограничен. Логика мне подсказывает, что если больше переменных с ненормальным распределением, то использовать для всех медиану и интерквартильный размах. А если большая часть переменных имеет нормальное распределение, но есть несколько с ненормальным? 2. К примеру в исследовании было 100 пациентов. Исследователь решил разделить выборку на две группы (40 и 60 пациентов) в зависимости от какого-то признака. При сравнении групп различия не были выявлены. Тогда исследователь решил разделить эту же выборку по другому параметру на другие группы (30 и 70 пациентов). Насколько корректно это делать? Ведь таким образом исследователь может поступать неограниченное количество раз. Насколько корректно представлять при публикации такой подход, например в статье? Или существуют какие-то поправки? 3. Чисто практический вопрос по R. Пытаясь нарисовать график в ggplot2, столкнулся с непонятной проблемой. Была у меня таблица, где всего два вектора: гистология (hist) и дата (date), (третий появился позже). # A tibble: 1,580 × 3 hist date histo <8322456> <dbl> <fctr> 1 brest 2000 brest 2 brest 2000 brest 3 brest 2001 brest 4 brest 2001 brest 5 brest 2001 brest 6 brest 2003 brest 7 brest 2003 brest 8 brest 2003 brest 9 brest 2003 brest 10 brest 2003 brest # ... with 1,570 more rows Хотел наглядно показать сколько случаев конкретной опухоли было в конкретный год. Нарисовал соответствующий график с разбивкой на фасеты, т.к. каких-то опухолей было очень много, а какие-то встречаются совсем редко. histology <- list( 'brest'="Молочная железа", 'cerv'="Шейка матки", 'colon'="Толстая кишка", 'lung'="Легкое", 'melanoma'="Кожа", 'prost'="Простата", 'rcc'="Почка", 'uter'="Тело матки", 'metastatic'="Все метастатические") h_labeller <- function(variable,value){ return(histology[value])} ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$hist, ncol=3, labeller=h_labeller, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Но на последнем этапе изменения порядка фасетов почему-то теряются наблюдения на самом графике. Он становится другой (картинки прикрепил). th$histo = factor(th$hist, levels=c('brest','rcc','lung', 'colon', 'prost', 'uter', 'cerv', 'melanoma', 'metastatic')) ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Пожалуйста, разобраться в этой проблеме. Я подозреваю, что ответ где-то на поверхности, но этот затык мне не получилось решить самому. Как изменить порядок фасетов без изменения вида графиков и потери наблюдений? Уже знаю, что можно сторонними пакетами сделать фасеты из обычных графиков, но данный затык не дает покоя.

nokh Просмотр профиля	13.03.2017 - 23:05 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(nikita_zab @ 13.03.2017 - 01:54) 1. При описании количественных данных рекомендуется использовать среднее и стандартное отклонение при нормальном распределении, медиану и интерквартильный размах при ненормальном распределении. Что лучше указывать, если часть данных имеет ненормальное распределение, а часть данных нормальное? Особенно при публикации статьи, где объем ограничен. Логика мне подсказывает, что если больше переменных с ненормальным распределением, то использовать для всех медиану и интерквартильный размах. А если большая часть переменных имеет нормальное распределение, но есть несколько с ненормальным? Рекомендаций и "рекомендаций" много - кем это рекомендуется? Я бы сказал, что вопрос выбора показателей для описания данных - больше вопрос традиции в конкретных областях или даже научных школах. Чем плохо стандартное отклонение для ненормального распределения? Только тем, что не несёт геометрической интерпретации. Но геологов, которые к нему привыкли, это не смущает: могут давать его даже для данных у которых хвосты распределений поджимаются только логарифмированием и (!) логарифмированием логарифмов. Полагаю, что если ст. отклонение и медиана с квартилями не представляют специального самостоятельного интереса - ими можно и пожертвовать. Для себя проблему описательной статистики я решил через интервальную оценку среднего: 95%-ные доверительные интервалы действительно рекомендуют + такие работы лучше цитируются, поскольку посредством сопоставления ДИ можно делать выводы о статистической значимости различий собственных данных с опубликованными и/или включать статьи в мета-анализ. ДИ можно рассчитать и для нормально-, и ненормально распределённых данных, и для частот - нужно только найти правильные способы. Цитата(nikita_zab @ 13.03.2017 - 01:54) 2. К примеру в исследовании было 100 пациентов. Исследователь решил разделить выборку на две группы (40 и 60 пациентов) в зависимости от какого-то признака. При сравнении групп различия не были выявлены. Тогда исследователь решил разделить эту же выборку по другому параметру на другие группы (30 и 70 пациентов). Насколько корректно это делать? Ведь таким образом исследователь может поступать неограниченное количество раз. Насколько корректно представлять при публикации такой подход, например в статье? Или существуют какие-то поправки? Тут сложно что-то советовать, т.к. это зависит от контекста. (1) Например, традиционно считается, что и первый и второй показатель неплохо или близко характеризуют одно явление. Ну например шкалы APACHE и SAPS или шкалы Сильвермана и Апгар. При разбиении по одной шкале вы не получаете различий, по другой - получаете. Налицо противоречие, которое можно выгодно преподнести, обсудить, сравнить шкалы специальными методами и т.д. Тогда, конечно, и можно и нужно объединять в одной работе. (2) Если же из контекста видно, что автор ищет хоть какие-то различия и группировки - то налицо огрехи планирования исследования и такие разбиения никак нельзя совмещать в одной статье. Вообще, ситуация, когда данные собираются под одну гипотезу, а она не оправдывается - весьма распространена. Но при грамотном руководителе и качественно собранных данных из них можно вытянуть ещё много чего интересного, вплоть до того, что это интересное может оказаться куда новее и интереснее исходной гипотезы. Но тогда логичнее уже её и презентовать браво, а не посвящать читателя в интимные подробности о том, как хотели одно, а оно не получилось, но зато получилось что-то другое и поэтому не бейте нас пожалуйста... Ещё бывает, что данные обсчитываются при одном разбиении материала, но потом рецензенты или потенциальные оппоненты указывают на огрехи осуществлённой группировки. И человеку приходится полностью пересчитывать работу. А пока он заканчивает обсчёт за рубежом выходит новая классификация, по которой-то оказывается и нужно разбивать материал, иначе возникнут вопросы, и она пересчитывает всё в третий раз (не шучу, знаю такого человека). Но и в этом случае в конечную работу идёт только одна группировка, а то что уже было опубликовано - ну что теперь, типа быльём поросло... Сообщение отредактировал nokh - 13.03.2017 - 23:46

p2004r Просмотр профиля	14.03.2017 - 09:37 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nikita_zab @ 12.03.2017 - 23:54) Он становится другой (картинки прикрепил). https://pp.userapi.com/c604821/v604821254/3...htWvF1-WWXA.jpg https://pp.userapi.com/c604821/v604821254/3...uVYsLGcW07k.jpg "Стеганографист на полставки"ТМ Сообщение отредактировал p2004r - 14.03.2017 - 09:38 http://r-statistics.livejournal.com/

nikita_zab Просмотр профиля	14.03.2017 - 12:01 Сообщение #4
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(nokh @ 13.03.2017 - 23:05) Рекомендаций и "рекомендаций" много - кем это рекомендуется? Я бы сказал, что вопрос выбора показателей для описания данных - больше вопрос традиции в конкретных областях или даже научных школах. Чем плохо стандартное отклонение для ненормального распределения? Только тем, что не несёт геометрической интерпретации. Но геологов, которые к нему привыкли, это не смущает: могут давать его даже для данных у которых хвосты распределений поджимаются только логарифмированием и (!) логарифмированием логарифмов. Полагаю, что если ст. отклонение и медиана с квартилями не представляют специального самостоятельного интереса - ими можно и пожертвовать. Для себя проблему описательной статистики я решил через интервальную оценку среднего: 95%-ные доверительные интервалы действительно рекомендуют + такие работы лучше цитируются, поскольку посредством сопоставления ДИ можно делать выводы о статистической значимости различий собственных данных с опубликованными и/или включать статьи в мета-анализ. ДИ можно рассчитать и для нормально-, и ненормально распределённых данных, и для частот - нужно только найти правильные способы. Спасибо за ответы! Но чисто с практической стороны, если я составляю таблицу в статье для описания выборки. Будет три столбца, в первом параметр, во втором точечное значение, в третьем интегральное. Какие параметры указывать в качестве точечной оценки? Или заранее можно указать, что при нормальном распределении среднее, при ненормальном медиана? Просто показатели могут сильно различаться. Цитата(nokh @ 13.03.2017 - 23:05) Тут сложно что-то советовать, т.к. это зависит от контекста. (1) Например, традиционно считается, что и первый и второй показатель неплохо или близко характеризуют одно явление. Ну например шкалы APACHE и SAPS или шкалы Сильвермана и Апгар. При разбиении по одной шкале вы не получаете различий, по другой - получаете. Налицо противоречие, которое можно выгодно преподнести, обсудить, сравнить шкалы специальными методами и т.д. Тогда, конечно, и можно и нужно объединять в одной работе. (2) Если же из контекста видно, что автор ищет хоть какие-то различия и группировки - то налицо огрехи планирования исследования и такие разбиения никак нельзя совмещать в одной статье. Вообще, ситуация, когда данные собираются под одну гипотезу, а она не оправдывается - весьма распространена. Но при грамотном руководителе и качественно собранных данных из них можно вытянуть ещё много чего интересного, вплоть до того, что это интересное может оказаться куда новее и интереснее исходной гипотезы. Но тогда логичнее уже её и презентовать браво, а не посвящать читателя в интимные подробности о том, как хотели одно, а оно не получилось, но зато получилось что-то другое и поэтому не бейте нас пожалуйста... Ещё бывает, что данные обсчитываются при одном разбиении материала, но потом рецензенты или потенциальные оппоненты указывают на огрехи осуществлённой группировки. И человеку приходится полностью пересчитывать работу. А пока он заканчивает обсчёт за рубежом выходит новая классификация, по которой-то оказывается и нужно разбивать материал, иначе возникнут вопросы, и она пересчитывает всё в третий раз (не шучу, знаю такого человека). Но и в этом случае в конечную работу идёт только одна группировка, а то что уже было опубликовано - ну что теперь, типа быльём поросло... Был я на одном занятии по статистике. Там разбиралась чья-то диссертация. И как раз в диссертации выборку делили на разные группы постоянно в соответствии с различными признаками. И различия нашли только по одному параметру (10 раз всего разбивали). Преподаватель огласил, что в этом случае полученное значение "p" нужно было умножать на 10. Я потом спрашивал откуда взялось такое, мне было объяснено, что это мол множественные сравнения... Может и правда есть какие-то критерии при таких ситуациях?

nikita_zab Просмотр профиля	14.03.2017 - 12:02 Сообщение #5
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(p2004r @ 14.03.2017 - 09:37) "Стеганографист на полставки"ТМ Извините, но я правда не понял. Если проблема настолько очевидна, ткните меня носом, пожалуйста

p2004r Просмотр профиля	14.03.2017 - 13:17 Сообщение #6
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nikita_zab @ 14.03.2017 - 12:02) Извините, но я правда не понял. Если проблема настолько очевидна, ткните меня носом, пожалуйста Что "очевидная"? Я и "картинки" то увидел только когда ткнул в "ответить" Файла с данными и минимального примера воспроизводящего проблему я так и не нашел. http://r-statistics.livejournal.com/

p2004r Просмотр профиля	14.03.2017 - 13:24 Сообщение #7
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 13.03.2017 - 23:05) Тут сложно что-то советовать, т.к. это зависит от контекста. тут явно намекает человек на множественные сравнения и соответствующие поправки... но главного то он не знает , никаких "групп" нет. Группа есть только тогда, когда есть реально полученная (экспериментом или наблюдением) выборка. Все остальное это просто показатели характеризующие конкретные варианты из этой выборки. http://r-statistics.livejournal.com/

nikita_zab Просмотр профиля	14.03.2017 - 22:06 Сообщение #8
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(p2004r @ 14.03.2017 - 13:17) Что "очевидная"? Я и "картинки" то увидел только когда ткнул в "ответить" Файла с данными и минимального примера воспроизводящего проблему я так и не нашел. Сама таблица доступна по ссылке https://drive.google.com/open?id=0B37hlGmAZ...Qkx3a1dUcXJaS28 А вот код: library(ggplot2) histology <- list( 'brest'="Молочная железа", 'cerv'="Шейка матки", 'colon'="Толстая кишка", 'lung'="Легкое", 'melanoma'="Кожа", 'prost'="Простата", 'rcc'="Почка", 'uter'="Тело матки", 'metastatic'="Все метастатические") h_labeller <- function(variable,value){ return(histology[value])} ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$hist, ncol=3, labeller=h_labeller, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) #Изменение порядка фасет th$histo = factor(th$hist, levels=c('brest','rcc','lung', 'colon', 'prost', 'uter', 'cerv', 'melanoma', 'metastatic')) ggplot(th, aes(x=th$date)) + geom_bar() + facet_wrap(~ th$histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Сообщение отредактировал nikita_zab - 14.03.2017 - 22:07

p2004r Просмотр профиля	15.03.2017 - 12:56 Сообщение #9
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	А так? Код ggplot(th, aes(x=date)) + geom_bar() + facet_wrap(~ histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) http://r-statistics.livejournal.com/

nikita_zab Просмотр профиля	15.03.2017 - 20:37 Сообщение #10
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(p2004r @ 15.03.2017 - 12:56) А так? Код ggplot(th, aes(x=date)) + geom_bar() + facet_wrap(~ histo, ncol=3, scales="free_y") + xlab("") + ylab("") + scale_x_continuous(breaks=seq(2000, 2015, 3)) Спасибо... Выходит, что лучше указывать векторы без привязки к dataframe? До этого ggplot видел информацию неправильно? Или это баг

nokh Просмотр профиля	15.03.2017 - 21:50 Сообщение #11
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(nikita_zab @ 14.03.2017 - 14:01) Спасибо за ответы! Но чисто с практической стороны, если я составляю таблицу в статье для описания выборки. Будет три столбца, в первом параметр, во втором точечное значение, в третьем интегральное. Какие параметры указывать в качестве точечной оценки? Или заранее можно указать, что при нормальном распределении среднее, при ненормальном медиана? Просто показатели могут сильно различаться. Не "интегральное", а интервальное. Приводите то, что обычно приводят в лучших зарубежных статьях в вашей области. Я постепенно прихожу к уменьшению доли порядковой статистики а анализах, но это - путь, который нужно пройти. Как альтернатива медиане и IQR для можно привести (1) среднее с 95% ДИ, вычисленными бутстрепом (2) среднее и 95% ДИ вычисленные по преобразованным данным с ретрансформацией результатов в исходную шкалу (квадратный корень - возведение в квадрат, логарифмирование - потенцирование, преобразование Бокса - Кокса - отратное преобразование...) Смотрел недавно C28-A3c и статьи по референтным интервалам - штука серьёзная, т.к. это проблема нормы и отклонения от неё. Так вот логарифмирование и Бокса-Кокса с последующей ретрансформацией используют широко (наряду с др. техниками). Цитата(nikita_zab @ 14.03.2017 - 14:01) Был я на одном занятии по статистике. Там разбиралась чья-то диссертация. И как раз в диссертации выборку делили на разные группы постоянно в соответствии с различными признаками. И различия нашли только по одному параметру (10 раз всего разбивали). Преподаватель огласил, что в этом случае полученное значение "p" нужно было умножать на 10. Я потом спрашивал откуда взялось такое, мне было объяснено, что это мол множественные сравнения... Может и правда есть какие-то критерии при таких ситуациях? Плохо, что вы были на одном занятии. Про разбиении на группы не понял, но почитайте про поправку Бонферрони и т.п.

nikita_zab Просмотр профиля	15.03.2017 - 22:26 Сообщение #12
Группа: Пользователи Сообщений: 14 Регистрация: 12.03.2017 Пользователь №: 29479	Цитата(nokh @ 15.03.2017 - 21:50) Не "интегральное", а интервальное. Приводите то, что обычно приводят в лучших зарубежных статьях в вашей области. Я постепенно прихожу к уменьшению доли порядковой статистики а анализах, но это - путь, который нужно пройти. Как альтернатива медиане и IQR для можно привести (1) среднее с 95% ДИ, вычисленными бутстрепом (2) среднее и 95% ДИ вычисленные по преобразованным данным с ретрансформацией результатов в исходную шкалу (квадратный корень - возведение в квадрат, логарифмирование - потенцирование, преобразование Бокса - Кокса - отратное преобразование...) Смотрел недавно C28-A3c и статьи по референтным интервалам - штука серьёзная, т.к. это проблема нормы и отклонения от неё. Так вот логарифмирование и Бокса-Кокса с последующей ретрансформацией используют широко (наряду с др. техниками). Плохо, что вы были на одном занятии. Про разбиении на группы не понял, но почитайте про поправку Бонферрони и т.п. Про Бонферрони и подобные вещи при множественном сравнении между группами знаю. Был интересен именно описанный случай, но наверное не смогу толком объяснить. В целом в данной теме вы мне помогли немного разобраться в этих вопросах.

100$ Просмотр профиля	16.03.2017 - 00:40 Сообщение #13
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nikita_zab @ 15.03.2017 - 22:26) Про Бонферрони и подобные вещи при множественном сравнении между группами знаю. Был интересен именно описанный случай, но наверное не смогу толком объяснить. Это типичная картинка для отечественных мед. исследований: пациента характеризуют вектором рез-тов рутинных лабораторных исследований, но в многомерную статистику уходить не хотят и ищут различия по каждой координате. Т.е. вместо, н-р, критерия Хотеллинга (многомерного аналога критерия Стьюдента) делают десяток Стьюдентов. Вот и возникает проблема множественных сравнений.

p2004r Просмотр профиля	16.03.2017 - 11:08 Сообщение #14
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nikita_zab @ 15.03.2017 - 20:37) Спасибо... Выходит, что лучше указывать векторы без привязки к dataframe? До этого ggplot видел информацию неправильно? Или это баг Судя по автору пакета: "это не баг, это фича"(С) У ggplot2 есть автор --- господин Викхам, и его можно непосредственно спросить про данное поведение пакета на странице пакета. http://r-statistics.livejournal.com/

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.