![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 1.04.2014 Пользователь №: 26271 ![]() |
Уважаемые коллеги!
Помогите, пожалуйста, выбрать правильный метод статистического анализа данных. Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA? С признательностью, Иван |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Уважаемые коллеги! Помогите, пожалуйста, выбрать правильный метод статистического анализа данных. Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA? С признательностью, Иван Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты. (1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально. (2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить. (3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор. Сообщение отредактировал nokh - 1.04.2014 - 17:42 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 1.04.2014 Пользователь №: 26271 ![]() |
Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты. (1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально. (2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить. (3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор. nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье. |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье. Медиану с квартилями дают на коробчатых диаграммах (Box-and-Whisker plot): http://ru.wikipedia.org/wiki/Ящик_с_усами . В качестве усов лучше давать минимум-максимум, т.е. безо всяких выбросов! В хороших пакетах это настраивается. В вашем случае медианой будет большее из 6 точных значений, т.к. именно оно стоит посередине в ряду из 11 значений (5 вы просто не дождались). А вот верхнюю квартиль без экстраполяций не расчитать, поэтому проще её не давать (в советских учебниках квартиль и процентиль женского рода). Можете построить график, заменив ЦН на 60, а затем в графическом редакторе вручную отчертить линию на уровне 60 мин и верх третьего короба выше этой линии стереть. Как здесь, на рисунке Cеnsored Boxplot, только не снизу, а сверху: http://www.practicalstats.com/news/blog_fi...2308da23-0.html Но я советую всё-таки освоить также анализ выживаемости. Куча материалов в сети и есть во всех пакетах. Сообщение отредактировал nokh - 1.04.2014 - 21:40 |
|
![]() |
![]() |
![]() ![]() |