Помогите выбрать метод анализа!, Сравнить три группы, но в одной из них событие так и не наступало. |
Здравствуйте, гость ( Вход | Регистрация )
Помогите выбрать метод анализа!, Сравнить три группы, но в одной из них событие так и не наступало. |
1.04.2014 - 12:42
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 1.04.2014 Пользователь №: 26271 |
Уважаемые коллеги!
Помогите, пожалуйста, выбрать правильный метод статистического анализа данных. Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA? С признательностью, Иван |
|
1.04.2014 - 13:47
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Может как цензурированное время дожития анализировать? |
|
1.04.2014 - 17:31
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Уважаемые коллеги! Помогите, пожалуйста, выбрать правильный метод статистического анализа данных. Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA? С признательностью, Иван Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты. (1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально. (2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить. (3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор. Сообщение отредактировал nokh - 1.04.2014 - 17:42 |
|
1.04.2014 - 20:21
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 1.04.2014 Пользователь №: 26271 |
Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты. (1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально. (2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить. (3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор. nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье. |
|
1.04.2014 - 21:18
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье. Медиану с квартилями дают на коробчатых диаграммах (Box-and-Whisker plot): http://ru.wikipedia.org/wiki/Ящик_с_усами . В качестве усов лучше давать минимум-максимум, т.е. безо всяких выбросов! В хороших пакетах это настраивается. В вашем случае медианой будет большее из 6 точных значений, т.к. именно оно стоит посередине в ряду из 11 значений (5 вы просто не дождались). А вот верхнюю квартиль без экстраполяций не расчитать, поэтому проще её не давать (в советских учебниках квартиль и процентиль женского рода). Можете построить график, заменив ЦН на 60, а затем в графическом редакторе вручную отчертить линию на уровне 60 мин и верх третьего короба выше этой линии стереть. Как здесь, на рисунке Cеnsored Boxplot, только не снизу, а сверху: http://www.practicalstats.com/news/blog_fi...2308da23-0.html Но я советую всё-таки освоить также анализ выживаемости. Куча материалов в сети и есть во всех пакетах. Сообщение отредактировал nokh - 1.04.2014 - 21:40 |
|
1.04.2014 - 22:33
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Я бы поддержала идею анализа неполных данных. Каплан-Майеровские кривые дадут иллюстрацию различий, но в данном случае интересен анализ таблиц дожития, когда задаются нужные интервалы наблюдения, например по 10 минут и для каждого из 6 интервалов наблюдения рассчитываются частоты, а также получают множительные оценки по интервалам, т.е. это классические таблицы дожития. Они реализованы в пакетах и в Statistica в том числе. Для выполнения этого анализа нужно организовать данные в трех переменных: принадлежность к группе (1,2,3), время от начала наблюдения до начал наступления исследуемого события (мин) и статус (1,0). Для случаев отсутствия начала свертывания время наблюдения 60 мин. И все.
|
|
1.04.2014 - 23:10
Сообщение
#7
|
|
Группа: Ожидающие Сообщений: 68 Регистрация: 21.01.2012 Пользователь №: 23436 |
Cреднее время для 3-ей группы можно посчитать по части данных в ней (когда лизис был), проигнорировав случаи, когда не был (или, что точнее, найти среднее время в этой группе анализом выживаемости, чтобы учесть случаи отсутствия лизиса /т.е. учесть цензурированные данные/).
Сообщение отредактировал Liz - 12.04.2014 - 05:35 English is my hobby.
|
|
2.04.2014 - 19:25
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 23.03.2014 Пользователь №: 26224 |
Задача описана не полно. Но чувствуется, что надо вам почитать регрессии Кокса и иже с ними. Обратите внимание на понятие цензурированных наблюдений. Судя по вашим описаниям, таковые у Вас есть. Вы еще забыли указать, каким пакетом пользуетесь. Иначе трудно указать вам конкретную процедуру.
|
|
6.04.2014 - 07:42
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Задача описана не полно. Но чувствуется, что надо вам почитать регрессии Кокса и иже с ними. Обратите внимание на понятие цензурированных наблюдений. Судя по вашим описаниям, таковые у Вас есть. Вы еще забыли указать, каким пакетом пользуетесь. Иначе трудно указать вам конкретную процедуру. А по мне - так достаточно полно. По крайней мере вполне достаточно для того, чтобы все её поняли. А путь "от пакета к методу"- тупиковый. Нужно отталкиваться от оптимального для данной задачи метода и только потом искать пакет где он реализован. |
|
8.04.2014 - 17:25
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 1.04.2014 Пользователь №: 26271 |
Дорогие коллеги!
В итоге в тех наблюдения, в которых лизис сгустка так и не начался, я заменил n/d на 1000 мин (существенно больше часа, чтобы проще было работать с числами) и использовал анализ Краскела-Уоллиса и пост-хок Данна. Спасибо за примеры графиков! Только теперь ситуация еще усложнилась. Мы сделали аналогичный эксперимент, в котором опять исследовали время до начала лизиса сгустка крови. Опять было три независимых группы образцов по 8-12 в каждой группе. В 1-й и 2-й группе во всех образцах формировался сгусток, который лизировался в течение 60 мин, а в 3-й группе теперь, помимо таких образцов, в которых лизис сгустка вообще не начинался за время наблюдения, появились и такие, в которых лизис в принципе не мог начаться по причине того, что сгусток не образовывался. В обоих случаях прибор выдает одинаковый ответ n/d, что параметр не определен, но, мне кажется, смешивать эти случаи будет неправильно. Можно ли те случаи, где лизис не начался из-за того, что он в принципе не мог начаться из-за отсутствия сгустка как такового, принять за 0 минут, а те, в которых сгусток образовывался, но лизис так и не начался в течение наблюдения, принять за 1000 мин и повторить анализ Краскела-Уоллиса? Или это неверно? Буду очень признателен за помощь! |
|
10.04.2014 - 12:26
Сообщение
#11
|
|
Группа: Ожидающие Сообщений: 68 Регистрация: 21.01.2012 Пользователь №: 23436 |
"Время до начала лизиса" равное 0 означает, что лизис (и соответственно сгусток) был (и начался сразу).
English is my hobby.
|
|
11.04.2014 - 19:05
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Согласен с Liz. Раз лизиса не могло быть в принципе, значит это - качественные, а не количественные различия. Возможно, лучше анализ разделить на 2 части: анализ качественных различий (частоты, %, хи-квадрат) и анализ количественных (как вы уже делали + варианты).
|
|