Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Помогите выбрать метод анализа!, Сравнить три группы, но в одной из них событие так и не наступало.
ivan12
сообщение 1.04.2014 - 12:42
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 1.04.2014
Пользователь №: 26271



Уважаемые коллеги!
Помогите, пожалуйста, выбрать правильный метод статистического анализа данных.
Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA?
С признательностью,
Иван
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.04.2014 - 13:47
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699




Может как цензурированное время дожития анализировать?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.04.2014 - 17:31
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(ivan12 @ 1.04.2014 - 15:42) *
Уважаемые коллеги!
Помогите, пожалуйста, выбрать правильный метод статистического анализа данных.
Исследовалось время до начала лизиса сгустка крови. Наблюдение продолжалось в течение 1 часа. Всего было три независимых группы образцов (в группах от 10 до 16 образцов). В группе 1 лизис начинался в среднем через 35 мин, в группе 2 - через 45 мин, а в группе 3 - либо еще позже, либо лизис вообще не начинался за время наблюдения (т. е. в течение часа). Подскажите, как правильно сравнить эти группы. Насколько я понимаю, нельзя же просто проигнорировать часть наблюдений, для которых время начала лизиса не было установлено, и применить ANOVA?
С признательностью,
Иван

Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты.
(1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально.
(2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить.
(3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор.

Сообщение отредактировал nokh - 1.04.2014 - 17:42
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ivan12
сообщение 1.04.2014 - 20:21
Сообщение #4





Группа: Пользователи
Сообщений: 4
Регистрация: 1.04.2014
Пользователь №: 26271



Цитата(nokh @ 1.04.2014 - 18:31) *
Наблюдения, в которых лизис не начался за всё время эксперимента называются цензурированными наблюдениями (ЦН) типа "более чем". Анализ таких данных разработан, даже возможны варианты.
(1) При анализе таких данных удобно использовать порядковые статистики. И при описании (медиана, квартили) и при сравнении. В случае 3 групп можно использовать не дисперсионный анализ (anova), а его прямой ранговый аналог - критерий Краскела-Уоллиса. Поскольку обрабатываться будут не сами числа, а только их ранги - ЦН для анализа нужно просто заменить большим числом, например, 60 мин или 120 мин - не принципиально.
(2) Можно использовать методы, специально разработанные для анализа данных с ЦН - как вам советует р2004r. Читайте про анализ выживаемости, метод Каплана - Мейера и т.д. У вас данных мало, ступеньки будут некрасиво большими, но это классика - полезно освоить.
(3) Существуют также всякие экстраполяционные процедуры, типа ROS-метода (Regression on Order Statistics) и ещё много чего. Но, полагаю, для начала это - уже перебор.

nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.04.2014 - 21:18
Сообщение #5





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(ivan12 @ 1.04.2014 - 23:21) *
nokh, спасибо Вам большое, что откликнулись. На данный момент наиболее понятный мне вариант - это первый из предложенных Вами. В связи с этим есть еще один вопрос. Как тогда рассчитывать медиану и квартили и как правильно будет графически представить результаты из 3-й группы? Например, в этой группе вариационный ряд содержит 6 точных значений и 5 значений неопределенных (т.е. что-то больше 60 мин). Вроде бы рассчитывать медиану из этих 6 известных значений, игнорируя другие 5, как мне кажется, некорректно. С другой стороны, если эти неопределенные 5 измерений просто заменить на 60 (или 120 мин), то медиана и квартили изменятся. Буду очень благодарен за пояснение и/или пример оформления аналогичных данных в какой-нибудь статье.

Медиану с квартилями дают на коробчатых диаграммах (Box-and-Whisker plot): http://ru.wikipedia.org/wiki/Ящик_с_усами . В качестве усов лучше давать минимум-максимум, т.е. безо всяких выбросов! В хороших пакетах это настраивается.
В вашем случае медианой будет большее из 6 точных значений, т.к. именно оно стоит посередине в ряду из 11 значений (5 вы просто не дождались). А вот верхнюю квартиль без экстраполяций не расчитать, поэтому проще её не давать (в советских учебниках квартиль и процентиль женского рода). Можете построить график, заменив ЦН на 60, а затем в графическом редакторе вручную отчертить линию на уровне 60 мин и верх третьего короба выше этой линии стереть. Как здесь, на рисунке Cеnsored Boxplot, только не снизу, а сверху: http://www.practicalstats.com/news/blog_fi...2308da23-0.html
Но я советую всё-таки освоить также анализ выживаемости. Куча материалов в сети и есть во всех пакетах.

Сообщение отредактировал nokh - 1.04.2014 - 21:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 1.04.2014 - 22:33
Сообщение #6





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Я бы поддержала идею анализа неполных данных. Каплан-Майеровские кривые дадут иллюстрацию различий, но в данном случае интересен анализ таблиц дожития, когда задаются нужные интервалы наблюдения, например по 10 минут и для каждого из 6 интервалов наблюдения рассчитываются частоты, а также получают множительные оценки по интервалам, т.е. это классические таблицы дожития. Они реализованы в пакетах и в Statistica в том числе. Для выполнения этого анализа нужно организовать данные в трех переменных: принадлежность к группе (1,2,3), время от начала наблюдения до начал наступления исследуемого события (мин) и статус (1,0). Для случаев отсутствия начала свертывания время наблюдения 60 мин. И все.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Liz
сообщение 1.04.2014 - 23:10
Сообщение #7





Группа: Ожидающие
Сообщений: 68
Регистрация: 21.01.2012
Пользователь №: 23436



Cреднее время для 3-ей группы можно посчитать по части данных в ней (когда лизис был), проигнорировав случаи, когда не был (или, что точнее, найти среднее время в этой группе анализом выживаемости, чтобы учесть случаи отсутствия лизиса /т.е. учесть цензурированные данные/).

Сообщение отредактировал Liz - 12.04.2014 - 05:35


Signature
English is my hobby.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Galois
сообщение 2.04.2014 - 19:25
Сообщение #8





Группа: Пользователи
Сообщений: 6
Регистрация: 23.03.2014
Пользователь №: 26224



Задача описана не полно. Но чувствуется, что надо вам почитать регрессии Кокса и иже с ними. Обратите внимание на понятие цензурированных наблюдений. Судя по вашим описаниям, таковые у Вас есть. Вы еще забыли указать, каким пакетом пользуетесь. Иначе трудно указать вам конкретную процедуру.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.04.2014 - 07:42
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Galois @ 2.04.2014 - 22:25) *
Задача описана не полно. Но чувствуется, что надо вам почитать регрессии Кокса и иже с ними. Обратите внимание на понятие цензурированных наблюдений. Судя по вашим описаниям, таковые у Вас есть. Вы еще забыли указать, каким пакетом пользуетесь. Иначе трудно указать вам конкретную процедуру.

А по мне - так достаточно полно. По крайней мере вполне достаточно для того, чтобы все её поняли. А путь "от пакета к методу"- тупиковый. Нужно отталкиваться от оптимального для данной задачи метода и только потом искать пакет где он реализован.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ivan12
сообщение 8.04.2014 - 17:25
Сообщение #10





Группа: Пользователи
Сообщений: 4
Регистрация: 1.04.2014
Пользователь №: 26271



Дорогие коллеги!
В итоге в тех наблюдения, в которых лизис сгустка так и не начался, я заменил n/d на 1000 мин (существенно больше часа, чтобы проще было работать с числами) и использовал анализ Краскела-Уоллиса и пост-хок Данна. Спасибо за примеры графиков!
Только теперь ситуация еще усложнилась. Мы сделали аналогичный эксперимент, в котором опять исследовали время до начала лизиса сгустка крови. Опять было три независимых группы образцов по 8-12 в каждой группе. В 1-й и 2-й группе во всех образцах формировался сгусток, который лизировался в течение 60 мин, а в 3-й группе теперь, помимо таких образцов, в которых лизис сгустка вообще не начинался за время наблюдения, появились и такие, в которых лизис в принципе не мог начаться по причине того, что сгусток не образовывался. В обоих случаях прибор выдает одинаковый ответ n/d, что параметр не определен, но, мне кажется, смешивать эти случаи будет неправильно. Можно ли те случаи, где лизис не начался из-за того, что он в принципе не мог начаться из-за отсутствия сгустка как такового, принять за 0 минут, а те, в которых сгусток образовывался, но лизис так и не начался в течение наблюдения, принять за 1000 мин и повторить анализ Краскела-Уоллиса? Или это неверно?
Буду очень признателен за помощь!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Liz
сообщение 10.04.2014 - 12:26
Сообщение #11





Группа: Ожидающие
Сообщений: 68
Регистрация: 21.01.2012
Пользователь №: 23436



"Время до начала лизиса" равное 0 означает, что лизис (и соответственно сгусток) был (и начался сразу).


Signature
English is my hobby.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 11.04.2014 - 19:05
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Согласен с Liz. Раз лизиса не могло быть в принципе, значит это - качественные, а не количественные различия. Возможно, лучше анализ разделить на 2 части: анализ качественных различий (частоты, %, хи-квадрат) и анализ количественных (как вы уже делали + варианты).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему