Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Статистическое сравнение подгрупп
Сталкер
сообщение 25.08.2009 - 13:59
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 25.08.2009
Пользователь №: 6271



Всем здравствуйте.
Заранее извиняюсь за (наверное) глупый вопрос, но я пока в статистике полный профан.
Вопрос такой.
Есть группа больных (61 человек), получавших определённое лечение, разделённая на 2 подгруппы по степени тяжести заболевания - "тяжёлые" и "лёгкие". В первой - 35 пациентов, во второй - 26.
После завершения лечения в каждой из подгрупп были пациенты с улучшением, стабилизацией и ухудшением.
Как статистически обсчитать - есть ли достоверные различия в результате лечения? В цифрах получилось, что в группе "лёгких" ул/ст/ух = 61,54%/34,62%/3,85%, а вгруппе "тяжёлых" ул/ст/ух = 51,43%/37,14%/11,43%.
Всем заранее спасибо за помощь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 25.08.2009 - 20:48
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Сталкер @ 25.08.2009 - 14:59) *
Как статистически обсчитать - есть ли достоверные различия в результате лечения?
Используя могучую программу http://doctorstat.narod.ru/ и критерий сравнения хи-квадрат, получаем, что доли пациентов с улучшением, стабилизацией, ухудшением в 2-х группах больных (тяжелые и легкие) на уровне значимости alfa=0,05 не отличаются, т.к. вычисленный уровень значимости отличий p-value=0,51>0,05. Смотри распечатку программы на приложенном рисунке.

Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.08.2009 - 06:48
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Сталкер @ 25.08.2009 - 16:59) *
... Есть группа больных (61 человек), получавших определённое лечение, разделённая на 2 подгруппы по степени тяжести заболевания - "тяжёлые" и "лёгкие". В первой - 35 пациентов, во второй - 26. После завершения лечения в каждой из подгрупп были пациенты с улучшением, стабилизацией и ухудшением. Как статистически обсчитать - есть ли достоверные различия в результате лечения? В цифрах получилось, что в группе "лёгких" ул/ст/ух = 61,54%/34,62%/3,85%, а вгруппе "тяжёлых" ул/ст/ух = 51,43%/37,14%/11,43%...

Данные нужно занести в таблицу сопряжённости типа как у DoctorStat, но поменять ряды и колонки местами: обычно группы располагают в рядах, а их характеристики - в колонках, хотя для расчётов это не имеет значения. Использование критериев хи-квадрат и отношения правдоподобия для ваших данных не вполне корректно, т.к. в них не учитывается упорядоченный характер категорий: улучшение - стабилизация - ухудшение. В этом случае существенно более мощными являются специальные варианты критериев Краскела-Уоллиса и нормальных меток, которые недоступны в распространённых стат. пакетах, а также однофакторный дисперсионный анализ для таблиц сопряженности с произвольными метками (One-Way ANOVA with arbitrary scores). К сожалению, прочитать про них по-русски скорее всего негде. Они есть в пакете StatXact ( http://www.cytel.com/products/statxact/ ) и описаны в прилагаемом к нему учебнике (с. 827 - ...). Для ваших данных различия между группами не обнаруживаются и этими методами:
Kruskal-Wallis statistics=0,902; df=1; Pexact=0,360
ANOVA statistics=1,111; df=1; Pexact=0,324 (для упорядоченных категорий использовал линейные веса: 1, 2, 3).

Использование программы StatXact предпочтительно, т.к. она корректно обрабатывает малые частоты (менее 4-5 наблюдений в ячейке) и позволяет рассчитать точные (exact) значения P, а не асимптотические. При ее отстутствии можно воспользоваться бесплатным онлайновым калькулятором Kruskal-Wallis для таблиц сопряженности, считающим асимптотические P: http://department.obg.cuhk.edu.hk/research...skallWallis.ASP
Заполните ее данными:
2 Number of rows
3 Number of columns
16 9 1
18 13 4
и запустите. Она даёт то же значение статистики Н=0,902 и немного отличное значение P=0,3422.

Т.о. Ваши группы не различаются статистически значимо по реакции на лечение.

Сообщение отредактировал nokh - 26.08.2009 - 07:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Сталкер
сообщение 26.08.2009 - 07:59
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 25.08.2009
Пользователь №: 6271



Спасибо большое за помощь!
Мне как раз надо было доказать, что нет статистической разницы между подруппами!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.08.2009 - 11:52
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(DoctorStat @ 25.08.2009 - 20:48) *
Используя могучую программу http://doctorstat.narod.ru/ и критерий сравнения хи-квадрат, получаем, что доли пациентов с улучшением, стабилизацией, ухудшением в 2-х группах больных (тяжелые и легкие) на уровне значимости alfa=0,05 не отличаются, т.к. вычисленный уровень значимости отличий p-value=0,51>0,05. Смотри распечатку программы на приложенном рисунке.

Хотя в данном случае хи-квадрат применять не совсем корректно, ибо имеются проблемы аппроксимации хи-квадрат, точные методы дают примерно те же значения:
критерий Фримана-Холтона (точный) p = 0,48959
критерий Фримана-Холтона (Монте-Карло, 1 млн. таблиц) p = 0 ,465469

Только анализировались этими методами (также и хи-квадрат) не различия между подгруппами, а зависимость между переменной - тяжесть заболевания (номинальная - 2 градации) - и переменной - результат лечения (номинальная - 3 градации).

Цитата(nokh @ 26.08.2009 - 06:48) *
Данные нужно занести в таблицу сопряжённости ...
Kruskal-Wallis statistics

Не понял, при чем тут Краскел-Уоллис, если обрабатывается таблица сопряженности?

Сообщение отредактировал Игорь - 26.08.2009 - 12:08


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Сталкер
сообщение 26.08.2009 - 12:14
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 25.08.2009
Пользователь №: 6271



Спасибо за "наводки", но я всё-таки с первого захода ещё с программами не разобрался frown.gif

Если это не очень сложно - DoctorStat, помогите ещё сделать такой же анализ по хи-квадрату при делении той же группы по длительности заболевания:

5 лет и менее (29 пациентов): ул/ст/ух = 22/7/0
6-10 лет (18 пациентов): ул/ст/ух = 8/6/4
более 10 лет (14 пациентов): ул/ст/ух = 5/8/1

Заранее спасибо за помощь!

Сообщение отредактировал Сталкер - 26.08.2009 - 12:16
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.08.2009 - 13:02
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(Сталкер @ 26.08.2009 - 12:14) *
Спасибо за "наводки", но я всё-таки с первого захода ещё с программами не разобрался frown.gif

Если это не очень сложно - DoctorStat, помогите ещё сделать такой же анализ по хи-квадрату при делении той же группы по длительности заболевания:

5 лет и менее (29 пациентов): ул/ст/ух = 22/7/0
6-10 лет (18 пациентов): ул/ст/ух = 8/6/4
более 10 лет (14 пациентов): ул/ст/ух = 5/8/1

Заранее спасибо за помощь!

Уважаемый Сталкер!
DoctorStat, не сомневаюсь, Вам поможет посчитать, однако хи-квадрат здесь формально неприменим уже не по одной причине (проблемы аппроксимации), а по целым двум (еще нулевая ячейка). Хотя подставить данные и посчитать, конечно, можно: хи-квадрат = 13,10910939 (p = 0,01075479).
Точны критерии дают немного иные результаты:
Критерий Фримана-Холтона (точный) p = 0,00873946
Критерий Фримана-Холтона (Монте-Карло) p = 0,00876


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.08.2009 - 13:11
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 26.08.2009 - 14:52) *
Хотя в данном случае хи-квадрат применять не совсем корректно, ибо имеются проблемы аппроксимации хи-квадрат, точные методы дают примерно те же значения...
...
Не понял, при чем тут Краскел-Уоллис, если обрабатывается таблица сопряженности?

Хи-квадрат здесь применять некорректно в первую очередь не потому, что имеются проблемы аппроксимации, а потому что не учитывается упорядоченность категорий. А про этот вариант Краскела-Уоллиса - Вам нужно посмотреть источники в моём посте.

Вторая задача Сталкера тем более не решается полноценно хи-квадратом, т.к. здесь упорядоченными являются уже обе категории: и возраст, и реакция на лечение. Т.е. они не номинальные. При учёте упорядоченности будет выигрыш в мощности, поэтому DoctorStat со своей "могучей" программой не поможет.

>Сталкер
Нужно использовать Jonckheere-Terpstra Test или Linear-by-linear Association Test. Последний описан у Агрести, а его разноидность также в Л. Закс. Статистическое оценивание (скоро закончу сканировать и выложу куда-нибудь в djvu). Программ с этими тестами кроме StatXact быстро не вспомнил, но критерий Jonckheere-Terpstra когда-то давно обсуждался на этом форуме, можно воспользоваться поиском.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 26.08.2009 - 13:11
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Сталкер @ 26.08.2009 - 13:14) *
Если это не очень сложно - DoctorStat, помогите
Смотрите распечатку программы http://doctorstat.narod.ru в приложенном рисунке. Вычисленный уровень значимости р=0,01<0,05 говорит о том, что три группы пациентов с различной длительностью заболевания различаются по результату лечения.
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Сталкер
сообщение 26.08.2009 - 13:29
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 25.08.2009
Пользователь №: 6271



Огромное спасибо всем за помощь!
DoctorStat - спасибо за "экстренное" решение проблемы!
Игорь и nokh - спасибо за правильные мысли, я с этим обязательно буду разбираться и, надеюсь, пойму smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.08.2009 - 13:37
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(DoctorStat @ 26.08.2009 - 16:11) *
Смотрите распечатку программы http://doctorstat.narod.ru в приложенном рисунке. Вычисленный уровень значимости р=0,01<0,05 говорит о том, что три группы пациентов с различной длительностью заболевания различаются по результату лечения.

Помощь это или вред? У всех есть пробелы в знаниях, но Вы бы прежде посмотрели что говорят другие участники форума по этому поводу: ерунду или дело. Проверили бы по ссылкам и источникам. О современном теоретически обоснованном аналоге хи-квадрата, в отличие от эмпирического хи-квадрата, об упорядоченности категорий, о проблемах аппрoксимации для критериев хи-квадрат и отношения максимального правдоподобия, о проблеме нулевых ячеек, о поправках на непрерывность, о точных перестановочных (exact permutation) тестах... Хи-квадрат здесь применим лишь формально.

>Сталкер. Ваша проблема не решена. Торопиться незачем, разбирайтесь потихоньку. А иначе зачем использовать статистику, если использовать ее неправильно? Можно написать "мне думается так-то", но ведь научный мир вас не поймёт. Точно так же он вас не поймёт если использовать статистику некорректно.

Сообщение отредактировал nokh - 26.08.2009 - 13:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.08.2009 - 13:52
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 964
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(nokh @ 26.08.2009 - 13:11) *
Хи-квадрат здесь применять некорректно в первую очередь не потому, что имеются проблемы аппроксимации, а потому что не учитывается упорядоченность категорий. А про этот вариант Краскела-Уоллиса - Вам нужно посмотреть источники в моём посте.

Абсолютно согласен. Только автор вопроса может неверно понять ответ:
1. Действительно, его данные - изначально порядковые (т.н. естественным образом упорядоченные). Однако построив таблицу сопряженности, он преобразовал их к номинальным и показал их нам. Также поменял условие задачи.
2. Он может взять и подставить в формулы (или программы) для порядковых выборок в качестве выборок строки таблицы сопряженности. И сильно ошибется. Поставлять-то нужно исходные данные. Например, закодировать тяжесть заболевания 1, 2, 3 - рангами. И подставлять в формулы не строку таблицы сопряженности, для примера,

5 3 1

а выборку, из которой эта строка получилась, т.е.

1 1 1 1 1 2 2 2 3 3 3

Тогда, действительно, можно и Краскела-Уоллиса, и Джонкхиера, и много еще кого использовать (но для порядковых выборок, а не для строк таблицы сопряженности). Тогда и будет решаться задача не сравнения [номинальных] параметров (таблица сопряженности - чего? - параметров! а не выборок), а сравнения выборок.

Сообщение отредактировал Игорь - 26.08.2009 - 18:36


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Сталкер
сообщение 26.08.2009 - 14:34
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 25.08.2009
Пользователь №: 6271



Игорь и nokh я, ксожалению, пока в таких сложных моментах не могу польностью разобраться frown.gif
Если Вас не затруднит - можно те же мои цифры обсчитать правильно, но поэтапно и с какими-нибудь таблицами? Мне так будет проще понять что к чему.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 26.08.2009 - 21:14
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 1323
Регистрация: 27.11.2007
Пользователь №: 4573



Да, на первых порах разобраться сложно, но nokh дал исчерпывающий ответ, как нужно решить эту задачу. Могу добавить, что программа StatXact обсуждалась на форуме и ее великолепная документация позволяет освоить много полезных вещей. На месяц дается бесплатно, ключ для treal давно не менялся 2000002 , можно не заливать программу повторно после месяца работы, а реинсталлировать, убрав предварительно все следы или запустить под другой операционной системой. Есть также и SPSS, где реализованы и K-W и J-T, который обсуждался на этом форуме подробно и, на сколько я помню, реализован в AtteStat.
Относительно готовых ответов, желательно все же прочитать и понять все что nokh написал. Но, если я не ошиблась в наборе данных, то
Test Statisticsa,b
VAR00003
Chi-Square 8,882
df 2
Asymp. Sig. ,012
Exact Sig. ,011
Kruskal Wallis Test - это в SPSS, аналогичный результат в StatXact
Inference:
P-Value P-Value P-Value
Type Statistic DF Tail 2-Sided Point Prob.
Asymptotic 8.882 2 .GE. 0.01179
Exact 8.882 .GE. 0.01105 3.225e-005

Или

Jonckheere-Terpstra Testa
VAR00003
Number of Levels in VAR00004 3
N 61
Observed J-T Statistic 769,000
Mean J-T Statistic 590,000
Std. Deviation of J-T Statistic 64,951
Std. J-T Statistic 2,756
Asymp. Sig. (2-tailed) ,006
Exact Sig. (2-tailed) ,006
Exact Sig. (1-tailed) ,003


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.08.2009 - 06:41
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1085
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Сталкер @ 26.08.2009 - 17:34) *
Игорь и nokh я, ксожалению, пока в таких сложных моментах не могу польностью разобраться frown.gif
Если Вас не затруднит - можно те же мои цифры обсчитать правильно, но поэтапно и с какими-нибудь таблицами? Мне так будет проще понять что к чему.

Есть методы ручной расчет по которым крайне утомителен и содержит большую вероятность ошибок. Поэтому знать детально работу критериев с которыми Вы работаете желательно, но не обязательно, намного важнее ориентироваться в выборе соответствующих задаче методов, знать их сильные и слабые стороны, условия применимости. Из обсуждаемых здесь специальных методов я вручную считал только Краскела-Уоллиса, но применительно к таблицам сопряженности до вчерашнего дня не знал как он работает - думал есть особая его модификация. Благодаря Игорю теперь все понятно - таблица сопряженности разворачивается в 2 или несколько выборок. Для вашей первой задачи (16, 9, 1 и 18, 13, 4) группа легких больных представлена 16-ю единицами, 9-ю двойками и одной тройкой, а группа тяжелых - 18-ю единицами, 13-ю двойками и четырьмя тройками. 1, 2 и 3 - коды, которые получают упорядоченные категории: 1 - улучшение, 2 - стабилизация, 3 - ухудшение. Далее проводится сравнение этих групп. Аналогично и для критерия Джонкхира-Терпстры.
В ваших задачах в качестве главной нулевой гипотезы (Но) выступает отсутствие сдвига в двух или нескольких рядах (в задаче 1 Но: улучшение состояния не зависит от тяжести заболевания). Поэтому таблица сопряженности анализируется по особому - с учетом упорядоченности категорий. Преимущество такого подхода - единицей анализа выступает вся выборка, в то время как в случае критерия хи-квадрат - только одна ячейка таблицы. Поэтому в этой задаче учёт упорядоченности категорий обладает большей мощностью - способностью обнаружить различия там где они есть. Т.е. хи-квадрат может показать отсутствие каких-либо различий, но когда мы развернём таблицу в две выборки - сдвиг обнаружится.
В случае если сдвиг не обнаружен (а интересовало в первую очередь именно это) - можно выдвигать другие гипотезы относительно тех же данных. Например, гипотезу независимости входов таблицы (в задаче 1 Но: исход лечения не зависит от тяжести заболевания). В этом случае мы откажемся от упорядоченности категорий и будем анализировать их как номинальные с использованием критериев типа хи-квадрат. Возможна ситуация, когда первый подход ничего не обнаружит, а второй - обнаружит. Это значит сдвига нет, но есть какая-то специфика. Например, может оказаться, что по доле пациентов с улучшением и ухудшением существенных различий нет, но они есть по доле пациентов со стабилизацией. Для выявления такой специфики находятся стандартизированные остатки и смотрится какие ячейки таблицы выделяются, т.е. за счет каких ячеек значимым оказался весь тест.

Решение вашей второй задачи DrgLena дала. Далее можно разбираться с процентами, построить графики (обычно здесь используют столбчатые диаграммы), если нужно - перейти к отношениям шансов. Так, по процентам видно, что связь положительная (чем больше длительность, тем больше процент ухудшений и наоборот, чем меньше длительность, тем больше процент улучшений). Можно посворачивать таблицу объединяя разным способом ряды и колонки. Так можно разобраться в деталях: например, обнаружить, что группа "5 лет и менее" сильнее отличается от группы "более 5 лет" чем группа "10 лет и менее" от группы "более 10 лет".
Я бы вывод такой написал:
Обнаружена статистически значимая положительная связь между длительностью заболевания и исходом лечения: критерий Джонкхира-Терпстры = 2,756; р=0,006. Анализ показал, что она была обусловлена, в первую очередь, высокой долей пациентов с положительным течением заболевания в группе с длительностью заболевания 5 и менее лет. Шансы улучшения состояния пациентов в этой группе были в 4,59 раз выше (95%-ный доверительный интервал 1,52-13,87) по сравнению с пациентами с более длительным течением заболевания.
Но я не знаю специфики исследования - возможно для вас важнее обсудить момент ухудшения состояния, тогда об этом и нужно писать.

Последуйте совету DrgLena - скачайте программу StatXact, там просто разобраться. Почитайте литературу, начать можно с Ребровой (Статистический анализ медицинских данных). Я сегодня-завтра отсканирую раздел Закса по анализу упорядоченных таблиц сопряженности и отпишусь в этой теме. К сожалению, сложность данных не зависит от опыта исследователя: у студентов уже на 3-4 курсе встречаются такие данные, что приходится серьёзно думать над ними и разбираться в несколько заходов. И как правило именно у начинающих исследователей выборки небольшие, а это сильно осложняет дело.

Сообщение отредактировал nokh - 27.08.2009 - 07:02
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему