Статистическое сравнение подгрупп |
Здравствуйте, гость ( Вход | Регистрация )
Статистическое сравнение подгрупп |
25.08.2009 - 13:59
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 25.08.2009 Пользователь №: 6271 |
Всем здравствуйте.
Заранее извиняюсь за (наверное) глупый вопрос, но я пока в статистике полный профан. Вопрос такой. Есть группа больных (61 человек), получавших определённое лечение, разделённая на 2 подгруппы по степени тяжести заболевания - "тяжёлые" и "лёгкие". В первой - 35 пациентов, во второй - 26. После завершения лечения в каждой из подгрупп были пациенты с улучшением, стабилизацией и ухудшением. Как статистически обсчитать - есть ли достоверные различия в результате лечения? В цифрах получилось, что в группе "лёгких" ул/ст/ух = 61,54%/34,62%/3,85%, а вгруппе "тяжёлых" ул/ст/ух = 51,43%/37,14%/11,43%. Всем заранее спасибо за помощь. |
|
25.08.2009 - 20:48
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Как статистически обсчитать - есть ли достоверные различия в результате лечения? Используя могучую программу http://doctorstat.narod.ru/ и критерий сравнения хи-квадрат, получаем, что доли пациентов с улучшением, стабилизацией, ухудшением в 2-х группах больных (тяжелые и легкие) на уровне значимости alfa=0,05 не отличаются, т.к. вычисленный уровень значимости отличий p-value=0,51>0,05. Смотри распечатку программы на приложенном рисунке.Просто включи мозги => http://doctorstat.narod.ru
|
|
26.08.2009 - 06:48
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... Есть группа больных (61 человек), получавших определённое лечение, разделённая на 2 подгруппы по степени тяжести заболевания - "тяжёлые" и "лёгкие". В первой - 35 пациентов, во второй - 26. После завершения лечения в каждой из подгрупп были пациенты с улучшением, стабилизацией и ухудшением. Как статистически обсчитать - есть ли достоверные различия в результате лечения? В цифрах получилось, что в группе "лёгких" ул/ст/ух = 61,54%/34,62%/3,85%, а вгруппе "тяжёлых" ул/ст/ух = 51,43%/37,14%/11,43%... Данные нужно занести в таблицу сопряжённости типа как у DoctorStat, но поменять ряды и колонки местами: обычно группы располагают в рядах, а их характеристики - в колонках, хотя для расчётов это не имеет значения. Использование критериев хи-квадрат и отношения правдоподобия для ваших данных не вполне корректно, т.к. в них не учитывается упорядоченный характер категорий: улучшение - стабилизация - ухудшение. В этом случае существенно более мощными являются специальные варианты критериев Краскела-Уоллиса и нормальных меток, которые недоступны в распространённых стат. пакетах, а также однофакторный дисперсионный анализ для таблиц сопряженности с произвольными метками (One-Way ANOVA with arbitrary scores). К сожалению, прочитать про них по-русски скорее всего негде. Они есть в пакете StatXact ( http://www.cytel.com/products/statxact/ ) и описаны в прилагаемом к нему учебнике (с. 827 - ...). Для ваших данных различия между группами не обнаруживаются и этими методами: Kruskal-Wallis statistics=0,902; df=1; Pexact=0,360 ANOVA statistics=1,111; df=1; Pexact=0,324 (для упорядоченных категорий использовал линейные веса: 1, 2, 3). Использование программы StatXact предпочтительно, т.к. она корректно обрабатывает малые частоты (менее 4-5 наблюдений в ячейке) и позволяет рассчитать точные (exact) значения P, а не асимптотические. При ее отстутствии можно воспользоваться бесплатным онлайновым калькулятором Kruskal-Wallis для таблиц сопряженности, считающим асимптотические P: http://department.obg.cuhk.edu.hk/research...skallWallis.ASP Заполните ее данными: 2 Number of rows 3 Number of columns 16 9 1 18 13 4 и запустите. Она даёт то же значение статистики Н=0,902 и немного отличное значение P=0,3422. Т.о. Ваши группы не различаются статистически значимо по реакции на лечение. Сообщение отредактировал nokh - 26.08.2009 - 07:34 |
|
26.08.2009 - 07:59
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 25.08.2009 Пользователь №: 6271 |
Спасибо большое за помощь!
Мне как раз надо было доказать, что нет статистической разницы между подруппами! |
|
26.08.2009 - 11:52
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Используя могучую программу http://doctorstat.narod.ru/ и критерий сравнения хи-квадрат, получаем, что доли пациентов с улучшением, стабилизацией, ухудшением в 2-х группах больных (тяжелые и легкие) на уровне значимости alfa=0,05 не отличаются, т.к. вычисленный уровень значимости отличий p-value=0,51>0,05. Смотри распечатку программы на приложенном рисунке. Хотя в данном случае хи-квадрат применять не совсем корректно, ибо имеются проблемы аппроксимации хи-квадрат, точные методы дают примерно те же значения: критерий Фримана-Холтона (точный) p = 0,48959 критерий Фримана-Холтона (Монте-Карло, 1 млн. таблиц) p = 0 ,465469 Только анализировались этими методами (также и хи-квадрат) не различия между подгруппами, а зависимость между переменной - тяжесть заболевания (номинальная - 2 градации) - и переменной - результат лечения (номинальная - 3 градации). Данные нужно занести в таблицу сопряжённости ... Kruskal-Wallis statistics Не понял, при чем тут Краскел-Уоллис, если обрабатывается таблица сопряженности? Сообщение отредактировал Игорь - 26.08.2009 - 12:08 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
26.08.2009 - 12:14
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 25.08.2009 Пользователь №: 6271 |
Спасибо за "наводки", но я всё-таки с первого захода ещё с программами не разобрался
Если это не очень сложно - DoctorStat, помогите ещё сделать такой же анализ по хи-квадрату при делении той же группы по длительности заболевания: 5 лет и менее (29 пациентов): ул/ст/ух = 22/7/0 6-10 лет (18 пациентов): ул/ст/ух = 8/6/4 более 10 лет (14 пациентов): ул/ст/ух = 5/8/1 Заранее спасибо за помощь! Сообщение отредактировал Сталкер - 26.08.2009 - 12:16 |
|
26.08.2009 - 13:02
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо за "наводки", но я всё-таки с первого захода ещё с программами не разобрался Если это не очень сложно - DoctorStat, помогите ещё сделать такой же анализ по хи-квадрату при делении той же группы по длительности заболевания: 5 лет и менее (29 пациентов): ул/ст/ух = 22/7/0 6-10 лет (18 пациентов): ул/ст/ух = 8/6/4 более 10 лет (14 пациентов): ул/ст/ух = 5/8/1 Заранее спасибо за помощь! Уважаемый Сталкер! DoctorStat, не сомневаюсь, Вам поможет посчитать, однако хи-квадрат здесь формально неприменим уже не по одной причине (проблемы аппроксимации), а по целым двум (еще нулевая ячейка). Хотя подставить данные и посчитать, конечно, можно: хи-квадрат = 13,10910939 (p = 0,01075479). Точны критерии дают немного иные результаты: Критерий Фримана-Холтона (точный) p = 0,00873946 Критерий Фримана-Холтона (Монте-Карло) p = 0,00876 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
26.08.2009 - 13:11
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Хотя в данном случае хи-квадрат применять не совсем корректно, ибо имеются проблемы аппроксимации хи-квадрат, точные методы дают примерно те же значения... ... Не понял, при чем тут Краскел-Уоллис, если обрабатывается таблица сопряженности? Хи-квадрат здесь применять некорректно в первую очередь не потому, что имеются проблемы аппроксимации, а потому что не учитывается упорядоченность категорий. А про этот вариант Краскела-Уоллиса - Вам нужно посмотреть источники в моём посте. Вторая задача Сталкера тем более не решается полноценно хи-квадратом, т.к. здесь упорядоченными являются уже обе категории: и возраст, и реакция на лечение. Т.е. они не номинальные. При учёте упорядоченности будет выигрыш в мощности, поэтому DoctorStat со своей "могучей" программой не поможет. >Сталкер Нужно использовать Jonckheere-Terpstra Test или Linear-by-linear Association Test. Последний описан у Агрести, а его разноидность также в Л. Закс. Статистическое оценивание (скоро закончу сканировать и выложу куда-нибудь в djvu). Программ с этими тестами кроме StatXact быстро не вспомнил, но критерий Jonckheere-Terpstra когда-то давно обсуждался на этом форуме, можно воспользоваться поиском. |
|
26.08.2009 - 13:11
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Если это не очень сложно - DoctorStat, помогите Смотрите распечатку программы http://doctorstat.narod.ru в приложенном рисунке. Вычисленный уровень значимости р=0,01<0,05 говорит о том, что три группы пациентов с различной длительностью заболевания различаются по результату лечения.
Просто включи мозги => http://doctorstat.narod.ru
|
|
26.08.2009 - 13:29
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 25.08.2009 Пользователь №: 6271 |
Огромное спасибо всем за помощь!
DoctorStat - спасибо за "экстренное" решение проблемы! Игорь и nokh - спасибо за правильные мысли, я с этим обязательно буду разбираться и, надеюсь, пойму |
|
26.08.2009 - 13:37
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Смотрите распечатку программы http://doctorstat.narod.ru в приложенном рисунке. Вычисленный уровень значимости р=0,01<0,05 говорит о том, что три группы пациентов с различной длительностью заболевания различаются по результату лечения. Помощь это или вред? У всех есть пробелы в знаниях, но Вы бы прежде посмотрели что говорят другие участники форума по этому поводу: ерунду или дело. Проверили бы по ссылкам и источникам. О современном теоретически обоснованном аналоге хи-квадрата, в отличие от эмпирического хи-квадрата, об упорядоченности категорий, о проблемах аппрoксимации для критериев хи-квадрат и отношения максимального правдоподобия, о проблеме нулевых ячеек, о поправках на непрерывность, о точных перестановочных (exact permutation) тестах... Хи-квадрат здесь применим лишь формально. >Сталкер. Ваша проблема не решена. Торопиться незачем, разбирайтесь потихоньку. А иначе зачем использовать статистику, если использовать ее неправильно? Можно написать "мне думается так-то", но ведь научный мир вас не поймёт. Точно так же он вас не поймёт если использовать статистику некорректно. Сообщение отредактировал nokh - 26.08.2009 - 13:44 |
|
26.08.2009 - 13:52
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Хи-квадрат здесь применять некорректно в первую очередь не потому, что имеются проблемы аппроксимации, а потому что не учитывается упорядоченность категорий. А про этот вариант Краскела-Уоллиса - Вам нужно посмотреть источники в моём посте. Абсолютно согласен. Только автор вопроса может неверно понять ответ: 1. Действительно, его данные - изначально порядковые (т.н. естественным образом упорядоченные). Однако построив таблицу сопряженности, он преобразовал их к номинальным и показал их нам. Также поменял условие задачи. 2. Он может взять и подставить в формулы (или программы) для порядковых выборок в качестве выборок строки таблицы сопряженности. И сильно ошибется. Поставлять-то нужно исходные данные. Например, закодировать тяжесть заболевания 1, 2, 3 - рангами. И подставлять в формулы не строку таблицы сопряженности, для примера, 5 3 1 а выборку, из которой эта строка получилась, т.е. 1 1 1 1 1 2 2 2 3 3 3 Тогда, действительно, можно и Краскела-Уоллиса, и Джонкхиера, и много еще кого использовать (но для порядковых выборок, а не для строк таблицы сопряженности). Тогда и будет решаться задача не сравнения [номинальных] параметров (таблица сопряженности - чего? - параметров! а не выборок), а сравнения выборок. Сообщение отредактировал Игорь - 26.08.2009 - 18:36 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
26.08.2009 - 14:34
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 25.08.2009 Пользователь №: 6271 |
Игорь и nokh я, ксожалению, пока в таких сложных моментах не могу польностью разобраться
Если Вас не затруднит - можно те же мои цифры обсчитать правильно, но поэтапно и с какими-нибудь таблицами? Мне так будет проще понять что к чему. |
|
26.08.2009 - 21:14
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да, на первых порах разобраться сложно, но nokh дал исчерпывающий ответ, как нужно решить эту задачу. Могу добавить, что программа StatXact обсуждалась на форуме и ее великолепная документация позволяет освоить много полезных вещей. На месяц дается бесплатно, ключ для treal давно не менялся 2000002 , можно не заливать программу повторно после месяца работы, а реинсталлировать, убрав предварительно все следы или запустить под другой операционной системой. Есть также и SPSS, где реализованы и K-W и J-T, который обсуждался на этом форуме подробно и, на сколько я помню, реализован в AtteStat.
Относительно готовых ответов, желательно все же прочитать и понять все что nokh написал. Но, если я не ошиблась в наборе данных, то Test Statisticsa,b VAR00003 Chi-Square 8,882 df 2 Asymp. Sig. ,012 Exact Sig. ,011 Kruskal Wallis Test - это в SPSS, аналогичный результат в StatXact Inference: P-Value P-Value P-Value Type Statistic DF Tail 2-Sided Point Prob. Asymptotic 8.882 2 .GE. 0.01179 Exact 8.882 .GE. 0.01105 3.225e-005 Или Jonckheere-Terpstra Testa VAR00003 Number of Levels in VAR00004 3 N 61 Observed J-T Statistic 769,000 Mean J-T Statistic 590,000 Std. Deviation of J-T Statistic 64,951 Std. J-T Statistic 2,756 Asymp. Sig. (2-tailed) ,006 Exact Sig. (2-tailed) ,006 Exact Sig. (1-tailed) ,003 |
|
27.08.2009 - 06:41
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Игорь и nokh я, ксожалению, пока в таких сложных моментах не могу польностью разобраться Если Вас не затруднит - можно те же мои цифры обсчитать правильно, но поэтапно и с какими-нибудь таблицами? Мне так будет проще понять что к чему. Есть методы ручной расчет по которым крайне утомителен и содержит большую вероятность ошибок. Поэтому знать детально работу критериев с которыми Вы работаете желательно, но не обязательно, намного важнее ориентироваться в выборе соответствующих задаче методов, знать их сильные и слабые стороны, условия применимости. Из обсуждаемых здесь специальных методов я вручную считал только Краскела-Уоллиса, но применительно к таблицам сопряженности до вчерашнего дня не знал как он работает - думал есть особая его модификация. Благодаря Игорю теперь все понятно - таблица сопряженности разворачивается в 2 или несколько выборок. Для вашей первой задачи (16, 9, 1 и 18, 13, 4) группа легких больных представлена 16-ю единицами, 9-ю двойками и одной тройкой, а группа тяжелых - 18-ю единицами, 13-ю двойками и четырьмя тройками. 1, 2 и 3 - коды, которые получают упорядоченные категории: 1 - улучшение, 2 - стабилизация, 3 - ухудшение. Далее проводится сравнение этих групп. Аналогично и для критерия Джонкхира-Терпстры. В ваших задачах в качестве главной нулевой гипотезы (Но) выступает отсутствие сдвига в двух или нескольких рядах (в задаче 1 Но: улучшение состояния не зависит от тяжести заболевания). Поэтому таблица сопряженности анализируется по особому - с учетом упорядоченности категорий. Преимущество такого подхода - единицей анализа выступает вся выборка, в то время как в случае критерия хи-квадрат - только одна ячейка таблицы. Поэтому в этой задаче учёт упорядоченности категорий обладает большей мощностью - способностью обнаружить различия там где они есть. Т.е. хи-квадрат может показать отсутствие каких-либо различий, но когда мы развернём таблицу в две выборки - сдвиг обнаружится. В случае если сдвиг не обнаружен (а интересовало в первую очередь именно это) - можно выдвигать другие гипотезы относительно тех же данных. Например, гипотезу независимости входов таблицы (в задаче 1 Но: исход лечения не зависит от тяжести заболевания). В этом случае мы откажемся от упорядоченности категорий и будем анализировать их как номинальные с использованием критериев типа хи-квадрат. Возможна ситуация, когда первый подход ничего не обнаружит, а второй - обнаружит. Это значит сдвига нет, но есть какая-то специфика. Например, может оказаться, что по доле пациентов с улучшением и ухудшением существенных различий нет, но они есть по доле пациентов со стабилизацией. Для выявления такой специфики находятся стандартизированные остатки и смотрится какие ячейки таблицы выделяются, т.е. за счет каких ячеек значимым оказался весь тест. Решение вашей второй задачи DrgLena дала. Далее можно разбираться с процентами, построить графики (обычно здесь используют столбчатые диаграммы), если нужно - перейти к отношениям шансов. Так, по процентам видно, что связь положительная (чем больше длительность, тем больше процент ухудшений и наоборот, чем меньше длительность, тем больше процент улучшений). Можно посворачивать таблицу объединяя разным способом ряды и колонки. Так можно разобраться в деталях: например, обнаружить, что группа "5 лет и менее" сильнее отличается от группы "более 5 лет" чем группа "10 лет и менее" от группы "более 10 лет". Я бы вывод такой написал: Обнаружена статистически значимая положительная связь между длительностью заболевания и исходом лечения: критерий Джонкхира-Терпстры = 2,756; р=0,006. Анализ показал, что она была обусловлена, в первую очередь, высокой долей пациентов с положительным течением заболевания в группе с длительностью заболевания 5 и менее лет. Шансы улучшения состояния пациентов в этой группе были в 4,59 раз выше (95%-ный доверительный интервал 1,52-13,87) по сравнению с пациентами с более длительным течением заболевания. Но я не знаю специфики исследования - возможно для вас важнее обсудить момент ухудшения состояния, тогда об этом и нужно писать. Последуйте совету DrgLena - скачайте программу StatXact, там просто разобраться. Почитайте литературу, начать можно с Ребровой (Статистический анализ медицинских данных). Я сегодня-завтра отсканирую раздел Закса по анализу упорядоченных таблиц сопряженности и отпишусь в этой теме. К сожалению, сложность данных не зависит от опыта исследователя: у студентов уже на 3-4 курсе встречаются такие данные, что приходится серьёзно думать над ними и разбираться в несколько заходов. И как правило именно у начинающих исследователей выборки небольшие, а это сильно осложняет дело. Сообщение отредактировал nokh - 27.08.2009 - 07:02 |
|