Интерпретация полученных результатов |
Здравствуйте, гость ( Вход | Регистрация )
Интерпретация полученных результатов |
2.02.2013 - 22:10
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 |
Всем здравствуйте!
Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить. Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат. Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты. Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман). Нулевая гипотеза: - группы однородны (между группами отсутствуют различия); - распределение по одному признаку не влияет на распределение по другому признаку. После анализа данных получены следующие результаты (в прикрепленном файле). Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы. Сообщение отредактировал aspir_h - 2.02.2013 - 22:41
Прикрепленные файлы
|
|
2.02.2013 - 23:18
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Всем здравствуйте! Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить. Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат. Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты. Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман). Нулевая гипотеза: - группы однородны (между группами отсутствуют различия); - распределение по одному признаку не влияет на распределение по другому признаку. После анализа данных получены следующие результаты (в прикрепленном файле). Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы. Анализ таблиц сопряжённости можно использовать как для поиска различий, так и для анализа связи. Но эти задачи разнятся и поэтому правильнее говорить о чём-то одном. Насколько я понимаю, в вашем случае правильнее говорить именно о различиях двух групп пациентов в характере заболеваемости гипертонией. Эти различия, действительно, высоко статистически значимы. Об ассоциациях правильнее было бы говорить если бы материал собирался иначе. Скажем вы бы взяли пациентов с гипертонией (3 категории) и в каждой посчитали бы у скольких человек есть инфаркт, а у скольких нет (2 категории). В этом случае логичнее было бы говорить не о том, что группы с инфарктом и без него различаются степенью гипертонии, а именно о связи, ассоциации гипертонии с инфарктом и эту связь желательно было бы выразить какой-то мерой ассоциации, скажем тем же коэффициентом сопряжённости Пирсона или фи. В вашей задаче про ассоциации говорить не приходится, но можно далее провести углублённый анализ таблицы на предмет обнаружения ячеек, за счёт которых различия между двумя группами преимущественно проявились, т.е. провести анализ остатков. Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. В вашем случае это не принципиально, т.к. р ничтожно мало (1,66 х 10-13), но в случае менее сильных различий и/или меньших объёмов выборок хи-квадрат или более тонкие подходы могли бы привести к разным выводам. |
|
2.02.2013 - 23:33
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 |
nokh, огромное спасибо за подробное разъяснение!
|
|
7.02.2013 - 14:05
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 |
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается.
т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? |
|
7.02.2013 - 21:46
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? Вообще всё мимо, читайте больше! Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода: Kruskal-WallisTest The Kruskal-Wallis test (Siegel and Castellan, 1988) is the most popular of the nonparametric tests for singly ordered r × c contingency tables. It specializes to the Wilcoxon-Mann-Whitney test when r = 2. This test is also available for continuous data (see Chapter 9) where it is known to be 98% as efficient as one-way ANOVA for normally distributed populations with a common variance but different means. Since this chapter deals with categorical data arising from multinomial distributions the above efficiency properties do not apply. Nevertheless the Kruskal-Wallis test would be the method of choice if the underlying data were generated from continuous latent distributions, differing in location but not in scale, and the observations were then categorized into c distinct categories. Normal Scores Test Use the Normal scores test (Conover, 1980) if the data were generated from underlying normal distributions differing in location but not in scale, and the observations were then categorized into c distinct categories. Savage Scores Test Use the Savage scores test (Lehmann, 1975) if the data were generated from underlying exponential distributions and the observations were then categorized into c distinct categories. ANOVA with Arbitrary Scores This is a general test which specializes to all the others by suitable choice of scores. Any scores may be used for the c ordered categories, including the raw data themselves. |
|
7.02.2013 - 23:53
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? Приветствую, aspir_h! Вы пишите про "обычный хи-квадрат". А обычный - это какой? Классический? Но ведь кроме классического есть ещё и другие алгоритмы вычисления критерия хи-квадрат. Например, Likelihood Ratio Chi-Square, Continuity Adj. Chi-Square, Mantel-Haenszel Chi-Square. Но главное не это. Абсолютно прав автор предыдущего поста nokh: "Вообще всё мимо, читайте больше!". Это я к тому цитирую, что если поискать и почитать, то найдём, к примеру, 3-е издание книги Fleiss, Joseph L. Statistical methods for rates and proportions. И там в 9-й главе рассказывается о том, как анализировать таблицы, в которых есть упорядоченные градации. Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью. Теперь относительно анализа подобных таблиц. Когда принимается альтернативная гипотеза, то очень важно определить, за счёт каких именно строк, столбцов, клеток отвергается нулевая гипотеза. Выяснить это непросто. Один из вариантов этого заключается в использовании метода Монте-Карло. Во втором приложении высылаю Вам файл с результатом такого анализа при объёме выборок в 1 млн., проведённого по моей просьбе биостатистиком, который решает для нас многие задачи. И как мне объяснил биостатистик, в Вашей таблице связь сосредоточена в 2-х столбцах. Причём один из столбцов в этой связи доминирует. Ну вот, желаю хороших результатов поиска и приятного чтения найденных материалов. Сообщение отредактировал Larina Tatjana - 7.02.2013 - 23:58
Прикрепленные файлы
|
|
8.02.2013 - 09:23
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 |
Глубокоуважаемые nokh, Larina Tatjana!
Огромное спасибо за Ваши замечания и разъяснения! Сообщение отредактировал aspir_h - 8.02.2013 - 10:16 |
|
8.02.2013 - 20:01
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью. жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем |
|
8.02.2013 - 21:33
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да, вольтарен сильное лекарство, против обычного геля. Но я не нашла и этих 12%, помогите найти. В статье есть только упоминание о методе, но не приведены средние ridit оценки в сравниваемых группах, и нет их сравнения, а приводится только сравнение долей на каждый срок наблюдения, который авторы рассматривают как упорядоченную категорию.
А среди множества всевозможных оценок, которые предоставил профессиональный статистик, найти рекомендованную оценку ridit, мне не удалось, особенно, потому, что ее там нет, в последней строке, в скобках как раз там, где она должна быть дается: Cochran-Mantel-Haenszel Statistics (Based on Table Scores), а не Cochran-Mantel-Haenszel Statistics (Based on Ridit Scores) Statistic Alternative Hypothesis DF Value Prob --------------------------------------------------------------- 1 Nonzero Correlation ? ? ? Если не трудно, посчитайте средние ridit оценки для этих двух групп и статистику вышеуказанную, а то я не имею SAS и мучаю R, программка для которого появилась только осенью прошлого года. |
|
8.02.2013 - 21:44
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R ridit(x, g, ref = NULL) Arguments x a numeric vector of data values or a matrix of crosstab data. g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab. ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test). Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу. |
|
9.02.2013 - 08:44
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 |
|
|
9.02.2013 - 10:49
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да, я не про эффект лечебной процедуры, а про эффект использования ridit, перепутала эффекты
Larina Tatjana, спасибо за хорошее лечебное средство для таблиц с упорядоченными категориями, будем прикладывать к больному месту. Сообщение отредактировал DrgLena - 9.02.2013 - 10:55 |
|
9.02.2013 - 19:50
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R ridit(x, g, ref = NULL) Arguments x a numeric vector of data values or a matrix of crosstab data. g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab. ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test). Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу. У меня ridit() неустановлено, из того что написано x может быть исходным вектором данных, g группирующий фактор. если задавать матрицей, то ridit(table(вектор, фактор), 1или2). |
|
9.02.2013 - 20:28
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Матрицу я создала для этой таблицы, и задаю g=2, но
> ridit(mice,2) Ошибка в factor(d1, labels = rownames(crosstab)) : invalid labels; length 0 should be 1 or 2 > mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE) > mice # просмотр содержимого матрицы [,1] [,2] [,3] [1,] 16 20 133 [2,] 18 61 45 Я прицепила ridit, надеюсь на Вашу заинтересованность в R Мои желания и возможности в данном случае не совпадают
Прикрепленные файлы
|
|
9.02.2013 - 21:00
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Матрицу я создала для этой таблицы, и задаю g=2, но > ridit(mice,2) Ошибка в factor(d1, labels = rownames(crosstab)) : invalid labels; length 0 should be 1 or 2 > mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE) > mice # просмотр содержимого матрицы [,1] [,2] [,3] [1,] 16 20 133 [2,] 18 61 45 Я прицепила ridit, надеюсь на Вашу заинтересованность в R Мои желания и возможности в данном случае не совпадают Код > library(Ridit) > x=airquality$Ozone > g=airquality$Month > ridit(x,g) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Reference: Total of all groups chi-squared = 29.2666, df = 4, p-value = 6.901e-06 > x [1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6 [19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA [37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA [55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA [73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50 [91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22 [109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73 [127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13 [145] 23 36 7 14 30 NA 14 18 20 > g [1] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 [38] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 [75] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 [112] 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 [149] 9 9 9 9 9 > table(x,g) g x 5 6 7 8 9 1 1 0 0 0 0 4 1 0 0 0 0 6 1 0 0 0 0 7 1 0 1 0 1 8 1 0 0 0 0 9 0 0 0 2 1 10 0 0 1 0 0 11 3 0 0 0 0 12 1 1 0 0 0 13 0 1 0 0 3 14 2 0 0 0 2 16 1 0 1 1 1 18 2 0 0 0 2 19 1 0 0 0 0 20 0 1 1 0 2 21 0 1 0 1 2 22 0 0 0 1 0 23 2 1 0 1 2 24 0 0 0 0 2 27 0 0 1 0 0 28 1 0 0 1 1 29 0 1 0 0 0 30 1 0 0 0 1 31 0 0 0 1 0 32 1 0 1 0 1 34 1 0 0 0 0 35 0 0 1 1 0 36 1 0 0 0 1 37 1 1 0 0 0 39 0 1 0 1 0 40 0 0 1 0 0 41 1 0 0 0 0 44 0 0 0 2 1 45 1 0 0 1 0 46 0 0 0 0 1 47 0 0 0 0 1 48 0 0 1 0 0 49 0 0 1 0 0 50 0 0 1 0 0 52 0 0 1 0 0 59 0 0 1 1 0 61 0 0 1 0 0 63 0 0 1 0 0 64 0 0 2 0 0 65 0 0 0 1 0 66 0 0 0 1 0 71 0 1 0 0 0 73 0 0 0 1 1 76 0 0 0 1 0 77 0 0 1 0 0 78 0 0 0 1 1 79 0 0 1 0 0 80 0 0 1 0 0 82 0 0 1 0 0 84 0 0 0 1 0 85 0 0 1 1 0 89 0 0 0 1 0 91 0 0 0 0 1 96 0 0 0 0 1 97 0 0 2 0 0 108 0 0 1 0 0 110 0 0 0 1 0 115 1 0 0 0 0 118 0 0 0 1 0 122 0 0 0 1 0 135 0 0 1 0 0 168 0 0 0 1 0 > ridit(table(x,g),2) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Reference: Total of all groups chi-squared = 29.2666, df = 4, p-value = 6.901e-06 думаю как то так надо поправить, чтобы тип объекта был table Код > as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE))
A B C A 16 20 133 B 18 61 45 > ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),2) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5531 2 B 0.6649 3 C 0.4148 Reference: Total of all groups chi-squared = 58.6525, df = 2, p-value = 1.836e-13 > ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5835 2 B 0.3862 Reference: Total of all groups chi-squared = 44.2308, df = 1, p-value = 2.919e-11 > |
|