![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Всем здравствуйте!
Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить. Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат. Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты. Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман). Нулевая гипотеза: - группы однородны (между группами отсутствуют различия); - распределение по одному признаку не влияет на распределение по другому признаку. После анализа данных получены следующие результаты (в прикрепленном файле). Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы. Сообщение отредактировал aspir_h - 2.02.2013 - 22:41
Прикрепленные файлы
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Всем здравствуйте! Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить. Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат. Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты. Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман). Нулевая гипотеза: - группы однородны (между группами отсутствуют различия); - распределение по одному признаку не влияет на распределение по другому признаку. После анализа данных получены следующие результаты (в прикрепленном файле). Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы. Анализ таблиц сопряжённости можно использовать как для поиска различий, так и для анализа связи. Но эти задачи разнятся и поэтому правильнее говорить о чём-то одном. Насколько я понимаю, в вашем случае правильнее говорить именно о различиях двух групп пациентов в характере заболеваемости гипертонией. Эти различия, действительно, высоко статистически значимы. Об ассоциациях правильнее было бы говорить если бы материал собирался иначе. Скажем вы бы взяли пациентов с гипертонией (3 категории) и в каждой посчитали бы у скольких человек есть инфаркт, а у скольких нет (2 категории). В этом случае логичнее было бы говорить не о том, что группы с инфарктом и без него различаются степенью гипертонии, а именно о связи, ассоциации гипертонии с инфарктом и эту связь желательно было бы выразить какой-то мерой ассоциации, скажем тем же коэффициентом сопряжённости Пирсона или фи. В вашей задаче про ассоциации говорить не приходится, но можно далее провести углублённый анализ таблицы на предмет обнаружения ячеек, за счёт которых различия между двумя группами преимущественно проявились, т.е. провести анализ остатков. Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. В вашем случае это не принципиально, т.к. р ничтожно мало (1,66 х 10-13), но в случае менее сильных различий и/или меньших объёмов выборок хи-квадрат или более тонкие подходы могли бы привести к разным выводам. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
nokh, огромное спасибо за подробное разъяснение!
|
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается.
т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
... т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? Вообще всё мимо, читайте больше! Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода: Kruskal-WallisTest The Kruskal-Wallis test (Siegel and Castellan, 1988) is the most popular of the nonparametric tests for singly ordered r × c contingency tables. It specializes to the Wilcoxon-Mann-Whitney test when r = 2. This test is also available for continuous data (see Chapter 9) where it is known to be 98% as efficient as one-way ANOVA for normally distributed populations with a common variance but different means. Since this chapter deals with categorical data arising from multinomial distributions the above efficiency properties do not apply. Nevertheless the Kruskal-Wallis test would be the method of choice if the underlying data were generated from continuous latent distributions, differing in location but not in scale, and the observations were then categorized into c distinct categories. Normal Scores Test Use the Normal scores test (Conover, 1980) if the data were generated from underlying normal distributions differing in location but not in scale, and the observations were then categorized into c distinct categories. Savage Scores Test Use the Savage scores test (Lehmann, 1975) if the data were generated from underlying exponential distributions and the observations were then categorized into c distinct categories. ANOVA with Arbitrary Scores This is a general test which specializes to all the others by suitable choice of scores. Any scores may be used for the c ordered categories, including the raw data themselves. |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица? Приветствую, aspir_h! Вы пишите про "обычный хи-квадрат". А обычный - это какой? Классический? Но ведь кроме классического есть ещё и другие алгоритмы вычисления критерия хи-квадрат. Например, Likelihood Ratio Chi-Square, Continuity Adj. Chi-Square, Mantel-Haenszel Chi-Square. Но главное не это. Абсолютно прав автор предыдущего поста nokh: "Вообще всё мимо, читайте больше!". Это я к тому цитирую, что если поискать и почитать, то найдём, к примеру, 3-е издание книги Fleiss, Joseph L. Statistical methods for rates and proportions. И там в 9-й главе рассказывается о том, как анализировать таблицы, в которых есть упорядоченные градации. Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью. Теперь относительно анализа подобных таблиц. Когда принимается альтернативная гипотеза, то очень важно определить, за счёт каких именно строк, столбцов, клеток отвергается нулевая гипотеза. Выяснить это непросто. Один из вариантов этого заключается в использовании метода Монте-Карло. Во втором приложении высылаю Вам файл с результатом такого анализа при объёме выборок в 1 млн., проведённого по моей просьбе биостатистиком, который решает для нас многие задачи. И как мне объяснил биостатистик, в Вашей таблице связь сосредоточена в 2-х столбцах. Причём один из столбцов в этой связи доминирует. Ну вот, желаю хороших результатов поиска и приятного чтения найденных материалов. ![]() Сообщение отредактировал Larina Tatjana - 7.02.2013 - 23:58
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Глубокоуважаемые nokh, Larina Tatjana!
Огромное спасибо за Ваши замечания и разъяснения! Сообщение отредактировал aspir_h - 8.02.2013 - 10:16 |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью. жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем ![]() ![]() |
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, вольтарен сильное лекарство, против обычного геля. Но я не нашла и этих 12%, помогите найти. В статье есть только упоминание о методе, но не приведены средние ridit оценки в сравниваемых группах, и нет их сравнения, а приводится только сравнение долей на каждый срок наблюдения, который авторы рассматривают как упорядоченную категорию.
А среди множества всевозможных оценок, которые предоставил профессиональный статистик, найти рекомендованную оценку ridit, мне не удалось, особенно, потому, что ее там нет, в последней строке, в скобках как раз там, где она должна быть дается: Cochran-Mantel-Haenszel Statistics (Based on Table Scores), а не Cochran-Mantel-Haenszel Statistics (Based on Ridit Scores) Statistic Alternative Hypothesis DF Value Prob --------------------------------------------------------------- 1 Nonzero Correlation ? ? ? Если не трудно, посчитайте средние ridit оценки для этих двух групп и статистику вышеуказанную, а то я не имею SAS и мучаю R, программка для которого появилась только осенью прошлого года. |
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем ![]() Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R ridit(x, g, ref = NULL) Arguments x a numeric vector of data values or a matrix of crosstab data. g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab. ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test). Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу. |
|
![]() |
![]() |
![]()
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, я не про эффект лечебной процедуры, а про эффект использования ridit, перепутала эффекты
![]() Larina Tatjana, спасибо за хорошее лечебное средство для таблиц с упорядоченными категориями, будем прикладывать к больному месту. Сообщение отредактировал DrgLena - 9.02.2013 - 10:55 |
|
![]() |
![]() |
![]()
Сообщение
#13
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R ridit(x, g, ref = NULL) Arguments x a numeric vector of data values or a matrix of crosstab data. g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab. ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test). Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу. У меня ridit() неустановлено, из того что написано x может быть исходным вектором данных, g группирующий фактор. если задавать матрицей, то ridit(table(вектор, фактор), 1или2). ![]() |
|
![]() |
![]() |
![]()
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Матрицу я создала для этой таблицы, и задаю g=2, но
> ridit(mice,2) Ошибка в factor(d1, labels = rownames(crosstab)) : invalid labels; length 0 should be 1 or 2 > mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE) > mice # просмотр содержимого матрицы [,1] [,2] [,3] [1,] 16 20 133 [2,] 18 61 45 Я прицепила ridit, надеюсь на Вашу заинтересованность в R ![]() Мои желания и возможности в данном случае не совпадают
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#15
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Матрицу я создала для этой таблицы, и задаю g=2, но > ridit(mice,2) Ошибка в factor(d1, labels = rownames(crosstab)) : invalid labels; length 0 should be 1 or 2 > mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE) > mice # просмотр содержимого матрицы [,1] [,2] [,3] [1,] 16 20 133 [2,] 18 61 45 Я прицепила ridit, надеюсь на Вашу заинтересованность в R ![]() Мои желания и возможности в данном случае не совпадают Код > library(Ridit) > x=airquality$Ozone > g=airquality$Month > ridit(x,g) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Reference: Total of all groups chi-squared = 29.2666, df = 4, p-value = 6.901e-06 > x [1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6 [19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA [37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA [55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA [73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50 [91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22 [109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73 [127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13 [145] 23 36 7 14 30 NA 14 18 20 > g [1] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 [38] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 [75] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 [112] 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 [149] 9 9 9 9 9 > table(x,g) g x 5 6 7 8 9 1 1 0 0 0 0 4 1 0 0 0 0 6 1 0 0 0 0 7 1 0 1 0 1 8 1 0 0 0 0 9 0 0 0 2 1 10 0 0 1 0 0 11 3 0 0 0 0 12 1 1 0 0 0 13 0 1 0 0 3 14 2 0 0 0 2 16 1 0 1 1 1 18 2 0 0 0 2 19 1 0 0 0 0 20 0 1 1 0 2 21 0 1 0 1 2 22 0 0 0 1 0 23 2 1 0 1 2 24 0 0 0 0 2 27 0 0 1 0 0 28 1 0 0 1 1 29 0 1 0 0 0 30 1 0 0 0 1 31 0 0 0 1 0 32 1 0 1 0 1 34 1 0 0 0 0 35 0 0 1 1 0 36 1 0 0 0 1 37 1 1 0 0 0 39 0 1 0 1 0 40 0 0 1 0 0 41 1 0 0 0 0 44 0 0 0 2 1 45 1 0 0 1 0 46 0 0 0 0 1 47 0 0 0 0 1 48 0 0 1 0 0 49 0 0 1 0 0 50 0 0 1 0 0 52 0 0 1 0 0 59 0 0 1 1 0 61 0 0 1 0 0 63 0 0 1 0 0 64 0 0 2 0 0 65 0 0 0 1 0 66 0 0 0 1 0 71 0 1 0 0 0 73 0 0 0 1 1 76 0 0 0 1 0 77 0 0 1 0 0 78 0 0 0 1 1 79 0 0 1 0 0 80 0 0 1 0 0 82 0 0 1 0 0 84 0 0 0 1 0 85 0 0 1 1 0 89 0 0 0 1 0 91 0 0 0 0 1 96 0 0 0 0 1 97 0 0 2 0 0 108 0 0 1 0 0 110 0 0 0 1 0 115 1 0 0 0 0 118 0 0 0 1 0 122 0 0 0 1 0 135 0 0 1 0 0 168 0 0 0 1 0 > ridit(table(x,g),2) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Reference: Total of all groups chi-squared = 29.2666, df = 4, p-value = 6.901e-06 думаю как то так надо поправить, чтобы тип объекта был table Код > as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE))
A B C A 16 20 133 B 18 61 45 > ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),2) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5531 2 B 0.6649 3 C 0.4148 Reference: Total of all groups chi-squared = 58.6525, df = 2, p-value = 1.836e-13 > ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5835 2 B 0.3862 Reference: Total of all groups chi-squared = 44.2308, df = 1, p-value = 2.919e-11 > ![]() |
|
![]() |
![]() |
![]()
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Спасибо большое, р2004, буду разбираться
|
|
![]() |
![]() |
![]()
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Уважаемый р2004, мой тяжкий путь познания R тормознулся на анализе примера из документации, который Вы привели. Я тытаюсь получить таблицу сопряженности из х и g.
Как я поняла, есть 67 объектов, пять раз осмотреных и есть 0,1,2,3 оценки к каждому осмотру. Но это следует уже из таблицы первичных данных, которые приводятся, а не из первого масива данных. Из этой таблицы я пытаюсь создать таблицу 5х4, но так, чтобы самая хорощая оценка была первой в таблице., как принято в ridit, но я не знаю какая хорошая. Но не сходится результат средних Ridit для 5 групп (рядов). Что не так? Как увидеть файл с этими данными иописание исследования. Может не верно табл создаю? Я привожу g=1, а для g=2 получу оценки по колонкам. > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5351 2 B 0.5729 3 C 0.4621 4 D 0.4621 5 E 0.4731 Сообщение отредактировал DrgLena - 11.02.2013 - 13:13 |
|
![]() |
![]() |
![]()
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
В связи с тем, что ув. nokh сделал следующее разъяснение
.....то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. В вашем случае это не принципиально, т.к. р ничтожно мало (1,66 х 10-13), но в случае менее сильных различий и/или меньших объёмов выборок хи-квадрат или более тонкие подходы могли бы привести к разным выводам. для проверки нулевой гипотезы о различии групп, решил сравнить метод хи квадрат Пирсона и ранговый анализ вариаций по Краскелу-Уоллису. При одних и тех же данных, получены следующие резкльтаты: Пирсона хи квадрат = 11,57, p=0.07225 Ранговый ДА Краскела_Уоллиса p=0.0343 Таким образом, альтернативная гипотеза о различии групп принимается при применении метода Краскела_Уоллиса. Уважаемые форумчане, я правильно рассуждаю? Подробная информация в прикрепленном файле. Сообщение отредактировал aspir_h - 11.02.2013 - 22:44
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Прежде, чем рассуждать о результатах статистического, анализа нужно содержательно поставить задачу в вашей предметной области, наверное, медицинскую. Потом описать данные, которые вы собрали, чтобы решить эту задачу, т.е. ответить на вопросы запланированного исследования. Правильно подобрать методы статистического анализа, прочитать про эти методы, например,?вариацию? чего проверяет выбранный вами метод.
А вы перебираете методы, о который вам стало известно на форуме, и хотите, чтобы выводы о результатах анализа кто то сделал за вас. Из вашей ?подробной? информации ничего не ясно, зачем вы собрали эти данные и что с чем вы хотите сравнить. Nokh вам пишет об упорядоченных категориях, а вы опять пирсона хи квадрат приводите из программы Statistica, значит, ничего не почитали, а нашли кнопочку с К-У, так почитайте различия чего и между чем и чем вы получили, или только р нужно привести не понимая что оно означает. Выбор методов зависит от характера данных и от постановки задачи исследования. На форуме обсуждали одну вашу таблицу, вы получили рекомендации, но приводите результат сравнения совершенно других, оставшихся в секрете, данных. |
|
![]() |
![]() |
![]()
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Ув. DrgLena, логика моих рассуждений и действий следующая.
В первом посте приводил пример сравнения двух групп с качественными порядковыми данными. Для этого использовалась таблица сопряженности и метод хи квадрат Пирсона. Ув. Nokh пояснил, что есть более чувствительные методы для сравнения групп с порядковыми данными и привел примеры этих методов. Я в свою очередь на другом примере попытался сравнить два метода: в результате, при применении метода Пирсона хи квадрат, различия в группах статистически не значимы, а при анализе этих же данных, используя ранговый анализ по Краскелу_Уоллису - различия в группах получились статистически значимыми. Вывод: при сравнении групп с порядковыми данными предпочтительным является ранговый анализ вариаций по Краскелу-Уоллису (по сравнению с Пирсона хи квадрат). Условия задачи и данные в прикрепленном файле. Сообщение отредактировал aspir_h - 12.02.2013 - 11:33
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#21
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Уважаемый р2004, мой тяжкий путь познания R тормознулся на анализе примера из документации, который Вы привели. Я тытаюсь получить таблицу сопряженности из х и g. Как я поняла, есть 67 объектов, пять раз осмотреных и есть 0,1,2,3 оценки к каждому осмотру. Но это следует уже из таблицы первичных данных, которые приводятся, а не из первого масива данных. Из этой таблицы я пытаюсь создать таблицу 5х4, но так, чтобы самая хорощая оценка была первой в таблице., как принято в ridit, но я не знаю какая хорошая. Но не сходится результат средних Ridit для 5 групп (рядов). Что не так? Как увидеть файл с этими данными иописание исследования. Может не верно табл создаю? Я привожу g=1, а для g=2 получу оценки по колонкам. > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5351 2 B 0.5729 3 C 0.4621 4 D 0.4621 5 E 0.4731 Может проблема в том что не указывается arbitrary reference group? Код > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1, ref="B")
Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.466 2 B 0.5 3 C 0.3861 4 D 0.3861 5 E 0.4034 Reference: Group = 2, Label = B chi-squared = 13.9436, df = 4, p-value = 0.007477 > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1, ref="C") Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5727 2 B 0.6139 3 C 0.5 4 D 0.5 5 E 0.5081 Reference: Group = 3, Label = C chi-squared = 13.9982, df = 4, p-value = 0.007301 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, относительно референтной группы интересно получить результат, но у меня не сходится ручной расчет по этому коду при сравнении конкретно табл 2хk. Пример из учебника есть тут, на стр 175-176
http://books.google.com.ua/books?id=EpEfWv...ple&f=false Я получаю руками 0,604 как в книге и 0,310 если поменять местами группы, а пакет выдает 0,578 и 0,473. Или иранский студент, автор кода, что то не так делает, но результат не сходится. Проверить можно только в SAS , но профессиональный статистик, работающий под прикрытием TL и который нам поведал про RIDI о результатх умалчивает. Я надеюсь, что Вы, уважаемы p2012 сможете свой код написать с понятным вводом таблицы сопряженности, может я не верно ввожу таблицу, не указываю, что она cross. Сообщение отредактировал DrgLena - 12.02.2013 - 14:26
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#23
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Да, относительно референтной группы интересно получить результат, но у меня не сходится ручной расчет по этому коду при сравнении конкретно табл 2хk. Пример из учебника есть тут, на стр 175-176 http://books.google.com.ua/books?id=EpEfWv...ple&f=false Я получаю руками 0,604 как в книге и 0,310 если поменять местами группы, а пакет выдает 0,578 и 0,473. Или иранский студент, автор кода, что то не так делает, но результат не сходится. Проверить можно только в SAS , но профессиональный статистик, работающий под прикрытием TL и который нам поведал про RIDI о результатх умалчивает. Я надеюсь, что Вы, уважаемы p2012 сможете свой код написать с понятным вводом таблицы сопряженности, может я не верно ввожу таблицу, не указываю, что она cross. что делает иранский студент легко увидеть набрав ?ridit.raw Код ## The function is currently defined as function (x, g, ref = NULL) { x = as.numeric(x) x = as.vector(x) g = as.factor(g) levels = levels(g) levels(g) = 1:length(levels) g = as.vector(g) g = as.character(g) code = is.numeric(ref) ref = as.vector(ref) ref = as.character(ref) if (length(ref) > 1) { x = c(x, ref) g = c(g, rep(".ref", length(ref))) levels = c(".ref", levels) } crosstab = t(as.matrix(table(x, g))) rownames(crosstab) = levels refindex = NULL if (length(ref) == 1) { if (!code) refindex = which(levels == ref) if (code && ref >= 1 && ref <= nrow(crosstab)) refindex = as.numeric(ref) } else if (length(ref) > 1) refindex = which(levels == ".ref") if (length(refindex) != 0) refrow = crosstab[refindex, ] else refrow = apply(crosstab, 2, sum) if (length(refindex) == 0) msg = paste("Reference: Total of all groups", sep = "") else msg = paste("Reference: Group = ", refindex, ", Label = ", levels[refindex], sep = "") nref = sum(refrow) ridit = 0.5 * refrow[1]/nref for (i in 2:length(refrow)) { iridit = (sum(refrow[1:i - 1]) + 0.5 * refrow[i])/nref ridit = c(ridit, iridit) } n = apply(crosstab, 1, sum) meanRidit = c() for (i in 1:nrow(crosstab)) { itable = crosstab[i, ] meanRidit = c(meanRidit, sum(ridit * itable)/n[i]) } n0 = sum(n) rbar0 = sum(n * meanRidit)/n0 t = apply(crosstab, 2, sum) f = 1 - (sum(t * (t - 1) * (t + 1)))/(n0 * (n0 - 1) * (n0 + 1)) teststatistic = (12 * n0 * sum(n * (meanRidit - rbar0)^2))/((n0 + 1) * f) testdf = nrow(crosstab) - 1 pvalue = pchisq(q = teststatistic, df = testdf, lower.tail = FALSE) if (length(ref) == 0) ref = NULL names(meanRidit) = rownames(crosstab) output = list(MeanRidit = meanRidit, TestStatistic = teststatistic, df = testdf, Sig = pvalue, x = x, g = g, ref = ref, crosstab = crosstab, msg = msg) class(output) <- c("ridit", class(output)) output } если посмотреть в сравнении с немодифицированным тестом, то сумма сходится ![]() Код > str(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)) List of 9 $ MeanRidit : Named num [1:5] 0.535 0.573 0.462 0.462 0.473 ..- attr(*, "names")=8322456 [1:5] "A" "B" "C" "D" ... $ TestStatistic: num 13.2 $ df : num 4 $ Sig : num 0.0104 $ x : num [1:325] 1 2 2 2 3 3 3 3 3 3 ... $ g :8322456 [1:325] "1" "1" "1" "1" ... $ ref : NULL $ crosstab : 'table' int [1:5, 1:4] 1 0 0 0 1 3 0 2 2 6 ... ..- attr(*, "dimnames")=List of 2 .. ..$ g:8322456 [1:5] "A" "B" "C" "D" ... .. ..$ x:8322456 [1:4] "1" "2" "3" "4" $ msg :8322456 "Reference: Total of all groups" - attr(*, "class")=8322456 [1:2] "ridit" "list" > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$x [1] 1 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [38] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 [75] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [112] 4 4 4 4 4 4 4 4 4 4 4 4 4 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 [149] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [186] 4 4 4 4 4 4 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 [223] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 [260] 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 [297] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$g [1] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" [19] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" [37] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" [55] "1" "1" "1" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" [73] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" [91] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" [109] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "3" "3" [127] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" [145] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" [163] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" [181] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "4" "4" "4" "4" "4" "4" "4" [199] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" [217] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" [235] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" [253] "4" "4" "4" "4" "4" "4" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" [271] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" [289] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" [307] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" [325] "5" > kruskal.test(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$x, as.factor(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$g)) Kruskal-Wallis rank sum test data: ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0, 2, 22, 43, and as.factor(ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0, 0, 2, 22, 43, 1, 6, 14, 46), nrow = 5, byrow = TRUE)), 1)$x and 2, 22, 43, 0, 2, 22, 43, 1, 6, 14, 46), nrow = 5, byrow = TRUE)), ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0, 2, 22, 43, and 1)$g) Kruskal-Wallis chi-squared = 13.1813, df = 4, p-value = 0.01042 > ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 A 0.5351 2 B 0.5729 3 C 0.4621 4 D 0.4621 5 E 0.4731 Reference: Total of all groups chi-squared = 13.1813, df = 4, p-value = 0.01042 учебник пока не смотрел... ![]() |
|
![]() |
![]() |
![]()
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Ув. DrgLena, логика моих рассуждений и действий следующая. В первом посте приводил пример сравнения двух групп с качественными порядковыми данными. Для этого использовалась таблица сопряженности и метод хи квадрат Пирсона. Ув. Nokh пояснил, что есть более чувствительные методы для сравнения групп с порядковыми данными и привел примеры этих методов. Я в свою очередь на другом примере попытался сравнить два метода: в результате, при применении метода Пирсона хи квадрат, различия в группах статистически не значимы, а при анализе этих же данных, используя ранговый анализ по Краскелу_Уоллису - различия в группах получились статистически значимыми. Вывод: при сравнении групп с порядковыми данными предпочтительным является ранговый анализ вариаций по Краскелу-Уоллису (по сравнению с Пирсона хи квадрат). Условия задачи и данные в прикрепленном файле. Ув. друзья! Убедительно прошу высказаться по данному посту, логичны ли рассуждения? |
|
![]() |
![]() |
![]()
Сообщение
#25
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Ув. друзья! Убедительно прошу высказаться по данному посту, логичны ли рассуждения? здесь нужно строить вычислительный эксперимент. выбирать выборки из заданной генсовокупности и вычислять критерий (ии). статистика критерия покажет насколько он точен(мощен). Сообщение отредактировал p2004r - 13.02.2013 - 11:41 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Ув. друг! А вы какую гипотезу проверяете? Какие такие гипотезы, что ж тут проверять, давно известных факт, нужно брать тот результат, где р меньше, вот только что критерий проверяет, какую такую вариацию, даже ВАК не знает, зачем же диссертанту себя утруждать. Пока тут идет обсуждение, именно на тему содержательной интепретации результатов анализа таблиц сопряженности для упорядоченных категорий, используя ridit оценки, диссертант перебирает кнопки в программе Statictica, но там еще много критериев, а потому нужно быстрее остановиться, получив от форума, одобрямсс |
|
![]() |
![]() |
![]()
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
to p2004,
Спасибо, мное стало понятным, но, сходится, потому что одну и ту же кросстаб анализируем, а не сходится с результатом, который у Вас получился по первичным данным этого примера: Результат по первичным данным Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Результат по данным введенным в виде таблицы Group Label Mean Ridit ----- ----- ---------- 1 A 0.5351 2 B 0.5729 3 C 0.4621 4 D 0.4621 5 E 0.4731 Для меня понятен именно это результат, одинаковые оценки в 3 и 4 группе соответствуют одинаковому набору данных в этих группах. И смысловая трактовка также понятна, хотя она зависит от того , что хорошо 0 или 3. Как получен первый набор Mean Ridit по данным этого примера? |
|
![]() |
![]() |
![]()
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Ув. DrgLena! На мой первый пост:
Всем здравствуйте! Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить. Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат. Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты. Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман). Нулевая гипотеза: - группы однородны (между группами отсутствуют различия); - распределение по одному признаку не влияет на распределение по другому признаку. После анализа данных получены следующие результаты (в прикрепленном файле). Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы. был следующий ответ ув. Nokh: Цитата Вообще всё мимо, читайте больше! Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода: Kruskal-WallisTest The Kruskal-Wallis test (Siegel and Castellan, 1988) is the most popular of the nonparametric tests for singly ordered r Ч c contingency tables. It specializes to the Wilcoxon-Mann-Whitney test when r = 2. This test is also available for continuous data (see Chapter 9) where it is known to be 98% as efficient as one-way ANOVA for normally distributed populations with a common variance but different means. Since this chapter deals with categorical data arising from multinomial distributions the above efficiency properties do not apply. Nevertheless the Kruskal-Wallis test would be the method of choice if the underlying data were generated from continuous latent distributions, differing in location but not in scale, and the observations were then categorized into c distinct categories. К сожалению, я не владею английским языком, а сделав перевод с помощью Translate.Ru пришел к мнению, что для анализа различий групп, можно применить в т.ч. Критерий Краскела_уоллиса "книга В.Боровиков "Statistica. Искуство анализа данных на компьютере, 2003", стр.522. Сообщение отредактировал aspir_h - 13.02.2013 - 14:46 |
|
![]() |
![]() |
![]()
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Но хотя бы русским вы владеть должны!
Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода: Вы загрузили этот пакет в демо версии, посмотрели в любом учебнике на русском языке, что такое таблицы сопряженности? Нет! А потому, для вас все равно, что тест Краскала - Уоллиса в программе Statistica, о котором пишет Боровиков, что тест с тем же названием, о котором написал nokh. Программа StatXact выводит только конечную оценку этого теста, без средних ridit. Кроме того бесконечно пользоваться демо версией не удобно, а программа очень дорогая. Вот поэтому, на форуме и обсуждается возможность сделать это в R. |
|
![]() |
![]() |
![]()
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Самый известный тест, ассоциирующийся с именами Краскелла и Уоллиса- это непараметрический аналог однофакторного дисперсионного анализа (1952 год). Именно он реализован в Statistica, именно о нем пишет Боровков. А что такое тест Краскелла-Уоллиса для анализа таблиц сопряженности? Угостите кто-нить ссылкой, коли не лень. Сильвупле.
|
|
![]() |
![]() |
![]()
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Самый известный тест, ассоциирующийся с именами Краскелла и Уоллиса- это непараметрический аналог однофакторного дисперсионного анализа (1952 год). Именно он реализован в Statistica, именно о нем пишет Боровков. А что такое тест Краскелла-Уоллиса для анализа таблиц сопряженности? Угостите кто-нить ссылкой, коли не лень. Сильвупле. Бьен сюр, ком ву вуле. Но ссылки не нужно, это и есть тот самый и единственный К-У. Только при работе с таблицами сопряжённости (ТС) с упорядоченными категориями нужно догадаться развернуть табличные данные в привычный формат данных. Пакет же StatXact делает это автоматически непосредственно из ТС - мы это когда-то обсуждали на форуме, кажется Игорь объяснял. >DrgLena С Ridit пока не разбирался, примеры не считал, только литературу поискал в интернете - бедновато. Нашёл, что если в качестве референтного распределения используются маргинальные частоты, то результаты этого анализа эквивалентны результатам К-У. Насколько я понял, его сильные стороны в том, что в качестве референтного распределения можно выбрать частоты любой из нескольких сравниваемых групп, а также что ридиты могут интерпретироваться в терминах вероятностей. |
|
![]() |
![]() |
![]()
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Бьен сюр, ком ву вуле. Но ссылки не нужно, это и есть тот самый и единственный К-У. Только при работе с таблицами сопряжённости (ТС) с упорядоченными категориями нужно догадаться развернуть табличные данные в привычный формат данных. Пакет же StatXact делает это автоматически непосредственно из ТС - мы это когда-то обсуждали на форуме, кажется Игорь объяснял. >DrgLena С Ridit пока не разбирался, примеры не считал, только литературу поискал в интернете - бедновато. Нашёл, что если в качестве референтного распределения используются маргинальные частоты, то результаты этого анализа эквивалентны результатам К-У. Насколько я понял, его сильные стороны в том, что в качестве референтного распределения можно выбрать частоты любой из нескольких сравниваемых групп, а также что ридиты могут интерпретироваться в терминах вероятностей. Ув. Nokh, получается мои рассуждения и расчеты верны? Сообщение отредактировал aspir_h - 13.02.2013 - 21:08 |
|
![]() |
![]() |
![]()
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Ув. Nokh, получается мои рассуждения и расчеты верны? У меня иначе получается. По К-У различий нет (H(2)=0,29; P=0,865), а по хи-квадрат есть тенденция к различиям (хи-квадрат=11,57, P=0,072). Такое тоже может быть если межгрупповые различия не в средней стадии вашего показателя, а именно в различном соотношении стадий. Получается, что конкретно для ваших данных хи-квадрат оказывается боле информативным. Далее нужно смотреть остатки: можно показать, что обнаруженная тенденция связана редкостью стадии 0 в группе инсультов, редкостью стадии 2 в группе инфарктов и относительно более высокой частотой стадии 2 в группе инсультов. Т.е. картина здесь пёстрая (поэтому К-У различий не находит) и я не знаю есть ли в ней глубокий медицинский смысл. |
|
![]() |
![]() |
![]()
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
У меня иначе получается. По К-У различий нет (H(2)=0,29; P=0,865), а по хи-квадрат есть тенденция к различиям (хи-квадрат=11,57, P=0,072). Такое тоже может быть если межгрупповые различия не в средней стадии вашего показателя, а именно в различном соотношении стадий. Получается, что конкретно для ваших данных хи-квадрат оказывается боле информативным. Далее нужно смотреть остатки: можно показать, что обнаруженная тенденция связана редкостью стадии 0 в группе инсультов, редкостью стадии 2 в группе инфарктов и относительно более высокой частотой стадии 2 в группе инсультов. Т.е. картина здесь пёстрая (поэтому К-У различий не находит) и я не знаю есть ли в ней глубокий медицинский смысл. р=0,0343 получилось в случае, когда в качестве зависимой перемоенной выступают заболевания (инфаркт, инсульт, диабет), а группирующей - стадия заболевания Сообщение отредактировал aspir_h - 13.02.2013 - 22:11 |
|
![]() |
![]() |
![]()
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
р=0,0343 получилось в случае, когда в качестве зависимой перемоенной выступают заболевания (инфаркт, инсульт, диабет), а группирующей - стадия заболевания Это вообще не имеет никакого смысла. Заболевания - номинальные показатели, их нельзя сравнить ранговым тестом. Сравнить К-У можно только заболевания по показателю "стадия". |
|
![]() |
![]() |
![]()
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#38
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
to p2004, Спасибо, мное стало понятным, но, сходится, потому что одну и ту же кросстаб анализируем, а не сходится с результатом, который у Вас получился по первичным данным этого примера: Результат по первичным данным Group Label Mean Ridit ----- ----- ---------- 1 5 0.312 2 6 0.4157 3 7 0.6673 4 8 0.6442 5 9 0.4154 Результат по данным введенным в виде таблицы Group Label Mean Ridit ----- ----- ---------- 1 A 0.5351 2 B 0.5729 3 C 0.4621 4 D 0.4621 5 E 0.4731 Для меня понятен именно это результат, одинаковые оценки в 3 и 4 группе соответствуют одинаковому набору данных в этих группах. И смысловая трактовка также понятна, хотя она зависит от того , что хорошо 0 или 3. Как получен первый набор Mean Ridit по данным этого примера? насколько я понимаю вот так получен Код nref = sum(refrow) ridit = 0.5 * refrow[1]/nref for (i in 2:length(refrow)) { iridit = (sum(refrow[1:i - 1]) + 0.5 * refrow[i])/nref # совпадает с http://en.wikipedia.org/wiki/Ridit_scoring ridit = c(ridit, iridit) # это так странно вектор получают в цикле :) } n = apply(crosstab, 1, sum) meanRidit = c() for (i in 1:nrow(crosstab)) { itable = crosstab[i, ] meanRidit = c(meanRidit, sum(ridit * itable)/n[i]) } ![]() |
|
![]() |
![]() |
![]()
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Действительно, все меньше открытой полезной инфы становится в сети.
Почему я решила, что это другой критерий К-У: An extension of the Kruskal-Wallis Test that allow selection of arbitrary reference group. Also provide Mean Ridit for each group. Mean Ridit of a group is an estimate of probability a random observation from that group will be greater than or equal to a random observation from reference group. Но при сравнении результата анализа в R и SAS получается одинаковый вывод и значение критерия под названием Kruskal-Wallis Test в R точно совпадаетс с Сochran-Mantel-Haenzel значением, которое выдает SAS. Я решила, что статистика Краскала-Уоллиса, которая базируется на хи кВ. распределении используется в данном случае для подтверждения того, что действительно существуют различия ridit, а не просто рангов. Могу ошибаться, я тут тоже учусь.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Наконец то разобралась, пришпиленный документ - история познания. Я его не убираю, может кому пригодится. R считает правильно, ridit можно использовать, только я пока должна задействовать для расчета ДИ и графиков другие программы (kyPlot) Для того же примера
> ridit(data,1,ref="no") Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 yes 0.6042 2 no 0.5 Reference: Group = 2, Label = no chi-squared = 4.3546, df = 1, p-value = 0.03691 когда сравнивается только две группы, значение р не зависит от референтной группы |
|
![]() |
![]() |
![]()
Сообщение
#41
|
|
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#42
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
А свою тему открыть?
|
|
![]() |
![]() |
![]()
Сообщение
#43
|
|
Группа: Пользователи Сообщений: 125 Регистрация: 2.04.2012 Пользователь №: 23616 ![]() |
Будучи сам админом одного из форумов, никогда не понимал зачем штопать кучу тем. Тему надо создавать, только если что то специфическое. А эта тема мне показалась общей по данным вопросам.
|
|
![]() |
![]() |
![]()
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, действительно, тема про интерпретацию полученных результатов
![]() А я думала, про анализ таблиц сопряженности при упорядоченных категориях. Я конечно, не админ, но вопрос ваш потеряется, если в эту тему кто то что то добавит по обсуждаемому вопросу |
|
![]() |
![]() |
![]()
Сообщение
#45
|
|
Группа: Пользователи Сообщений: 381 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 ![]() |
А я думала, про анализ таблиц сопряженности при упорядоченных категориях. А вот этот анализ упорядоченных категорий, который вы ridit-ом называете, он использует точные методы (типа Фишера), или приближенные (типа хи-квадрат)?![]() Просто включи мозги => http://doctorstat.narod.ru
|
|
![]() |
![]() |
![]()
Сообщение
#46
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Да, действительно, тема про интерпретацию полученных результатов ![]() А я думала, про анализ таблиц сопряженности при упорядоченных категориях. Я конечно, не админ, но вопрос ваш потеряется, если в эту тему кто то что то добавит по обсуждаемому вопросу да, хотелось бы здесь обсуждать именно анализ таблиц сопряженности при упорядоченных категориях. С этой целью обращаюсь к модераторам изменить название темы согласно обсуждаемому вопросу, хотя тему "запустил" я, изменить название не получилось. |
|
![]() |
![]() |
![]()
Сообщение
#47
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Ответ на Ваш вопрос дан, перечислены методы, которые предпочтительней использовать для анализа таблиц сопряженности при упорядоченных категориях. В частности, рекомендация Татьяны Лариной использовать ridit анализ мне понравилась, и реализацию метода продемонстрировал p2004r . Я потратила много времени, чтобы понять, что выдает программа и как трактуется результат, все сошлось с ручным расчетом и рассматриваемая программа лицензирована автором, так, что можно смело ее использовать
По анализу Ваших двух таблиц преимущество метода продемонстрировать не могу, т.к. вывод по первой таблице с двумя категориями болезни и тремя категориями ГБ, противоречат второй таблице, в которую вы добавили диабет и нулевую категорию ГБ, при этом число наблюдений по первым двум болезням стало меньше и соотношение категорий по ГБ иное. Так что лучше учиться на примерах из учебников, чтобы понять смысл метода. > data=as.table(matrix(c(16,20,133,18,61,45), nrow = 2, byrow = TRUE)) > rownames(data)=c("инфаркт","инсульт") > data A B C инфаркт 16 20 133 инсульт 18 61 45 > library(Ridit) Предупреждение пакет 'Ridit' был собран под R версии 2.15.2 > ridit(data,1) Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 инфаркт 0.5835 2 инсульт 0.3862 Reference: Total of all groups chi-squared = 44.2308, df = 1, p-value = 2.919e-11 > ridit(data,1,ref="инфаркт") Ridit Analysis: Group Label Mean Ridit ----- ----- ---------- 1 инфаркт 0.5 2 инсульт 0.3027 Reference: Group = 1, Label = инфаркт chi-squared = 44.2308, df = 1, p-value = 2.919e-11 |
|
![]() |
![]() |
![]()
Сообщение
#48
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Уважаемые друзья! По имеющимся данным таблицы сопряженности и значению статистики Пирсона Хи-квадрат (присоединенный к сообщению файл) можно ли утверждать, что гипертоническая болезнь 2 стадии среди больных инфарктом встречается в 2,9 раза чаще, чем среди больных инсультом, а 1 стадии - среди больных инсультом в в 3,05 раза чаще, чем среди больных инфарктом? Заранее спасибо. Прочитал соответсвующие разделы у Ребровой, Боровикова, Гланца, но увы ответа на свой вопрос не получил.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#49
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Уважаемые друзья! По имеющимся данным таблицы сопряженности и значению статистики Пирсона Хи-квадрат (присоединенный к сообщению файл) можно ли утверждать, что гипертоническая болезнь 2 стадии среди больных инфарктом встречается в 2,9 раза чаще, чем среди больных инсультом, а 1 стадии - среди больных инсультом в в 3,05 раза чаще, чем среди больных инфарктом? Заранее спасибо. Прочитал соответсвующие разделы у Ребровой, Боровикова, Гланца, но увы ответа на свой вопрос не получил. Не понятно, почему у вас получились такие цифры если проценты посчитаны нужные - по строкам? У меня вышло 2,16 и 4,16. Это - относительные риски, читайте про них. Цифры желательно дополнить доверительными интервалами. Для этого исходную таблицу нужно перегруппировывать в таблицы 2х2 (нужный тип ГБ; остальные типы ГБ). В недавней теме Uno я приводил ссылку на хороший онлайновый калькулятор рисков и относительных шансов. |
|
![]() |
![]() |
![]()
Сообщение
#50
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
|
|
![]() |
![]() |
![]()
Сообщение
#51
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 2.02.2013 Пользователь №: 24597 ![]() |
Не понятно, почему у вас получились такие цифры если проценты посчитаны нужные - по строкам? У меня вышло 2,16 и 4,16. Это - относительные риски, читайте про них. Цифры желательно дополнить доверительными интервалами. Для этого исходную таблицу нужно перегруппировывать в таблицы 2х2 (нужный тип ГБ; остальные типы ГБ). В недавней теме Uno я приводил ссылку на хороший онлайновый калькулятор рисков и относительных шансов. nokh, спасибо Вам большое! Сообщение отредактировал aspir_h - 7.08.2013 - 13:25 |
|
![]() |
![]() |
![]() ![]() |