Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Интерпретация полученных результатов
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2
aspir_h
Всем здравствуйте!
Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить.
Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат.
Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты.
Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман).
Нулевая гипотеза: - группы однородны (между группами отсутствуют различия);
- распределение по одному признаку не влияет на распределение по другому признаку.
После анализа данных получены следующие результаты (в прикрепленном файле).
Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы.
nokh
Цитата(aspir_h @ 3.02.2013 - 01:10) *
Всем здравствуйте!
Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить.
Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат.
Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты.
Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман).
Нулевая гипотеза: - группы однородны (между группами отсутствуют различия);
- распределение по одному признаку не влияет на распределение по другому признаку.
После анализа данных получены следующие результаты (в прикрепленном файле).
Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы.

Анализ таблиц сопряжённости можно использовать как для поиска различий, так и для анализа связи. Но эти задачи разнятся и поэтому правильнее говорить о чём-то одном. Насколько я понимаю, в вашем случае правильнее говорить именно о различиях двух групп пациентов в характере заболеваемости гипертонией. Эти различия, действительно, высоко статистически значимы. Об ассоциациях правильнее было бы говорить если бы материал собирался иначе. Скажем вы бы взяли пациентов с гипертонией (3 категории) и в каждой посчитали бы у скольких человек есть инфаркт, а у скольких нет (2 категории). В этом случае логичнее было бы говорить не о том, что группы с инфарктом и без него различаются степенью гипертонии, а именно о связи, ассоциации гипертонии с инфарктом и эту связь желательно было бы выразить какой-то мерой ассоциации, скажем тем же коэффициентом сопряжённости Пирсона или фи. В вашей задаче про ассоциации говорить не приходится, но можно далее провести углублённый анализ таблицы на предмет обнаружения ячеек, за счёт которых различия между двумя группами преимущественно проявились, т.е. провести анализ остатков.
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. В вашем случае это не принципиально, т.к. р ничтожно мало (1,66 х 10-13), но в случае менее сильных различий и/или меньших объёмов выборок хи-квадрат или более тонкие подходы могли бы привести к разным выводам.
aspir_h
nokh, огромное спасибо за подробное разъяснение!
aspir_h
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается.

т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица?
nokh
Цитата(aspir_h @ 7.02.2013 - 17:05) *
... т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица?

Вообще всё мимо, читайте больше! Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода:

Kruskal-WallisTest The Kruskal-Wallis test (Siegel and Castellan, 1988) is the most popular of the nonparametric tests for singly ordered r × c contingency tables. It specializes to the Wilcoxon-Mann-Whitney test when r = 2. This test is also available for continuous data (see Chapter 9) where it is known to be 98% as efficient as one-way ANOVA for normally distributed populations with a common variance but different means. Since this chapter deals with categorical data arising from multinomial distributions the above efficiency properties do not apply. Nevertheless the Kruskal-Wallis test would be the method of choice if the underlying data were generated from continuous latent distributions, differing in location but not in scale, and the observations were then categorized into c distinct categories.
Normal Scores Test Use the Normal scores test (Conover, 1980) if the data were generated from underlying normal distributions differing in location but not in scale, and the observations were then categorized into c distinct categories.
Savage Scores Test Use the Savage scores test (Lehmann, 1975) if the data were generated from underlying exponential distributions and the observations were then categorized into c distinct categories.
ANOVA with Arbitrary Scores This is a general test which specializes to all the others by suitable choice of scores. Any scores may be used for the c ordered categories, including the raw data themselves.
Larina Tatjana
Цитата(aspir_h @ 7.02.2013 - 20:35) *
Если залезть немного глубже, то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается.

т.е. предпочтительнее использовать критерии (по наличию в STATISTICA) Манна-Уитни, Колмогорова-Смирнова, Вальда_Вольфовица?


Приветствую, aspir_h!

Вы пишите про "обычный хи-квадрат". А обычный - это какой? Классический? Но ведь кроме классического есть ещё и другие алгоритмы вычисления критерия хи-квадрат. Например, Likelihood Ratio Chi-Square, Continuity Adj. Chi-Square, Mantel-Haenszel Chi-Square. Но главное не это. Абсолютно прав автор предыдущего поста nokh: "Вообще всё мимо, читайте больше!". Это я к тому цитирую, что если поискать и почитать, то найдём, к примеру, 3-е издание книги Fleiss, Joseph L. Statistical methods for rates and proportions. И там в 9-й главе рассказывается о том, как анализировать таблицы, в которых есть упорядоченные градации. Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью.

Теперь относительно анализа подобных таблиц. Когда принимается альтернативная гипотеза, то очень важно определить, за счёт каких именно строк, столбцов, клеток отвергается нулевая гипотеза. Выяснить это непросто. Один из вариантов этого заключается в использовании метода Монте-Карло. Во втором приложении высылаю Вам файл с результатом такого анализа при объёме выборок в 1 млн., проведённого по моей просьбе биостатистиком, который решает для нас многие задачи. И как мне объяснил биостатистик, в Вашей таблице связь сосредоточена в 2-х столбцах. Причём один из столбцов в этой связи доминирует.

Ну вот, желаю хороших результатов поиска и приятного чтения найденных материалов. umnik.gif
aspir_h
Глубокоуважаемые nokh, Larina Tatjana!
Огромное спасибо за Ваши замечания и разъяснения!
p2004r
Цитата(Larina Tatjana @ 7.02.2013 - 23:53) *
Один из таких методов - это ридит-анализ. В качестве примера его использования в аттаче прикладываю одну статью.


жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем™ smile.gif
DrgLena
Да, вольтарен сильное лекарство, против обычного геля. Но я не нашла и этих 12%, помогите найти. В статье есть только упоминание о методе, но не приведены средние ridit оценки в сравниваемых группах, и нет их сравнения, а приводится только сравнение долей на каждый срок наблюдения, который авторы рассматривают как упорядоченную категорию.
А среди множества всевозможных оценок, которые предоставил профессиональный статистик, найти рекомендованную оценку ridit, мне не удалось, особенно, потому, что ее там нет, в последней строке, в скобках как раз там, где она должна быть дается:
Cochran-Mantel-Haenszel Statistics (Based on Table Scores), а не

Cochran-Mantel-Haenszel Statistics (Based on Ridit Scores)

Statistic Alternative Hypothesis DF Value Prob
---------------------------------------------------------------
1 Nonzero Correlation ? ? ?

Если не трудно, посчитайте средние ridit оценки для этих двух групп и статистику вышеуказанную, а то я не имею SAS и мучаю R, программка для которого появилась только осенью прошлого года.
DrgLena
Цитата(p2004r @ 8.02.2013 - 20:01) *
жаль что авторы статьи остановились на ~12 процедурах, возможно в дальнейшем (с ростом числа процедур) мы стали бы свидетелями превосходства лечебного эффекта обычного геля над вольтарен-гелем™ smile.gif

Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R

ridit(x, g, ref = NULL)

Arguments
x a numeric vector of data values or a matrix of crosstab data.
g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab.
ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test).

Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу.
aspir_h
Цитата(DrgLena @ 8.02.2013 - 21:33) *
Да, вольтарен сильное лекарство, против обычного геля. Но я не нашла и этих 12%, помогите найти.



предполагаю что не 12%, а 12 сеансов ультразвуковой терапии= 3 раза в неделю, в течении 4 недель
DrgLena
Да, я не про эффект лечебной процедуры, а про эффект использования ridit, перепутала эффекты smile.gif

Larina Tatjana, спасибо за хорошее лечебное средство для таблиц с упорядоченными категориями, будем прикладывать к больному месту.
p2004r
Цитата(DrgLena @ 8.02.2013 - 21:44) *
Уважаемый р2004 прошу Вас помочь с R, программа есть, у меня уже установлена и работает, хотя у меня более старая версия R

ridit(x, g, ref = NULL)

Arguments
x a numeric vector of data values or a matrix of crosstab data.
g a vector giving group of data or when x is a crosstab, number 1 or 2 when group is in the row or column of crosstab.
ref a text corresponds to label or code of arbitrary reference group or a number corresponds to row of group in output (when we want change reference group of output). Also user can enter an arbitrary numeric vector as reference group. Default is Null that used for total of all group as reference (special case that equivalent to the Kruskal-Wallis test).

Покажите, пожалуйста, как задать аргументы на примере таблицы этого поста. Вектор я задать могу, но матрицу не получается, а потому до конца не знаю, что получу.



У меня ridit() неустановлено, из того что написано x может быть исходным вектором данных, g группирующий фактор.

если задавать матрицей, то ridit(table(вектор, фактор), 1или2).


DrgLena
Матрицу я создала для этой таблицы, и задаю g=2, но
> ridit(mice,2)
Ошибка в factor(d1, labels = rownames(crosstab)) :
invalid labels; length 0 should be 1 or 2


> mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)
> mice # просмотр содержимого матрицы
[,1] [,2] [,3]
[1,] 16 20 133
[2,] 18 61 45

Я прицепила ridit, надеюсь на Вашу заинтересованность в R smile.gif
Мои желания и возможности в данном случае не совпадают
p2004r
Цитата(DrgLena @ 9.02.2013 - 20:28) *
Матрицу я создала для этой таблицы, и задаю g=2, но
> ridit(mice,2)
Ошибка в factor(d1, labels = rownames(crosstab)) :
invalid labels; length 0 should be 1 or 2


> mice <- matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)
> mice # просмотр содержимого матрицы
[,1] [,2] [,3]
[1,] 16 20 133
[2,] 18 61 45

Я прицепила ridit, надеюсь на Вашу заинтересованность в R smile.gif
Мои желания и возможности в данном случае не совпадают


Код
> library(Ridit)
> x=airquality$Ozone
>      g=airquality$Month
>      ridit(x,g)

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    5    0.312
2    6    0.4157
3    7    0.6673
4    8    0.6442
5    9    0.4154

Reference: Total of all groups
chi-squared = 29.2666, df = 4, p-value = 6.901e-06
> x
  [1]  41  36  12  18  NA  28  23  19   8  NA   7  16  11  14  18  14  34   6
[19]  30  11   1  11   4  32  NA  NA  NA  23  45 115  37  NA  NA  NA  NA  NA
[37]  NA  29  NA  71  39  NA  NA  23  NA  NA  21  37  20  12  13  NA  NA  NA
[55]  NA  NA  NA  NA  NA  NA  NA 135  49  32  NA  64  40  77  97  97  85  NA
[73]  10  27  NA   7  48  35  61  79  63  16  NA  NA  80 108  20  52  82  50
[91]  64  59  39   9  16  78  35  66 122  89 110  NA  NA  44  28  65  NA  22
[109]  59  23  31  44  21   9  NA  45 168  73  NA  76 118  84  85  96  78  73
[127]  91  47  32  20  23  21  24  44  21  28   9  13  46  18  13  24  16  13
[145]  23  36   7  14  30  NA  14  18  20
> g
  [1] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6
[38] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7
[75] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8
[112] 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
[149] 9 9 9 9 9
> table(x,g)
     g
x     5 6 7 8 9
  1   1 0 0 0 0
  4   1 0 0 0 0
  6   1 0 0 0 0
  7   1 0 1 0 1
  8   1 0 0 0 0
  9   0 0 0 2 1
  10  0 0 1 0 0
  11  3 0 0 0 0
  12  1 1 0 0 0
  13  0 1 0 0 3
  14  2 0 0 0 2
  16  1 0 1 1 1
  18  2 0 0 0 2
  19  1 0 0 0 0
  20  0 1 1 0 2
  21  0 1 0 1 2
  22  0 0 0 1 0
  23  2 1 0 1 2
  24  0 0 0 0 2
  27  0 0 1 0 0
  28  1 0 0 1 1
  29  0 1 0 0 0
  30  1 0 0 0 1
  31  0 0 0 1 0
  32  1 0 1 0 1
  34  1 0 0 0 0
  35  0 0 1 1 0
  36  1 0 0 0 1
  37  1 1 0 0 0
  39  0 1 0 1 0
  40  0 0 1 0 0
  41  1 0 0 0 0
  44  0 0 0 2 1
  45  1 0 0 1 0
  46  0 0 0 0 1
  47  0 0 0 0 1
  48  0 0 1 0 0
  49  0 0 1 0 0
  50  0 0 1 0 0
  52  0 0 1 0 0
  59  0 0 1 1 0
  61  0 0 1 0 0
  63  0 0 1 0 0
  64  0 0 2 0 0
  65  0 0 0 1 0
  66  0 0 0 1 0
  71  0 1 0 0 0
  73  0 0 0 1 1
  76  0 0 0 1 0
  77  0 0 1 0 0
  78  0 0 0 1 1
  79  0 0 1 0 0
  80  0 0 1 0 0
  82  0 0 1 0 0
  84  0 0 0 1 0
  85  0 0 1 1 0
  89  0 0 0 1 0
  91  0 0 0 0 1
  96  0 0 0 0 1
  97  0 0 2 0 0
  108 0 0 1 0 0
  110 0 0 0 1 0
  115 1 0 0 0 0
  118 0 0 0 1 0
  122 0 0 0 1 0
  135 0 0 1 0 0
  168 0 0 0 1 0
>      ridit(table(x,g),2)

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    5    0.312
2    6    0.4157
3    7    0.6673
4    8    0.6442
5    9    0.4154

Reference: Total of all groups
chi-squared = 29.2666, df = 4, p-value = 6.901e-06



думаю как то так надо поправить, чтобы тип объекта был table
Код
> as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE))
    A   B   C
A  16  20 133
B  18  61  45
> ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),2)

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    A    0.5531
2    B    0.6649
3    C    0.4148

Reference: Total of all groups
chi-squared = 58.6525, df = 2, p-value = 1.836e-13

> ridit(as.table(matrix(c(16, 20, 133, 18,61,45), nrow = 2, byrow = TRUE)),1)

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    A    0.5835
2    B    0.3862

Reference: Total of all groups
chi-squared = 44.2308, df = 1, p-value = 2.919e-11

>
DrgLena
Спасибо большое, р2004, буду разбираться
DrgLena
Уважаемый р2004, мой тяжкий путь познания R тормознулся на анализе примера из документации, который Вы привели. Я тытаюсь получить таблицу сопряженности из х и g.
Как я поняла, есть 67 объектов, пять раз осмотреных и есть 0,1,2,3 оценки к каждому осмотру. Но это следует уже из таблицы первичных данных, которые приводятся, а не из первого масива данных.
Из этой таблицы я пытаюсь создать таблицу 5х4, но так, чтобы самая хорощая оценка была первой в таблице., как принято в ridit, но я не знаю какая хорошая. Но не сходится результат средних Ridit для 5 групп (рядов). Что не так? Как увидеть файл с этими данными иописание исследования. Может не верно табл создаю? Я привожу g=1, а для g=2 получу оценки по колонкам.


> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)

Ridit Analysis:

Group Label Mean Ridit
----- ----- ----------
1 A 0.5351
2 B 0.5729
3 C 0.4621
4 D 0.4621
5 E 0.4731
aspir_h
В связи с тем, что ув. nokh сделал следующее разъяснение


Цитата(nokh @ 2.02.2013 - 23:18) *
.....то для ваших данных проведённый анализ не обладает максимальной мощностью. Дело в том, что категории степени ГБ являются не номинальными, а упорядоченными: степень 1 больше 0, а 2 больше 1. При анализе обычным хи-квадратом информация о такой упорядоченности никак не задействуется, а следовательно мощность анализ снижается. В вашем случае это не принципиально, т.к. р ничтожно мало (1,66 х 10-13), но в случае менее сильных различий и/или меньших объёмов выборок хи-квадрат или более тонкие подходы могли бы привести к разным выводам.


для проверки нулевой гипотезы о различии групп, решил сравнить метод хи квадрат Пирсона и ранговый анализ вариаций по Краскелу-Уоллису. При одних и тех же данных, получены следующие резкльтаты:
Пирсона хи квадрат = 11,57, p=0.07225
Ранговый ДА Краскела_Уоллиса p=0.0343
Таким образом, альтернативная гипотеза о различии групп принимается при применении метода Краскела_Уоллиса.
Уважаемые форумчане, я правильно рассуждаю?

Подробная информация в прикрепленном файле.
DrgLena
Прежде, чем рассуждать о результатах статистического, анализа нужно содержательно поставить задачу в вашей предметной области, наверное, медицинскую. Потом описать данные, которые вы собрали, чтобы решить эту задачу, т.е. ответить на вопросы запланированного исследования. Правильно подобрать методы статистического анализа, прочитать про эти методы, например,?вариацию? чего проверяет выбранный вами метод.
А вы перебираете методы, о который вам стало известно на форуме, и хотите, чтобы выводы о результатах анализа кто то сделал за вас. Из вашей ?подробной? информации ничего не ясно, зачем вы собрали эти данные и что с чем вы хотите сравнить.
Nokh вам пишет об упорядоченных категориях, а вы опять пирсона хи квадрат приводите из программы Statistica, значит, ничего не почитали, а нашли кнопочку с К-У, так почитайте различия чего и между чем и чем вы получили, или только р нужно привести не понимая что оно означает.
Выбор методов зависит от характера данных и от постановки задачи исследования. На форуме обсуждали одну вашу таблицу, вы получили рекомендации, но приводите результат сравнения совершенно других, оставшихся в секрете, данных.
aspir_h
Ув. DrgLena, логика моих рассуждений и действий следующая.
В первом посте приводил пример сравнения двух групп с качественными порядковыми данными. Для этого использовалась таблица сопряженности и метод хи квадрат Пирсона. Ув. Nokh пояснил, что есть более чувствительные методы для сравнения групп с порядковыми данными и привел примеры этих методов.
Я в свою очередь на другом примере попытался сравнить два метода: в результате, при применении метода Пирсона хи квадрат, различия в группах статистически не значимы, а при анализе этих же данных, используя ранговый анализ по Краскелу_Уоллису - различия в группах получились статистически значимыми.

Вывод: при сравнении групп с порядковыми данными предпочтительным является ранговый анализ вариаций по Краскелу-Уоллису (по сравнению с Пирсона хи квадрат).

Условия задачи и данные в прикрепленном файле.
p2004r
Цитата(DrgLena @ 11.02.2013 - 13:12) *
Уважаемый р2004, мой тяжкий путь познания R тормознулся на анализе примера из документации, который Вы привели. Я тытаюсь получить таблицу сопряженности из х и g.
Как я поняла, есть 67 объектов, пять раз осмотреных и есть 0,1,2,3 оценки к каждому осмотру. Но это следует уже из таблицы первичных данных, которые приводятся, а не из первого масива данных.
Из этой таблицы я пытаюсь создать таблицу 5х4, но так, чтобы самая хорощая оценка была первой в таблице., как принято в ridit, но я не знаю какая хорошая. Но не сходится результат средних Ridit для 5 групп (рядов). Что не так? Как увидеть файл с этими данными иописание исследования. Может не верно табл создаю? Я привожу g=1, а для g=2 получу оценки по колонкам.


> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)

Ridit Analysis:

Group Label Mean Ridit
----- ----- ----------
1 A 0.5351
2 B 0.5729
3 C 0.4621
4 D 0.4621
5 E 0.4731


Может проблема в том что не указывается arbitrary reference group?

Код
> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1, ref="B")

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    A    0.466
2    B    0.5
3    C    0.3861
4    D    0.3861
5    E    0.4034

Reference: Group = 2, Label = B
chi-squared = 13.9436, df = 4, p-value = 0.007477

> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1, ref="C")

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    A    0.5727
2    B    0.6139
3    C    0.5
4    D    0.5
5    E    0.5081

Reference: Group = 3, Label = C
chi-squared = 13.9982, df = 4, p-value = 0.007301
DrgLena
Да, относительно референтной группы интересно получить результат, но у меня не сходится ручной расчет по этому коду при сравнении конкретно табл 2хk. Пример из учебника есть тут, на стр 175-176

http://books.google.com.ua/books?id=EpEfWv...ple&f=false Я получаю руками 0,604 как в книге и 0,310 если поменять местами группы, а пакет выдает 0,578 и 0,473. Или иранский студент, автор кода, что то не так делает, но результат не сходится. Проверить можно только в SAS , но профессиональный статистик, работающий под прикрытием TL и который нам поведал про RIDI о результатх умалчивает. Я надеюсь, что Вы, уважаемы p2012 сможете свой код написать с понятным вводом таблицы сопряженности, может я не верно ввожу таблицу, не указываю, что она cross.
p2004r
Цитата(DrgLena @ 12.02.2013 - 13:47) *
Да, относительно референтной группы интересно получить результат, но у меня не сходится ручной расчет по этому коду при сравнении конкретно табл 2хk. Пример из учебника есть тут, на стр 175-176

http://books.google.com.ua/books?id=EpEfWv...ple&f=false Я получаю руками 0,604 как в книге и 0,310 если поменять местами группы, а пакет выдает 0,578 и 0,473. Или иранский студент, автор кода, что то не так делает, но результат не сходится. Проверить можно только в SAS , но профессиональный статистик, работающий под прикрытием TL и который нам поведал про RIDI о результатх умалчивает. Я надеюсь, что Вы, уважаемы p2012 сможете свой код написать с понятным вводом таблицы сопряженности, может я не верно ввожу таблицу, не указываю, что она cross.


что делает иранский студент легко увидеть набрав ?ridit.raw
Код
     ## The function is currently defined as
     function (x, g, ref = NULL)
     {
         x = as.numeric(x)
         x = as.vector(x)
         g = as.factor(g)
         levels = levels(g)
         levels(g) = 1:length(levels)
         g = as.vector(g)
         g = as.character(g)
         code = is.numeric(ref)
         ref = as.vector(ref)
         ref = as.character(ref)
         if (length(ref) > 1) {
             x = c(x, ref)
             g = c(g, rep(".ref", length(ref)))
             levels = c(".ref", levels)
         }
         crosstab = t(as.matrix(table(x, g)))
         rownames(crosstab) = levels
         refindex = NULL
         if (length(ref) == 1) {
             if (!code)
                 refindex = which(levels == ref)
             if (code && ref >= 1 && ref <= nrow(crosstab))
                 refindex = as.numeric(ref)
         }
         else if (length(ref) > 1)
             refindex = which(levels == ".ref")
         if (length(refindex) != 0)
             refrow = crosstab[refindex, ]
         else refrow = apply(crosstab, 2, sum)
         if (length(refindex) == 0)

             msg = paste("Reference: Total of all groups", sep = "")
         else msg = paste("Reference: Group = ", refindex, ", Label = ",
             levels[refindex], sep = "")
         nref = sum(refrow)
         ridit = 0.5 * refrow[1]/nref
         for (i in 2:length(refrow)) {
             iridit = (sum(refrow[1:i - 1]) + 0.5 * refrow[i])/nref
             ridit = c(ridit, iridit)
         }
         n = apply(crosstab, 1, sum)
         meanRidit = c()
         for (i in 1:nrow(crosstab)) {
             itable = crosstab[i, ]
             meanRidit = c(meanRidit, sum(ridit * itable)/n[i])
         }
         n0 = sum(n)
         rbar0 = sum(n * meanRidit)/n0
         t = apply(crosstab, 2, sum)
         f = 1 - (sum(t * (t - 1) * (t + 1)))/(n0 * (n0 - 1) * (n0 +
             1))
         teststatistic = (12 * n0 * sum(n * (meanRidit - rbar0)^2))/((n0 +
             1) * f)
         testdf = nrow(crosstab) - 1
         pvalue = pchisq(q = teststatistic, df = testdf, lower.tail = FALSE)
         if (length(ref) == 0)
             ref = NULL
         names(meanRidit) = rownames(crosstab)
         output = list(MeanRidit = meanRidit, TestStatistic = teststatistic,
             df = testdf, Sig = pvalue, x = x, g = g, ref = ref, crosstab = crosstab,
             msg = msg)
         class(output) <- c("ridit", class(output))
         output
       }


если посмотреть в сравнении с немодифицированным тестом, то сумма сходится smile.gif

Код
> str(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1))
List of 9
$ MeanRidit    : Named num [1:5] 0.535 0.573 0.462 0.462 0.473
  ..- attr(*, "names")=8322456 [1:5] "A" "B" "C" "D" ...
$ TestStatistic: num 13.2
$ df           : num 4
$ Sig          : num 0.0104
$ x            : num [1:325] 1 2 2 2 3 3 3 3 3 3 ...
$ g            :8322456 [1:325] "1" "1" "1" "1" ...
$ ref          : NULL
$ crosstab     : 'table' int [1:5, 1:4] 1 0 0 0 1 3 0 2 2 6 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ g:8322456 [1:5] "A" "B" "C" "D" ...
  .. ..$ x:8322456 [1:4] "1" "2" "3" "4"
$ msg          :8322456 "Reference: Total of all groups"
- attr(*, "class")=8322456 [1:2] "ridit" "list"

> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$x
  [1] 1 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
[38] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4
[75] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
[112] 4 4 4 4 4 4 4 4 4 4 4 4 4 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
[149] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
[186] 4 4 4 4 4 4 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4
[223] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1
[260] 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
[297] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$g
  [1] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1"
[19] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1"
[37] "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1" "1"
[55] "1" "1" "1" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2"
[73] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2"
[91] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2"
[109] "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "2" "3" "3"
[127] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3"
[145] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3"
[163] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3"
[181] "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "3" "4" "4" "4" "4" "4" "4" "4"
[199] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4"
[217] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4"
[235] "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4" "4"
[253] "4" "4" "4" "4" "4" "4" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5"
[271] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5"
[289] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5"
[307] "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5" "5"
[325] "5"

> kruskal.test(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$x, as.factor(ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)$g))

    Kruskal-Wallis rank sum test

data:  ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0, 2, 22, 43,  and as.factor(ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0,      0, 2, 22, 43, 1, 6, 14, 46), nrow = 5, byrow = TRUE)), 1)$x and     2, 22, 43, 0, 2, 22, 43, 1, 6, 14, 46), nrow = 5, byrow = TRUE)),  ridit(as.table(matrix(c(1, 3, 7, 46, 0, 0, 9, 58, 0, 2, 22, 43,  and     1)$g)
Kruskal-Wallis chi-squared = 13.1813, df = 4, p-value = 0.01042

> ridit(as.table(matrix(c(1,3,7,46,0,0,9,58,0,2,22,43,0,2,22,43,1,6,14,46), nrow = 5, byrow = TRUE)),1)

Ridit Analysis:

Group    Label    Mean Ridit
-----    -----    ----------
1    A    0.5351
2    B    0.5729
3    C    0.4621
4    D    0.4621
5    E    0.4731

Reference: Total of all groups
chi-squared = 13.1813, df = 4, p-value = 0.01042


учебник пока не смотрел...
aspir_h
Цитата(aspir_h @ 12.02.2013 - 11:31) *
Ув. DrgLena, логика моих рассуждений и действий следующая.
В первом посте приводил пример сравнения двух групп с качественными порядковыми данными. Для этого использовалась таблица сопряженности и метод хи квадрат Пирсона. Ув. Nokh пояснил, что есть более чувствительные методы для сравнения групп с порядковыми данными и привел примеры этих методов.
Я в свою очередь на другом примере попытался сравнить два метода: в результате, при применении метода Пирсона хи квадрат, различия в группах статистически не значимы, а при анализе этих же данных, используя ранговый анализ по Краскелу_Уоллису - различия в группах получились статистически значимыми.

Вывод: при сравнении групп с порядковыми данными предпочтительным является ранговый анализ вариаций по Краскелу-Уоллису (по сравнению с Пирсона хи квадрат).

Условия задачи и данные в прикрепленном файле.


Ув. друзья! Убедительно прошу высказаться по данному посту, логичны ли рассуждения?
p2004r
Цитата(aspir_h @ 13.02.2013 - 10:24) *
Ув. друзья! Убедительно прошу высказаться по данному посту, логичны ли рассуждения?


здесь нужно строить вычислительный эксперимент. выбирать выборки из заданной генсовокупности и вычислять критерий (ии). статистика критерия покажет насколько он точен(мощен).
100$
Цитата(aspir_h @ 13.02.2013 - 10:24) *
Ув. друзья! Убедительно прошу высказаться по данному посту, логичны ли рассуждения?


Ув. друг! А вы какую гипотезу проверяете?
DrgLena
Цитата(100$ @ 13.02.2013 - 13:10) *
Ув. друг! А вы какую гипотезу проверяете?

Какие такие гипотезы, что ж тут проверять, давно известных факт, нужно брать тот результат, где р меньше, вот только что критерий проверяет, какую такую вариацию, даже ВАК не знает, зачем же диссертанту себя утруждать. Пока тут идет обсуждение, именно на тему содержательной интепретации результатов анализа таблиц сопряженности для упорядоченных категорий, используя ridit оценки, диссертант перебирает кнопки в программе Statictica, но там еще много критериев, а потому нужно быстрее остановиться, получив от форума, одобрямсс
DrgLena
to p2004,

Спасибо, мное стало понятным, но,

сходится, потому что одну и ту же кросстаб анализируем, а не сходится с результатом, который у Вас получился по первичным данным этого примера:
Результат по первичным данным
Group Label Mean Ridit
----- ----- ----------
1 5 0.312
2 6 0.4157
3 7 0.6673
4 8 0.6442
5 9 0.4154
Результат по данным введенным в виде таблицы

Group Label Mean Ridit
----- ----- ----------
1 A 0.5351
2 B 0.5729
3 C 0.4621
4 D 0.4621
5 E 0.4731
Для меня понятен именно это результат, одинаковые оценки в 3 и 4 группе соответствуют одинаковому набору данных в этих группах. И смысловая трактовка также понятна, хотя она зависит от того , что хорошо 0 или 3.
Как получен первый набор Mean Ridit по данным этого примера?
aspir_h
Ув. DrgLena! На мой первый пост:

Цитата(aspir_h @ 2.02.2013 - 22:10) *
Всем здравствуйте!
Прошу строго не судить, если излагаю банальные вопросы, тем не менее, они у меня возникли, и я очень рад, что нашел ресурс, где их можно обсудить.
Читаю книгу О.Ю.Ребровой "Статистический анализ медицинских данных", раздел 10 "сравнение групп по качественному признаку", где на стр.148 приводится в качестве примера для сравнения двух групп и более использование таблиц сопряженности и метода Пирсона хи-квадрат.
Решаемая нами задача аналогична изложенной в книге, мы получили определенные результаты, и я очень прошу уважаемых форумчан подсказать, насколько правильно я интерпретировал полученные результаты.
Итак, необходимо сравнить распространенность больных с I, II,III стадиями гипертонической болезни в группах больных инфарктом миокарда и инсультом (в нашем случае, заболевания другие, данный пример придуман).
Нулевая гипотеза: - группы однородны (между группами отсутствуют различия);
- распределение по одному признаку не влияет на распределение по другому признаку.
После анализа данных получены следующие результаты (в прикрепленном файле).
Вывод: нулевая гипотеза отклоняется, изучаемые группы значимо различаются и признаки умеренно ассоциированы.


был следующий ответ ув. Nokh:
Цитата
Вообще всё мимо, читайте больше! Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода:

Kruskal-WallisTest The Kruskal-Wallis test (Siegel and Castellan, 1988) is the most popular of the nonparametric tests for singly ordered r Ч c contingency tables. It specializes to the Wilcoxon-Mann-Whitney test when r = 2. This test is also available for continuous data (see Chapter 9) where it is known to be 98% as efficient as one-way ANOVA for normally distributed populations with a common variance but different means. Since this chapter deals with categorical data arising from multinomial distributions the above efficiency properties do not apply. Nevertheless the Kruskal-Wallis test would be the method of choice if the underlying data were generated from continuous latent distributions, differing in location but not in scale, and the observations were then categorized into c distinct categories.


К сожалению, я не владею английским языком, а сделав перевод с помощью Translate.Ru пришел к мнению, что для анализа различий групп, можно применить в т.ч. Критерий Краскела_уоллиса "книга В.Боровиков "Statistica. Искуство анализа данных на компьютере, 2003", стр.522.
DrgLena
Но хотя бы русским вы владеть должны!

Разработчики пакета StatXact - лидера среди ПО для анализа таблиц сопряжённости - рассматривают для этой цели 4 метода:

Вы загрузили этот пакет в демо версии, посмотрели в любом учебнике на русском языке, что такое таблицы сопряженности?
Нет!

А потому, для вас все равно, что тест Краскала - Уоллиса в программе Statistica, о котором пишет Боровиков, что тест с тем же названием, о котором написал nokh. Программа StatXact выводит только конечную оценку этого теста, без средних ridit. Кроме того бесконечно пользоваться демо версией не удобно, а программа очень дорогая. Вот поэтому, на форуме и обсуждается возможность сделать это в R.
100$
Самый известный тест, ассоциирующийся с именами Краскелла и Уоллиса- это непараметрический аналог однофакторного дисперсионного анализа (1952 год). Именно он реализован в Statistica, именно о нем пишет Боровков. А что такое тест Краскелла-Уоллиса для анализа таблиц сопряженности? Угостите кто-нить ссылкой, коли не лень. Сильвупле.
nokh
Цитата(100$ @ 13.02.2013 - 22:37) *
Самый известный тест, ассоциирующийся с именами Краскелла и Уоллиса- это непараметрический аналог однофакторного дисперсионного анализа (1952 год). Именно он реализован в Statistica, именно о нем пишет Боровков. А что такое тест Краскелла-Уоллиса для анализа таблиц сопряженности? Угостите кто-нить ссылкой, коли не лень. Сильвупле.

Бьен сюр, ком ву вуле. Но ссылки не нужно, это и есть тот самый и единственный К-У. Только при работе с таблицами сопряжённости (ТС) с упорядоченными категориями нужно догадаться развернуть табличные данные в привычный формат данных. Пакет же StatXact делает это автоматически непосредственно из ТС - мы это когда-то обсуждали на форуме, кажется Игорь объяснял.

>DrgLena
С Ridit пока не разбирался, примеры не считал, только литературу поискал в интернете - бедновато. Нашёл, что если в качестве референтного распределения используются маргинальные частоты, то результаты этого анализа эквивалентны результатам К-У. Насколько я понял, его сильные стороны в том, что в качестве референтного распределения можно выбрать частоты любой из нескольких сравниваемых групп, а также что ридиты могут интерпретироваться в терминах вероятностей.
aspir_h
Цитата(nokh @ 13.02.2013 - 20:57) *
Бьен сюр, ком ву вуле. Но ссылки не нужно, это и есть тот самый и единственный К-У. Только при работе с таблицами сопряжённости (ТС) с упорядоченными категориями нужно догадаться развернуть табличные данные в привычный формат данных. Пакет же StatXact делает это автоматически непосредственно из ТС - мы это когда-то обсуждали на форуме, кажется Игорь объяснял.

>DrgLena
С Ridit пока не разбирался, примеры не считал, только литературу поискал в интернете - бедновато. Нашёл, что если в качестве референтного распределения используются маргинальные частоты, то результаты этого анализа эквивалентны результатам К-У. Насколько я понял, его сильные стороны в том, что в качестве референтного распределения можно выбрать частоты любой из нескольких сравниваемых групп, а также что ридиты могут интерпретироваться в терминах вероятностей.


Ув. Nokh, получается мои рассуждения и расчеты верны?
nokh
Цитата(aspir_h @ 14.02.2013 - 00:00) *
Ув. Nokh, получается мои рассуждения и расчеты верны?

У меня иначе получается. По К-У различий нет (H(2)=0,29; P=0,865), а по хи-квадрат есть тенденция к различиям (хи-квадрат=11,57, P=0,072). Такое тоже может быть если межгрупповые различия не в средней стадии вашего показателя, а именно в различном соотношении стадий. Получается, что конкретно для ваших данных хи-квадрат оказывается боле информативным. Далее нужно смотреть остатки: можно показать, что обнаруженная тенденция связана редкостью стадии 0 в группе инсультов, редкостью стадии 2 в группе инфарктов и относительно более высокой частотой стадии 2 в группе инсультов. Т.е. картина здесь пёстрая (поэтому К-У различий не находит) и я не знаю есть ли в ней глубокий медицинский смысл.
aspir_h
Цитата(nokh @ 13.02.2013 - 21:52) *
У меня иначе получается. По К-У различий нет (H(2)=0,29; P=0,865), а по хи-квадрат есть тенденция к различиям (хи-квадрат=11,57, P=0,072). Такое тоже может быть если межгрупповые различия не в средней стадии вашего показателя, а именно в различном соотношении стадий. Получается, что конкретно для ваших данных хи-квадрат оказывается боле информативным. Далее нужно смотреть остатки: можно показать, что обнаруженная тенденция связана редкостью стадии 0 в группе инсультов, редкостью стадии 2 в группе инфарктов и относительно более высокой частотой стадии 2 в группе инсультов. Т.е. картина здесь пёстрая (поэтому К-У различий не находит) и я не знаю есть ли в ней глубокий медицинский смысл.


р=0,0343 получилось в случае, когда в качестве зависимой перемоенной выступают заболевания (инфаркт, инсульт, диабет), а группирующей - стадия заболевания
nokh
Цитата(aspir_h @ 14.02.2013 - 01:08) *
р=0,0343 получилось в случае, когда в качестве зависимой перемоенной выступают заболевания (инфаркт, инсульт, диабет), а группирующей - стадия заболевания

Это вообще не имеет никакого смысла. Заболевания - номинальные показатели, их нельзя сравнить ранговым тестом. Сравнить К-У можно только заболевания по показателю "стадия".
aspir_h
Цитата(nokh @ 13.02.2013 - 22:14) *
Это вообще не имеет никакого смысла. Заболевания - номинальные показатели, их нельзя сравнить ранговым тестом. Сравнить К-У можно только заболевания по показателю "стадия".


да, все верно! Ув. Nokh, cпасибо огромное за подробное разъяснение.
p2004r
Цитата(DrgLena @ 13.02.2013 - 13:36) *
to p2004,

Спасибо, мное стало понятным, но,

сходится, потому что одну и ту же кросстаб анализируем, а не сходится с результатом, который у Вас получился по первичным данным этого примера:
Результат по первичным данным
Group Label Mean Ridit
----- ----- ----------
1 5 0.312
2 6 0.4157
3 7 0.6673
4 8 0.6442
5 9 0.4154
Результат по данным введенным в виде таблицы

Group Label Mean Ridit
----- ----- ----------
1 A 0.5351
2 B 0.5729
3 C 0.4621
4 D 0.4621
5 E 0.4731
Для меня понятен именно это результат, одинаковые оценки в 3 и 4 группе соответствуют одинаковому набору данных в этих группах. И смысловая трактовка также понятна, хотя она зависит от того , что хорошо 0 или 3.
Как получен первый набор Mean Ridit по данным этого примера?


насколько я понимаю вот так получен
Код
nref = sum(refrow)
         ridit = 0.5 * refrow[1]/nref
         for (i in 2:length(refrow)) {
             iridit = (sum(refrow[1:i - 1]) + 0.5 * refrow[i])/nref # совпадает с http://en.wikipedia.org/wiki/Ridit_scoring
             ridit = c(ridit, iridit)   # это так странно вектор получают в цикле :)
         }
         n = apply(crosstab, 1, sum)
         meanRidit = c()
         for (i in 1:nrow(crosstab)) {
             itable = crosstab[i, ]
             meanRidit = c(meanRidit, sum(ridit * itable)/n[i])
         }


DrgLena
Действительно, все меньше открытой полезной инфы становится в сети.

Почему я решила, что это другой критерий К-У:

An extension of the Kruskal-Wallis Test that allow
selection of arbitrary reference group. Also provide Mean Ridit
for each group. Mean Ridit of a group is an estimate of
probability a random observation from that group will be
greater than or equal to a random observation from reference group.

Но при сравнении результата анализа в R и SAS получается одинаковый вывод и значение критерия под названием Kruskal-Wallis Test в R точно совпадаетс с Сochran-Mantel-Haenzel значением, которое выдает SAS.

Я решила, что статистика Краскала-Уоллиса, которая базируется на хи кВ. распределении используется в данном случае для подтверждения того, что действительно существуют различия ridit, а не просто рангов.
Могу ошибаться, я тут тоже учусь.
DrgLena
Наконец то разобралась, пришпиленный документ - история познания. Я его не убираю, может кому пригодится. R считает правильно, ridit можно использовать, только я пока должна задействовать для расчета ДИ и графиков другие программы (kyPlot) Для того же примера
> ridit(data,1,ref="no")

Ridit Analysis:

Group Label Mean Ridit
----- ----- ----------
1 yes 0.6042
2 no 0.5

Reference: Group = 2, Label = no
chi-squared = 4.3546, df = 1, p-value = 0.03691

когда сравнивается только две группы, значение р не зависит от референтной группы
psychologist
коллеги, помогите проинтерпретировать данные по конфирматорному факторному анализу в программе statistica 10
на выходе я получил это


как это понимать. Что я могу исходя из этого сказать. Анализ делался на корреляционный матрице.
DrgLena
А свою тему открыть?
psychologist
Будучи сам админом одного из форумов, никогда не понимал зачем штопать кучу тем. Тему надо создавать, только если что то специфическое. А эта тема мне показалась общей по данным вопросам.
DrgLena
Да, действительно, тема про интерпретацию полученных результатов shuffle.gif
А я думала, про анализ таблиц сопряженности при упорядоченных категориях. Я конечно, не админ, но вопрос ваш потеряется, если в эту тему кто то что то добавит по обсуждаемому вопросу
DoctorStat
Цитата(DrgLena @ 17.02.2013 - 23:01) *
А я думала, про анализ таблиц сопряженности при упорядоченных категориях.
А вот этот анализ упорядоченных категорий, который вы ridit-ом называете, он использует точные методы (типа Фишера), или приближенные (типа хи-квадрат)?
aspir_h
Цитата(DrgLena @ 17.02.2013 - 23:01) *
Да, действительно, тема про интерпретацию полученных результатов shuffle.gif
А я думала, про анализ таблиц сопряженности при упорядоченных категориях. Я конечно, не админ, но вопрос ваш потеряется, если в эту тему кто то что то добавит по обсуждаемому вопросу



да, хотелось бы здесь обсуждать именно анализ таблиц сопряженности при упорядоченных категориях. С этой целью обращаюсь к модераторам изменить название темы согласно обсуждаемому вопросу, хотя тему "запустил" я, изменить название не получилось.
DrgLena
Ответ на Ваш вопрос дан, перечислены методы, которые предпочтительней использовать для анализа таблиц сопряженности при упорядоченных категориях. В частности, рекомендация Татьяны Лариной использовать ridit анализ мне понравилась, и реализацию метода продемонстрировал p2004r . Я потратила много времени, чтобы понять, что выдает программа и как трактуется результат, все сошлось с ручным расчетом и рассматриваемая программа лицензирована автором, так, что можно смело ее использовать
По анализу Ваших двух таблиц преимущество метода продемонстрировать не могу, т.к. вывод по первой таблице с двумя категориями болезни и тремя категориями ГБ, противоречат второй таблице, в которую вы добавили диабет и нулевую категорию ГБ, при этом число наблюдений по первым двум болезням стало меньше и соотношение категорий по ГБ иное. Так что лучше учиться на примерах из учебников, чтобы понять смысл метода.


> data=as.table(matrix(c(16,20,133,18,61,45), nrow = 2, byrow = TRUE))
> rownames(data)=c("инфаркт","инсульт")
> data
A B C
инфаркт 16 20 133
инсульт 18 61 45
> library(Ridit)
Предупреждение
пакет 'Ridit' был собран под R версии 2.15.2
> ridit(data,1)

Ridit Analysis:

Group Label Mean Ridit
----- ----- ----------
1 инфаркт 0.5835
2 инсульт 0.3862

Reference: Total of all groups
chi-squared = 44.2308, df = 1, p-value = 2.919e-11

> ridit(data,1,ref="инфаркт")

Ridit Analysis:

Group Label Mean Ridit
----- ----- ----------
1 инфаркт 0.5
2 инсульт 0.3027

Reference: Group = 1, Label = инфаркт
chi-squared = 44.2308, df = 1, p-value = 2.919e-11
aspir_h
Уважаемые друзья! По имеющимся данным таблицы сопряженности и значению статистики Пирсона Хи-квадрат (присоединенный к сообщению файл) можно ли утверждать, что гипертоническая болезнь 2 стадии среди больных инфарктом встречается в 2,9 раза чаще, чем среди больных инсультом, а 1 стадии - среди больных инсультом в в 3,05 раза чаще, чем среди больных инфарктом? Заранее спасибо. Прочитал соответсвующие разделы у Ребровой, Боровикова, Гланца, но увы ответа на свой вопрос не получил.
nokh
Цитата(aspir_h @ 5.08.2013 - 17:30) *
Уважаемые друзья! По имеющимся данным таблицы сопряженности и значению статистики Пирсона Хи-квадрат (присоединенный к сообщению файл) можно ли утверждать, что гипертоническая болезнь 2 стадии среди больных инфарктом встречается в 2,9 раза чаще, чем среди больных инсультом, а 1 стадии - среди больных инсультом в в 3,05 раза чаще, чем среди больных инфарктом? Заранее спасибо. Прочитал соответсвующие разделы у Ребровой, Боровикова, Гланца, но увы ответа на свой вопрос не получил.

Не понятно, почему у вас получились такие цифры если проценты посчитаны нужные - по строкам? У меня вышло 2,16 и 4,16. Это - относительные риски, читайте про них. Цифры желательно дополнить доверительными интервалами. Для этого исходную таблицу нужно перегруппировывать в таблицы 2х2 (нужный тип ГБ; остальные типы ГБ). В недавней теме Uno я приводил ссылку на хороший онлайновый калькулятор рисков и относительных шансов.
DrgLena
Цитата(nokh @ 6.08.2013 - 10:15) *
Не понятно, почему у вас получились такие цифры

А мне понятно: 133/45 и 61/20 laugh.gif
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.