Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Каким методом посчитать?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Solo...
Уважаемые форумчане!! Подскажите, пожалуйста, каким тестом оценить корреляцию (наличие зависимости или ее отсутствие) между фактором (независимым признаком), который имеет 3 градации (например, пигментация слабая, средняя и сильная) и результатом, который делиться на 3 позиции (например, полная резорбция опухоли, частичная резорбция опухоли и отсутствие эффекта)?

Можно ли применить логистическую регрессию? Или она тут неуместна?
Игорь
Цитата(Solo... @ 25.01.2009 - 14:11) *
Уважаемые форумчане!! Подскажите, пожалуйста, каким тестом оценить корреляцию (наличие зависимости или ее отсутствие) между фактором (независимым признаком), который имеет 3 градации (например, пигментация слабая, средняя и сильная) и результатом, который делиться на 3 позиции (например, полная резорбция опухоли, частичная резорбция опухоли и отсутствие эффекта)?

Можно ли применить логистическую регрессию? Или она тут неуместна?

Понятие корреляции для номинальных признаков, по-моему, не определено. Так что неясно, что нужно считать?
DoctorStat
Цитата(Solo... @ 25.01.2009 - 13:11) *
каким тестом оценить корреляцию (наличие зависимости или ее отсутствие) между фактором (независимым признаком), который имеет 3 градации (например, пигментация слабая, средняя и сильная) и результатом, который делиться на 3 позиции (например, полная резорбция опухоли, частичная резорбция опухоли и отсутствие эффекта)?
Т.к. Ваши данные не числа, а просто упорядочены в ряд по признаку больше/меньше, то вместо коэффициента корреляции Пирсона используйте ранговый коэффициент корреляции Спирмена. В случае наличия зависимости между факторами, значимость коэффициента корреляции Спирмена должна быть больше определенного Вами порога.
Игорь
Цитата(DoctorStat @ 25.01.2009 - 17:37) *
Т.к. Ваши данные не числа ... используйте ранговый коэффициент корреляции Спирмена

Оригинально. Вы сами признаете, что данные - не числа. И тут же предлагаете считать коэффициент Спирмена, который предназначен для количественных или порядковых выборок. "Пойти туда, не знаю, куда".

Здесь нужно исследовать связь типа корреляции для номинальных признаков. Каким методом? Например, посчитать коэффициент сопряженности Пирсона. Тот, что основан на статистике хи-квадрат, вычисляемой по таблице сопряженности, составляемой как раз на основе номинальных выборок.
Solo...
Цитата(Игорь @ 25.01.2009 - 15:28) *
Понятие корреляции для номинальных признаков, по-моему, не определено. Так что неясно, что нужно считать?



Нужно определить, есть ли связь между признаком (разделенным на три градации) и результатом лечения (так же разделенным на три градации). Иными словами, влияет ли этот признак на результат.
DoctorStat
Цитата(Игорь @ 25.01.2009 - 17:18) *
коэффициент Спирмена, который предназначен для количественных или порядковых выборок.
Как Вы правильно заметили, коэффициент Спирмена предназначен для порядковых выборок, т.е. упорядоченных данных. Мы имеем именно такой случай. С данными можно сопоставить ранги. Первый фактор: пигментация слабая, средняя и сильная = (ранги) 1,2,3. Второй фактор: полная резорбция опухоли, частичная резорбция опухоли и отсутствие эффекта = (ранги) 3,2,1. После перевода данных в ранги можно вычислять коэффициент ранговой корреляции Спирмена, значимость которого говорит о наличии связи, а величина - о силе связи признаков.
DrgLena
Да, вроде бы все просто, упорядоченный признак и упорядоченный отклик и коэффициент корреляции соответствующий есть и даже коэффициент сопряженности Пирсона вполне устраивает (хи кв=10.0 и р=0.04), но в моем реальном примере при этом, слабопигментированные опухоли (2) дают более высокий процент полной резорбции. Ниже реальные данные (n=293). Вывод, что существует статистически достоверная сопряженность признаков требует дальнейшего доказательства.

1. Row Percent 16.67% 33.33% 50.00%
2. Row Percent 30.99% 30.99% 38.03%
3. Row Percent 19.13% 25.22% 55.65%
плав
Цитата(Solo... @ 25.01.2009 - 18:40) *
Нужно определить, есть ли связь между признаком (разделенным на три градации) и результатом лечения (так же разделенным на три градации). Иными словами, влияет ли этот признак на результат.

Опять-таки, как в соседнем посте - задача для критерия Кохрана-Мантеля-Ханзеля, либо ординальной логистической регрессии. Существуют аналоги коэффициентов корреляции для ординальных переменных (типа V Крамера, тау Кендалла и Стюарта), но в данном случае будут проблемы интерпретации.
DrgLena
Цитата(плав @ 25.01.2009 - 20:15) *
задача для критерия Кохрана-Мантеля-Ханзеля

Всегда считала, что этот критерий только для бинарного отклика, для анализа эффекта в двух группах, для контроля вмешивающихся факторов, т.е. для k таблиц 2х2 и анализа эффекта в стратах.
плав
Цитата(DrgLena @ 25.01.2009 - 20:40) *
Всегда считала, что этот критерий только для бинарного отклика, для анализа эффекта в двух группах, для контроля вмешивающихся факторов, т.е. для k таблиц 2х2 и анализа эффекта в стратах.

Ошибочно. Критерий Кохрана-Мантеля-Ханзеля (не путайте с критерием Мантеля-Хазеля для стратифицированного анализа) предназначен для анализа таблиц составленных из упорядоченных или неупорядоченных переменных. Метод реализован в SAS (напрямую) и в R (требует некоторых усилий, чтобы сделать одновременно все три типа анализа - неупорядоченные, упорядоченные в строке и упорядоченные в строке и столбце)
DrgLena
Да, я действительно использую MH в программе Statistica для стратифицированного анализа, хотя в пользовательском меню и в хелпах этого теста там нет, но есть испольняемый файл, который можно использовать.
Но меня смутило то, что в SPSS16, Cohran and Mantel-Haenszel во всяком случае с таким названием, реализован, но тоже только для бинарного отклика и теститует OR=1.
Cochran's and Mantel-Haenszel statistics. Cochran's and Mantel-Haenszel statistics can be used to test for independence between a dichotomous factor variable and a dichotomous response variable, conditional upon covariate patterns defined by one or more layer (control) variables. Note that while other statistics are computed layer by layer, the Cochran's and Mantel-Haenszel statistics are computed once for all layers.
Игорь
Цитата(DoctorStat @ 25.01.2009 - 19:45) *
Как Вы правильно заметили, коэффициент Спирмена предназначен для порядковых выборок, т.е. упорядоченных данных. Мы имеем именно такой случай. С данными можно сопоставить ранги. Первый фактор: пигментация слабая, средняя и сильная = (ранги) 1,2,3. Второй фактор: полная резорбция опухоли, частичная резорбция опухоли и отсутствие эффекта = (ранги) 3,2,1. После перевода данных в ранги можно вычислять коэффициент ранговой корреляции Спирмена, значимость которого говорит о наличии связи, а величина - о силе связи признаков.

Все правильно. Только ранжируются-то не признаки, а объекты исследования. Т.е., допустим, даны две количественные или порядковые выборки, которые мы и ранжируем, если нужно - в пределах каждой выборки или совместно, в зависимости от алгоритма. И Спирмен тут не при чем, т.к. таких выборок тут нет.

Тут ранжирование делать незачем. Да, собственно, и нечего ранжировать. Как раз данные для таблицы 3 x 3 (я неточно назвал ее таблицей сопряженности - лучше использовать название 3 x 3).
DrgLena
Цитата(плав @ 25.01.2009 - 21:51) *
Критерий Кохрана-Мантеля-Ханзеля. Метод реализован в SAS (напрямую)

А как должны быть представлены данные для SAS , чтобы посчитать тот пример из реальных данных, о которых пишет Solo, проценты к которому я приводила. Интересна медицинская интерпретация результата. Если в таблице (1,2,3 в столбце и 1,2,3 в колонке).

6 12 18
44 44 54
22 29 64
Или нужно привести данные в виде двух переменных. Вроде бы простая задача, а для конкретного случая (во второй строке результат лечения кажется лучше) решение трудное.
nokh
А что в посте выше находится в строках, а что в столбцах?
DrgLena
Цитата(nokh @ 26.01.2009 - 21:47) *
А что в посте выше находится в строках, а что в столбцах?

В строках степень пигментации (1,2,3), в вертикальных столбах - результат лечения (1,2,3). Могу и ряды представить, только трудно таблички вставляются.
плав
Цитата(DrgLena @ 26.01.2009 - 15:04) *
А как должны быть представлены данные для SAS , чтобы посчитать тот пример из реальных данных, о которых пишет Solo, проценты к которому я приводила. Интересна медицинская интерпретация результата. Если в таблице (1,2,3 в столбце и 1,2,3 в колонке).

6 12 18
44 44 54
22 29 64
Или нужно привести данные в виде двух переменных. Вроде бы простая задача, а для конкретного случая (во второй строке результат лечения кажется лучше) решение трудное.

Да вроде ничего сложного:

Table of t1 by t2

t1 t2

Frequency?
Percent ?
Row Pct ?
Col Pct ? 1? 2? 3? Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ? 6 ? 12 ? 18 ? 36
? 2.05 ? 4.10 ? 6.14 ? 12.29
? 16.67 ? 33.33 ? 50.00 ?
? 8.33 ? 14.12 ? 13.24 ?
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ? 44 ? 44 ? 54 ? 142
? 15.02 ? 15.02 ? 18.43 ? 48.46
? 30.99 ? 30.99 ? 38.03 ?
? 61.11 ? 51.76 ? 39.71 ?
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ? 22 ? 29 ? 64 ? 115
? 7.51 ? 9.90 ? 21.84 ? 39.25
? 19.13 ? 25.22 ? 55.65 ?
? 30.56 ? 34.12 ? 47.06 ?
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 72 85 136 293
24.57 29.01 46.42 100.00


Summary Statistics for t1 by t2

Ñòàòèñòèêà Êîõðàíà-Ìàíòåëÿ-Õåíçåëÿ (Based on Table Scores)

×èñëî
Àëüòåðíàòèâíàÿ ñòåïåíåé Äîâåðèòåëüíàÿ
Ñòàòèñòèêà ãèïîòåçà ñâîáîäû Çíà÷åíèå âåðîÿòíîñòü
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 Nonzero Correlation 1 1.8846 0.1698
2 Row Mean Scores Differ 2 9.1260 0.0104
3 General Association 4 10.0030 0.0404


Total Sample Size = 293

Если упорядоченные данные и в строках и в столбцах, то связи между ними связи нет. Если переменная, образующая строку - не упорядоченная, а столбцы - упорядоченная, то эффект наблюдается (это вот та Ваша вторая строка), Также и общий тест хи2 показывает, что не все ячейки заполнены ожидаемыми величинами. Русские буквы полетели при копировании, но это как раз тест Кохрана-Мантеля-Ханзеля (опция CMH процедуры FREQ).
Как вводить в SAS - вот код:
data new;
input t1 t2 count;
cards;
1 1 6
1 2 12
1 3 18
2 1 44
2 2 44
2 3 54
3 1 22
3 2 29
3 3 64
;
run;
proc freq;
weight count;
tables t1*t2/cmh;
run;
DrgLena
Не могу сказать, что приведенные коды похожи на медицинскую интерпретацию.
Упорядоченные строки ? степень пигментации, упорядоченный ответ ? результат лечения .
Медицинский вывод , который формально можно было бы сделать: чем больше пигментирована опухоль (3), тем чаще наблюдается продолженный рост (3). Критерий сопряженности для обычной таблицы 3х3 позволяет сделать такой вывод (р=0,04). Но ведь это не так на самом деле, поскольку при слабопигментированных опухолях (2) чаще наблюдается продолженный рост. Что из приведенных вами результатов применения критерия CMH нужно привести, чтобы сделать другой вывод, что от степени пигментации результат лечения не зависит или что при 2 категории результат хуже?
nokh
Цитата(плав @ 25.01.2009 - 21:15) *
Опять-таки, как в соседнем посте - задача для критерия Кохрана-Мантеля-Ханзеля, либо ординальной логистической регрессии. Существуют аналоги коэффициентов корреляции для ординальных переменных (типа V Крамера, тау Кендалла и Стюарта), но в данном случае будут проблемы интерпретации.

--------------------------Резорбция - Резорбция + Резорбция ++
пигментация слабая ------ 6 ---------- 12 ------------- 18
пигментация средняя ---- 44 --------- 44 --------------54
пигментация сильная -----22 --------- 29 --------------64
Раз корреляцию интерпретировать сложно - можно посчитать конкордацию: либо (1) согласованность резорбций (Р) для разных степеней пигментации, либо (2) согласованность пигментаций для Р различной выраженности. Для этой задачи по смыслу полезнее (1). Имеем: коэффициент конкордации Кенделла W=0,939; P=0,060. Коэффициент высокий (изменяется от 0 до 1), P<0,10. Для отсутствия Р, частичной Р и полной Р средние ранги составили, соответственно: 1,17, 1,83 и 3,00. Можно интерпретировать как тенденцию к высокой согласованности выраженности Р при разных степенях пигментации и преобладании полной Р независимо от пигментации. Для этих данных это очень грубый анализ, с малой мощностью (при таком числе степеней свободы даже если бы было полное совпадение рангов и W=1, то P было бы равно только 0,050), но кое-что дал.
Полезно также глубже копнуть результаты проверки по хи-квадрату. Для этой таблицы 3х3 отклонения Фримана-Тьюки (FTdev) составят:
-0,937 0,529 0,365
1,485 0,466 -1,503
-1,193 -0,733 1,416
Критическое значение FTdev для альфа=0,05 будет 0,924, а для альфа=0,01 будет 1,214. Если ориентироваться на альфа=0,01 , то выделяется 3 ячейки за счет которых в первую очередь результаты проверки хи-квадратом выявили неоднородность (хи-квадрат=10,04, df=4, P=0,040). Два из них относятся к средней степени пигментации. Видно, что при средней пигментации отсутствие резорбции наблюдалось чаще, а полной резорбции - реже, чем можно было предполагать из нулевой гипотезы (однородность или отсутствие взаимодействия входов таблицы). Также полная резорбция чаще наблюдалась для опухолей с сильной пигментацией. К аналогичным результатам привел бы и анализ стандартизированных остатков.
Таким образом, при общей тенденции к высокой согласованности выраженности резорбции при разных степенях пигментации (коэффициент конкордации Кенделла W=0,939; P=0,060) и преобладании при данном виде лечения полной резорбции опухолей независимо от степени пигментации, анализ выявил статистически значимую неоднородность данных: хи-квадрат=10,04, df=2, P=0,040. Она была обусловлена, во-первых - повышенной частотой случаев отсутствия резорбции и сниженной частотой полной резорбции для опухолей средней степени пигментации (отклонения Фримана-Тьюки, соответственно: FTdev = 1,485; P<0,01 и FTdev = -1,503; P<0,01), а во вторых - повышенной частотой случаев полной резорбции сильнопигментированных опухолей (FTdev = -1,416; P<0,01).
Это все что я смог выжать из этих 9 цифр. Но если бы при отмеченной тенденции к согласованности данные были бы однородны - имело бы смысл разложить хи-квадрат с df=4 на 2 части: объясняемую линейным или нелинейным трендом (с df=1) и отклонения от тренда (с df=3). Скорее всего эта техника близка к предложенной плавом ординальной логистической регрессии, про которую я пока ничего не знаю.
DrgLena
Отлично! Спасибо большое. Постараюсь разобраться. Эти данные фрагмент реальной базы данных, и ко всем этим больным есть выживаемость с длительными сроками наблюдения, т.е. есть истинные исходы, а не суррогаты типа локального контроля. Легко видна несостоятельность выводов о роли факторов или эффективности лечения по понятию регрессия, стабилизация, продолженный рост.
Игорь
Цитата(плав @ 25.01.2009 - 20:51) *
Ошибочно. Критерий Кохрана-Мантеля-Ханзеля (не путайте с критерием Мантеля-Хазеля для стратифицированного анализа) предназначен для анализа таблиц составленных из упорядоченных или неупорядоченных переменных. Метод реализован в SAS (напрямую) и в R (требует некоторых усилий, чтобы сделать одновременно все три типа анализа - неупорядоченные, упорядоченные в строке и упорядоченные в строке и столбце)

Не совсем понял. Критерий Cochran-Mantel-Haenszel (источник - Forthofer, с. 288) предназначен для таблицы 2 x 2. А здесь получается таблица 3 x 3. Может, имеется его расширение?
плав
Цитата(Игорь @ 28.01.2009 - 07:57) *
Не совсем понял. Критерий Cochran-Mantel-Haenszel (источник - Forthofer, с. 288) предназначен для таблицы 2 x 2. А здесь получается таблица 3 x 3. Может, имеется его расширение?

Видимо, поскольку этот критерий, который реализован в SAS и R не органичивается таблицами 2*2, а тот, что ограничивается называется просто тестом Мантеля-Ханзеля. К сожалению, сейчас в отъезде и ссылку дать не могу, но можно найти в документации к SAS, эта опция в PROC FREQ.
плав
Цитата(DrgLena @ 27.01.2009 - 23:25) *
Не могу сказать, что приведенные коды похожи на медицинскую интерпретацию.
Упорядоченные строки ? степень пигментации, упорядоченный ответ ? результат лечения .
Медицинский вывод , который формально можно было бы сделать: чем больше пигментирована опухоль (3), тем чаще наблюдается продолженный рост (3). Критерий сопряженности для обычной таблицы 3х3 позволяет сделать такой вывод (р=0,04). Но ведь это не так на самом деле, поскольку при слабопигментированных опухолях (2) чаще наблюдается продолженный рост. Что из приведенных вами результатов применения критерия CMH нужно привести, чтобы сделать другой вывод, что от степени пигментации результат лечения не зависит или что при 2 категории результат хуже?

Честно говоря, не думал, что по приведенным результатм будет сделать сложно интерпретацию. Итак, между степенью пигментации опухоли и результатом лечения ассоциации нет (p=0,17, Nonzero Correlction). Критерий сопряженности для обычной таблицы такого вывода сделать НЕ позволяет. Критерий хи2 (General Association) отвечает на вопрос, все ли ячейки в таблице равны своим ожидаемым величинам. Ответ на этот вопрос - нет, есть какие-то ячейки, которые отличаются. Вопрос заключается в том, это пооисходит действительно за счет каких-то ячеек (неинтерпретируемо) или все-таки фактора. Ответ на этот вопрос - сравнение результатов лчения - они отличаются друг от друга в группах с разной пигментацией опухоли. Иными словами есть один тип пигментированных опухолей, который отличается от других, но говорить, что степень пигментации ассоциирована с результатом нельзя. Обратите внимание, вся интепретация - результаты одного теста.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.