Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Непараметрическая корреляция, как интерпретировать коэф. гамма ?
Statisticafil
сообщение 29.08.2007 - 09:28
Сообщение #1





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



собственно сабж.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 29.08.2007 - 20:24
Сообщение #2





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Если для коэффициента корреляции пирсона и её рангового аналога коэф. Спирмена всё относительно понятно - "чем выше значение (или ранг) 1 параметра тем выше значение (ранг) второго" в случае положительной связи.
Как будет звучать аналогичная фраза для коэффициента тау кендалла или гамма? Там ведь идёт просто подсчёт плюсов-минусов (если грубо)? Тупо смотрю на формулу и не вьезжаю.

Здесь _http://www.statplus.net.ua/ru/help/source/a_rankcorr.htm есть
"... статистика Кендалла тау скорее основана на вероятности. Более точно, проверяется, что имеется различие между вероятностью того, что наблюдаемые данные расположены в том же самом порядке для двух величин и вероятностью того, что они расположены в другом порядке" и
"С точки зрения основных предположений, статистика гамма эквивалентна статистике R Спирмена или тау Кендалла. Ее интерпретация и вычисления более похожи на статистику тау Кендалла ... гамма представляет собой ... разность между вероятностью того, что ранговый порядок двух переменных совпадает, минус вероятность того, что он не совпадает, деленную на единицу минус вероятность совпадений."
???
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 30.08.2007 - 10:18
Сообщение #3





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Для чего планирую использовать коэффициент гамма.
Из исходных 26 параметров я получаю итоговую (интегральную) величину (индекс).
Рассчитав корреляции с исходными данными предполагаю интерпретировать величину корреляции как важность (значимость) исходного параметра.
Гамма корреляции беру потому, что в исходных данных много нулей - при рассчёте коэф.корр. Спирмена и тау Кендалла для некоторых прараметров (где нулей больше всего) получается значительная разница.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 30.08.2007 - 16:54
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну вообще-то выбор гаммы не очень хорош. Расчет примерно таков - сортируем одну переменную в порядке возрастания. Затем смотрим, как меняется от x до x+1 значения первой и второй переменной. Поскольку мы отсортировали наблюдения, одна переменная возрастает (уменьшается). Соответственно смотрим, как меняется вторая. Если она тоже возрастает (уменьшается), то такая пара конкордантна. Если она уменьшается (возрастает), то пара дискордантна. Гамма равна разности дискордантных и конкордантных пар деленной на сумму пар (т.е. если количество конкордантных пар 10, дискордантных 5, гамма=(10-5)/15. Гамма плоха тем, что не учитывает одинаковые (tied) наблюдения. Если у Вас много нулей в переменных (как раз это и означает, что наблюдения связанные - одинаковые значения), то гамма не вполне подходит, надо пользоваться тау б Кендалла (тау а также не учитывает одинаковых наблюдений) или откорректированным на связанные значения коэффициентом Спирмена. Известно, что гамма значительно больше коэффициентов Спирмена и Кендалла, соответственно, сравнивать их друг с другом нельзя. Детали см. (http://www.nyu.edu/its/statistics/Docs/correlate.html)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 30.08.2007 - 20:20
Сообщение #5





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Спасибо за ответ и ссылку.
Не совсем понял про "связанность" наблюдений ? Поясните пожалуйста это.

Я выбрал гамму именно потому, что есть много нулей в данных и они искажают картину корреляций. Интерпретировать проще именно данные гамма-корреляций.
Например, некий параметр присущь обьектам анализа получившим высокие итоговые оценки. Но вцелом из 2000 обьектов он не нулевой у нескольких сотен. Соответственно считая спирмена и кендалла получаем коэф.корр. около 0.10, а гамма - 0.75. Это относительно внятно можно интерпретировать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 31.08.2007 - 13:20
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Statisticafil @ 30.08.2007 - 21:20) [snapback]3237[/snapback]
Спасибо за ответ и ссылку.
Не совсем понял про "связанность" наблюдений ? Поясните пожалуйста это.

Я выбрал гамму именно потому, что есть много нулей в данных и они искажают картину корреляций. Интерпретировать проще именно данные гамма-корреляций.
Например, некий параметр присущь обьектам анализа получившим высокие итоговые оценки. Но вцелом из 2000 обьектов он не нулевой у нескольких сотен. Соответственно считая спирмена и кендалла получаем коэф.корр. около 0.10, а гамма - 0.75. Это относительно внятно можно интерпретировать.


Связанные это как раз наблюдения, в которых одно и то же значение есть у разных пациентов (объектов). Именно то, что в Ваших данных - много нулей. Поясню на простом примере:
0 0
0 4+
1 3-
2 5+
Как интерпретировать переход от первой пары ко второй? значения второй переменной растут, а первой? Неизвестно, они неизменных (связаны). Решение - выборсить пару. Но какую? выбросим первую получим гамма=0, выбросим вторую, получим гамма=1. Чувствуете разницу?
Соответстенно, гамма хороша только тогда, когда нет одинаковых значений в первой и второй переменных. Кроме того, отброс пар приводит к уменьшению количества анализируемых наблюдений и в реальности Вы делаете вывод на основании небольшого количества наблюдений, например
0 1
0 2
0 3
0 4
0 5
1 6
Я бы сказал, что тут никакой корреляции нет (поскольку в большинстве случаев нет связи между первой и второй переменными - первая не меняется. а вторая меняется). А вот гамма будет равна 1.
Похоже, именно это и получается в Ваших данных, реально связи там нет, а большое значение гаммы связано с отбросом наиболее значимой части информации. С моей точки зрения нули не искажают картину, они важная и неотъемлемая часть данных. Если Вам кажется, что нулевые значения являются ошибочными, то лучше отбросить их (и описать, почему Вы так считаете) и пересчитать коэффициенты Сипрмена/Кендалла для такой уменьшенной выборки. И вывод тогда будет не "мы нашли связь А и Б", а "среди объектов с высокими значениями наблюдается связь А и Б (и коэффициент корреляции с доверительным интервалом)"
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 1.09.2007 - 10:45
Сообщение #7





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Интересно. Пересчитаю без нулей.

А для каких тогда случаев подходит коэф.Гамма?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 3.09.2007 - 21:02
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



аналог коэффициента корреляции для таблиц сопряженности, был разработан так, чтобы было легче считать когда многие тесты разрабатывались ввиду того, что существующие требовали сложных и/или длительных рассчетов (вообразите без калькулятора расчет для таблицы 5*5 с 1300 наблюдениями коэффициента Спирмена)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.09.2007 - 13:48
Сообщение #9





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Всё перепутано!

Для различных шкал измерений параметров разработаны различные коэффициенты корреляции и типа корреляции.

Приведу примеры:
1. Для количественных: коэффициенты Пирсона. Фехнера.
2. Для порядковых: показатель Спирмэна, коэффициент Кендалла.
3. Для качественных (номинальных): коэффициенты Кендалла, Пирсона (не путать с п.1), Крамера, Сомерса.
4. Для качественных (дихотомических): коэффициенты Рассела-Рао, Бравайса.
5. Для смешанных: коэффициенты Гауэра, точечно-бисериальный.

Из качественных признаков как раз и получаются таблицы сопряженности (R x C - из номинальных, 2 x 2 - из дихотомических).

Ищите описание метода в зависимости от типа исходных данных.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.09.2007 - 17:57
Сообщение #10





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



А можете объяснить, как считать коэффициент корреляции или "типа корреляции" для номинальных переменных с 4-5 уровнями? Сортировать их как душе угодно? или как? Зачем уж так-то все запутывать - очевидно же, что первое требование для коэффициентов корреляции - это упорядоченность (они ее и измеряют) если упорядоченности нет - то и корреляция не определена. Соответственно, возможны только два варианта - интервальные шкалы и выше (параметрические коэффициенты) и ординальные шкалы. Для переменных, имеющих номинальную шкалу измерений коэффициенты корреляции отсутствуют! Бинарные (дихотомические) переменные исключение - для них ряд коэффициентов определен (кстати, забытые фи, тетрахорический Пирсона и целый ряд других). поскольку изменения порядка не повлияет на значение.
Однако я все же призвал бы отвечающих плодить новые темы отдельно, а не внутри - если спрашивают про коэффициент гамма, просьба отвечать про гамму.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 11.09.2007 - 13:03
Сообщение #11





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Это справедливо, что не по теме. Но темы имеют тенденцию слегка менять направление или являться поводом к дальнейшему плодотворному обмену мнению по данному и смежным вопросам.
Поэтому на заданный здесь вопрос, как считать коэффициент типа корреляции для номинальных переменных, отвечу. Упомянутые коэффициенты вычисляются по тому или иному алгоритму на основе таблицы сопряженности, построение которой для двух номинальных переменных сложности не представляет. Как раз таблица сопряженности для номинальных переменных и отражает упорядоченность.
Еще раз прошу прощения, что не по теме.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 12.09.2007 - 21:50
Сообщение #12





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Для расчета коэффициента корреляции важен порядок значений переменной. Простейший пример:
y/х 1 2 3
1 10 20 30
2 10 40 60
3 10 80 120
Очевидно, что есть четкая упорядоченность - чем больше х, тем больше y (гамма=0,126). А вот если так:
y/х 1 2 3
1 10 30 20
2 10 120 80
3 10 60 40
Явно взаимосвязи нет (гамма=0,042).
Единственно, что я сделал - поменял столбцы местами.
Если переменная номинальная, то, по определению, она не упорядоченная. Соответственно, если х и y номинальные переменные, то обе таблицы имеют право на существование - ни одно из них не является "правильной" или "неправильной" (пример вкус и стиль одежды). Соответственно, в данном случае говорить о наличии показателя связи невозможно. Для того, чтобы можно было считать коэффициенты корреляции нужны упорядоченные данные, т.е. шкала измерения должна быть, по крайней мере ординальной. Поэтому и нельзя говорить, что для номинальных переменных есть показатели связи (бинарные переменные не в счет).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.09.2007 - 06:11
Сообщение #13





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Посчитал показатели сопряженности для указанных таблиц (для всех первое число - показатель, второе - P-значение). Также посчитал критерий Фримана-Холтона (расширение ТМФ на номинальные переменные).

Таблица 1
Коэффициент тау-b Кендалла 0,073023833 0,983329143
Коэффициент сопряженности Пирсона 0,155370564 0,997134316
Коэффициент Крамера 0,090805961 0,993848765
Критерий Фримана-Холтона P-значение 0,066435162

Таблица 2
Коэффициент тау-b Кендалла 0,024341278 0,760935416
Коэффициент сопряженности Пирсона 0,155370564 0,997134316
Коэффициент Крамера 0,090805961 0,993848765
Критерий Фримана-Холтона P-значение 0,066435162

Такие вот результаты. Комментарии?
Замечу, что для номинальных переменных нигде не говорил о корреляции, используя, возможно, не совсем удачный, оборот "типа корреляциии", т.к., как Вы совершенно правы, корреляцию для номинальной шкалы посчитать нельзя, а только для количественной или порядковой.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 13.09.2007 - 23:27
Сообщение #14





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 13.09.2007 - 07:11) [snapback]3311[/snapback]
Такие вот результаты. Комментарии?


Комментарий достаточно простой - те показатели, которые дали одинаковые результаты являются производными
критерия хи2 (фи Пирсона, фау Крамера), который, как известно, никакого отношения к упорядоченности строк и
столбцов не имеет, а отвечает на вопрос о (упрощенно) отсутствии зависимости между переменными в строках и
столбцах. Новой информации по сравнению с хи2 они практически не дают (только если надо сравнивать таблицы
разной размерности, ибо фи - это хи деленное на корень из числа наблюдений, а фау - производное от фи). Кстати,
например, в документации SAS эти показатели идут в ином разделе, нежели показатели связи (что и правильно).
Замечу, что Ваш комментарий был в ответ на мое описание гамма как аналога коэффициента корреляции, в разговоре
о корреляции и затем последовало Ваше утверждение о том, что "Как раз таблица сопряженности для номинальных
переменных и отражает упорядоченность".
Эта позиция не правильная, номинальные переменные не анализируются на связь, у них нет упорядоченности и,
соответственно, упоминание показателей, используемых для описания таблиц, построенных для номинальных
переменных в обсуждении показателей связи (а именно - корреляций) является, в лучшем случае, запутыванием
читателей ветки.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 14.09.2007 - 07:09
Сообщение #15





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Спасибо, Плав. Это четкая позиция. Ее и будем придерживаться. Думаю, на этом данную тему можно закрывать.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему