Непараметрическая корреляция, как интерпретировать коэф. гамма ? |
Здравствуйте, гость ( Вход | Регистрация )
Непараметрическая корреляция, как интерпретировать коэф. гамма ? |
29.08.2007 - 09:28
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
собственно сабж.
|
|
29.08.2007 - 20:24
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Если для коэффициента корреляции пирсона и её рангового аналога коэф. Спирмена всё относительно понятно - "чем выше значение (или ранг) 1 параметра тем выше значение (ранг) второго" в случае положительной связи.
Как будет звучать аналогичная фраза для коэффициента тау кендалла или гамма? Там ведь идёт просто подсчёт плюсов-минусов (если грубо)? Тупо смотрю на формулу и не вьезжаю. Здесь _http://www.statplus.net.ua/ru/help/source/a_rankcorr.htm есть "... статистика Кендалла тау скорее основана на вероятности. Более точно, проверяется, что имеется различие между вероятностью того, что наблюдаемые данные расположены в том же самом порядке для двух величин и вероятностью того, что они расположены в другом порядке" и "С точки зрения основных предположений, статистика гамма эквивалентна статистике R Спирмена или тау Кендалла. Ее интерпретация и вычисления более похожи на статистику тау Кендалла ... гамма представляет собой ... разность между вероятностью того, что ранговый порядок двух переменных совпадает, минус вероятность того, что он не совпадает, деленную на единицу минус вероятность совпадений." ??? |
|
30.08.2007 - 10:18
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Для чего планирую использовать коэффициент гамма.
Из исходных 26 параметров я получаю итоговую (интегральную) величину (индекс). Рассчитав корреляции с исходными данными предполагаю интерпретировать величину корреляции как важность (значимость) исходного параметра. Гамма корреляции беру потому, что в исходных данных много нулей - при рассчёте коэф.корр. Спирмена и тау Кендалла для некоторых прараметров (где нулей больше всего) получается значительная разница. |
|
30.08.2007 - 16:54
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Ну вообще-то выбор гаммы не очень хорош. Расчет примерно таков - сортируем одну переменную в порядке возрастания. Затем смотрим, как меняется от x до x+1 значения первой и второй переменной. Поскольку мы отсортировали наблюдения, одна переменная возрастает (уменьшается). Соответственно смотрим, как меняется вторая. Если она тоже возрастает (уменьшается), то такая пара конкордантна. Если она уменьшается (возрастает), то пара дискордантна. Гамма равна разности дискордантных и конкордантных пар деленной на сумму пар (т.е. если количество конкордантных пар 10, дискордантных 5, гамма=(10-5)/15. Гамма плоха тем, что не учитывает одинаковые (tied) наблюдения. Если у Вас много нулей в переменных (как раз это и означает, что наблюдения связанные - одинаковые значения), то гамма не вполне подходит, надо пользоваться тау б Кендалла (тау а также не учитывает одинаковых наблюдений) или откорректированным на связанные значения коэффициентом Спирмена. Известно, что гамма значительно больше коэффициентов Спирмена и Кендалла, соответственно, сравнивать их друг с другом нельзя. Детали см. (http://www.nyu.edu/its/statistics/Docs/correlate.html)
|
|
30.08.2007 - 20:20
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Спасибо за ответ и ссылку.
Не совсем понял про "связанность" наблюдений ? Поясните пожалуйста это. Я выбрал гамму именно потому, что есть много нулей в данных и они искажают картину корреляций. Интерпретировать проще именно данные гамма-корреляций. Например, некий параметр присущь обьектам анализа получившим высокие итоговые оценки. Но вцелом из 2000 обьектов он не нулевой у нескольких сотен. Соответственно считая спирмена и кендалла получаем коэф.корр. около 0.10, а гамма - 0.75. Это относительно внятно можно интерпретировать. |
|
31.08.2007 - 13:20
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Цитата(Statisticafil @ 30.08.2007 - 21:20) [snapback]3237[/snapback] Спасибо за ответ и ссылку. Не совсем понял про "связанность" наблюдений ? Поясните пожалуйста это. Я выбрал гамму именно потому, что есть много нулей в данных и они искажают картину корреляций. Интерпретировать проще именно данные гамма-корреляций. Например, некий параметр присущь обьектам анализа получившим высокие итоговые оценки. Но вцелом из 2000 обьектов он не нулевой у нескольких сотен. Соответственно считая спирмена и кендалла получаем коэф.корр. около 0.10, а гамма - 0.75. Это относительно внятно можно интерпретировать. Связанные это как раз наблюдения, в которых одно и то же значение есть у разных пациентов (объектов). Именно то, что в Ваших данных - много нулей. Поясню на простом примере: 0 0 0 4+ 1 3- 2 5+ Как интерпретировать переход от первой пары ко второй? значения второй переменной растут, а первой? Неизвестно, они неизменных (связаны). Решение - выборсить пару. Но какую? выбросим первую получим гамма=0, выбросим вторую, получим гамма=1. Чувствуете разницу? Соответстенно, гамма хороша только тогда, когда нет одинаковых значений в первой и второй переменных. Кроме того, отброс пар приводит к уменьшению количества анализируемых наблюдений и в реальности Вы делаете вывод на основании небольшого количества наблюдений, например 0 1 0 2 0 3 0 4 0 5 1 6 Я бы сказал, что тут никакой корреляции нет (поскольку в большинстве случаев нет связи между первой и второй переменными - первая не меняется. а вторая меняется). А вот гамма будет равна 1. Похоже, именно это и получается в Ваших данных, реально связи там нет, а большое значение гаммы связано с отбросом наиболее значимой части информации. С моей точки зрения нули не искажают картину, они важная и неотъемлемая часть данных. Если Вам кажется, что нулевые значения являются ошибочными, то лучше отбросить их (и описать, почему Вы так считаете) и пересчитать коэффициенты Сипрмена/Кендалла для такой уменьшенной выборки. И вывод тогда будет не "мы нашли связь А и Б", а "среди объектов с высокими значениями наблюдается связь А и Б (и коэффициент корреляции с доверительным интервалом)" |
|
1.09.2007 - 10:45
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Интересно. Пересчитаю без нулей.
А для каких тогда случаев подходит коэф.Гамма? |
|
3.09.2007 - 21:02
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
аналог коэффициента корреляции для таблиц сопряженности, был разработан так, чтобы было легче считать когда многие тесты разрабатывались ввиду того, что существующие требовали сложных и/или длительных рассчетов (вообразите без калькулятора расчет для таблицы 5*5 с 1300 наблюдениями коэффициента Спирмена)
|
|
6.09.2007 - 13:48
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Всё перепутано!
Для различных шкал измерений параметров разработаны различные коэффициенты корреляции и типа корреляции. Приведу примеры: 1. Для количественных: коэффициенты Пирсона. Фехнера. 2. Для порядковых: показатель Спирмэна, коэффициент Кендалла. 3. Для качественных (номинальных): коэффициенты Кендалла, Пирсона (не путать с п.1), Крамера, Сомерса. 4. Для качественных (дихотомических): коэффициенты Рассела-Рао, Бравайса. 5. Для смешанных: коэффициенты Гауэра, точечно-бисериальный. Из качественных признаков как раз и получаются таблицы сопряженности (R x C - из номинальных, 2 x 2 - из дихотомических). Ищите описание метода в зависимости от типа исходных данных. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
9.09.2007 - 17:57
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А можете объяснить, как считать коэффициент корреляции или "типа корреляции" для номинальных переменных с 4-5 уровнями? Сортировать их как душе угодно? или как? Зачем уж так-то все запутывать - очевидно же, что первое требование для коэффициентов корреляции - это упорядоченность (они ее и измеряют) если упорядоченности нет - то и корреляция не определена. Соответственно, возможны только два варианта - интервальные шкалы и выше (параметрические коэффициенты) и ординальные шкалы. Для переменных, имеющих номинальную шкалу измерений коэффициенты корреляции отсутствуют! Бинарные (дихотомические) переменные исключение - для них ряд коэффициентов определен (кстати, забытые фи, тетрахорический Пирсона и целый ряд других). поскольку изменения порядка не повлияет на значение.
Однако я все же призвал бы отвечающих плодить новые темы отдельно, а не внутри - если спрашивают про коэффициент гамма, просьба отвечать про гамму. |
|
11.09.2007 - 13:03
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Это справедливо, что не по теме. Но темы имеют тенденцию слегка менять направление или являться поводом к дальнейшему плодотворному обмену мнению по данному и смежным вопросам.
Поэтому на заданный здесь вопрос, как считать коэффициент типа корреляции для номинальных переменных, отвечу. Упомянутые коэффициенты вычисляются по тому или иному алгоритму на основе таблицы сопряженности, построение которой для двух номинальных переменных сложности не представляет. Как раз таблица сопряженности для номинальных переменных и отражает упорядоченность. Еще раз прошу прощения, что не по теме. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
12.09.2007 - 21:50
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Для расчета коэффициента корреляции важен порядок значений переменной. Простейший пример:
y/х 1 2 3 1 10 20 30 2 10 40 60 3 10 80 120 Очевидно, что есть четкая упорядоченность - чем больше х, тем больше y (гамма=0,126). А вот если так: y/х 1 2 3 1 10 30 20 2 10 120 80 3 10 60 40 Явно взаимосвязи нет (гамма=0,042). Единственно, что я сделал - поменял столбцы местами. Если переменная номинальная, то, по определению, она не упорядоченная. Соответственно, если х и y номинальные переменные, то обе таблицы имеют право на существование - ни одно из них не является "правильной" или "неправильной" (пример вкус и стиль одежды). Соответственно, в данном случае говорить о наличии показателя связи невозможно. Для того, чтобы можно было считать коэффициенты корреляции нужны упорядоченные данные, т.е. шкала измерения должна быть, по крайней мере ординальной. Поэтому и нельзя говорить, что для номинальных переменных есть показатели связи (бинарные переменные не в счет). |
|
13.09.2007 - 06:11
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Посчитал показатели сопряженности для указанных таблиц (для всех первое число - показатель, второе - P-значение). Также посчитал критерий Фримана-Холтона (расширение ТМФ на номинальные переменные).
Таблица 1 Коэффициент тау-b Кендалла 0,073023833 0,983329143 Коэффициент сопряженности Пирсона 0,155370564 0,997134316 Коэффициент Крамера 0,090805961 0,993848765 Критерий Фримана-Холтона P-значение 0,066435162 Таблица 2 Коэффициент тау-b Кендалла 0,024341278 0,760935416 Коэффициент сопряженности Пирсона 0,155370564 0,997134316 Коэффициент Крамера 0,090805961 0,993848765 Критерий Фримана-Холтона P-значение 0,066435162 Такие вот результаты. Комментарии? Замечу, что для номинальных переменных нигде не говорил о корреляции, используя, возможно, не совсем удачный, оборот "типа корреляциии", т.к., как Вы совершенно правы, корреляцию для номинальной шкалы посчитать нельзя, а только для количественной или порядковой. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
13.09.2007 - 23:27
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Цитата(Игорь @ 13.09.2007 - 07:11) [snapback]3311[/snapback] Такие вот результаты. Комментарии? Комментарий достаточно простой - те показатели, которые дали одинаковые результаты являются производными критерия хи2 (фи Пирсона, фау Крамера), который, как известно, никакого отношения к упорядоченности строк и столбцов не имеет, а отвечает на вопрос о (упрощенно) отсутствии зависимости между переменными в строках и столбцах. Новой информации по сравнению с хи2 они практически не дают (только если надо сравнивать таблицы разной размерности, ибо фи - это хи деленное на корень из числа наблюдений, а фау - производное от фи). Кстати, например, в документации SAS эти показатели идут в ином разделе, нежели показатели связи (что и правильно). Замечу, что Ваш комментарий был в ответ на мое описание гамма как аналога коэффициента корреляции, в разговоре о корреляции и затем последовало Ваше утверждение о том, что "Как раз таблица сопряженности для номинальных переменных и отражает упорядоченность". Эта позиция не правильная, номинальные переменные не анализируются на связь, у них нет упорядоченности и, соответственно, упоминание показателей, используемых для описания таблиц, построенных для номинальных переменных в обсуждении показателей связи (а именно - корреляций) является, в лучшем случае, запутыванием читателей ветки. |
|
14.09.2007 - 07:09
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо, Плав. Это четкая позиция. Ее и будем придерживаться. Думаю, на этом данную тему можно закрывать.
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|