Оценить корреляцию в Excel |
Здравствуйте, гость ( Вход | Регистрация )
Оценить корреляцию в Excel |
16.12.2008 - 13:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
Добрый день! Помогите, пожалуйста, решить проблему. Только начала осваивать статистику и одновременно хочу научиться использовать для этих целей Excel.
Есть порядка 600 пар данных, подозреваю, что они должны быть взаимосвязаны, но как это обосновать - не знаю. Коэффициент корреляции Пирсона с помощью Excel расчитать могу, но он работает на нормальном распределении. Мои данные, боюсь, не имеют нормального. Выглядит это примерно так: 1 175 750 2 175 1225 3 45 350 4 125 350 5 125 500 6 175 1000 7 80 500 8 250 875 9 45 75 10 175 525 11 175 750 12 125 625 13 175 350 14 125 525 15 125 375 16 80 300 17 175 500 18 175 875 19 30 225 20 125 500 21 80 750 22 80 500 23 30 300 24 30 150 25 80 250 26 80 500 27 30 225 28 45 225 29 45 175 30 45 375 Начала оценивать нормальность распределения каждого из столбцов отдельно, чтобы хотя бы опровергнуть, но и этого даже не получилось. В общем запуталась:). Подскажите, пожалуйста, может, есть какой-то алгоритм? Скорее всего данные распределены не по нормальному закону (1), как это определить? Что выбрать для оценки корреляции? Спасибо заранее)) |
|
16.12.2008 - 15:30
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Скорее всего данные распределены не по нормальному закону (1), как это определить? Первая величина (столбец) распределена явно не по нормальному закону, см.приложенный рисунок. Ее кривая распределения не похожа на колокол, несимметрична. Поэтому использовать коэффициент корреляции Пирсона (есть в Excel) нельзя. Необходимо использовать ранговый (непараметрический) коэффициент корреляции Спирмена (нет в Excel, зато есть во всех других статистических программах). В программе Statistica, например, Спирмен вычисляется в меню: Statistics->Nonparametrics->Correlations(Spearman). В программе SPSS меню Analyse->Correlate->Bivariate (Флаг Spearman)
Что выбрать для оценки корреляции? Сообщение отредактировал DoctorStat - 16.12.2008 - 15:32 Просто включи мозги => http://doctorstat.narod.ru
|
|
16.12.2008 - 17:12
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
Спасибо большое!)
еще небольшое уточнение: теперь, прежде чем сравнивать 2 столбца в SPSS, я должна убедиться, что оба имеют отличное от нормального распределение или это лишнее? |
|
16.12.2008 - 17:15
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо!
|
|
16.12.2008 - 21:34
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо! Для корреляции Пирсона - должно быть не просто нормальное, а бивариантно нормальное распределение, для Спирмена - просто доказательство монотонности (т.е. возрастания или падения и там и там, без явных изгибов и перегибов). |
|
18.12.2008 - 15:41
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
Correlations V2 V3
Spearman's rho V2 Correlation Coefficient 1,000 ,583(**) Sig. (2-tailed) . ,000 N 536 536 V3 Correlation Coefficient ,583(**) 1,000 Sig. (2-tailed) ,000 . N 536 536 ** Корреляция значима на уровне 0.01 (2-сторонняя). Добралась до SPSS, вот такую красоту получила! Осталася 1 вопрос: почему значима на уровне 0,01? что это значит? я бы это интерпретировала как коэффициенты корреляции 1 и 0,6... какие еще уровни бывают?
Прикрепленные файлы
Correlations________________________________V2___________________V3.doc ( 31 килобайт )
Кол-во скачиваний: 840
|
|
18.12.2008 - 16:18
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Осталася 1 вопрос: почему значима на уровне 0,01? что это значит? Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая).какие еще уровни бывают? Просто включи мозги => http://doctorstat.narod.ru
|
|
19.12.2008 - 13:07
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
у меня продолжение того же вопроса:
имею много данных по различным параметрам, построила для них гистограммы (некоторые из них прикрепила). В конечном результате хочу добиться следующего: для определенной модели нужно включить эти данные, но только в том случае, если нет взаимовлияния. Снова нужно оценить корреляцию и снова я стою перед проблемой оценки нормальности распределения... Судя по гистограммам, я бы последние три отнесла к нормальному распределению. Но как доказать, что я не ошибаюсь, если я не ошибаюсь? Какие все-таки четкие способы, кроме "глазомерного"? Есть в какой-нибудь программе возможность путем каких-либо комбинаций добиться подписи - вот эти данные распределены по нормальному закону, а вот эти по такому-то...? И как проводить корреляционный анализ между данными с разным распределением? Заранее прошу прощения, если что-то глупое пишу - учусь... ...ну вот, а прикрепить не получается... попробую разобраться... Сообщение отредактировал Олик) - 19.12.2008 - 13:13 |
|
19.12.2008 - 13:15
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
|
|
19.12.2008 - 14:07
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
кажется вышло) 1. ОЦЕНКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ В ПРОГРАММЕ SPSS.Analyze->Descriptive Statistics->Explore - Plots - Флаг - Normality plots with tests. В результатах нужно смотреть таблицу Критерий нормальности. Там 2 теста: Колмогоров-Смирнов и Шапиро-Уилк. Смотрите последний столбец таблицы - значимость. Если полученная значимость в обоих тестах слишком мала (<0,05), то распределение отлично от нормального. 2. ОЦЕНКА ЗАВИСИМОСТИ 2-Х ВЕЛИЧИН. Ваши графики распределений, показанные на рисунках, скорее всего отличны от нормального, поэтому для оценки парной зависимости используйте непараметрический ранговый коэффициент корреляции Спирмена. Сообщение отредактировал DoctorStat - 19.12.2008 - 14:08 Просто включи мозги => http://doctorstat.narod.ru
|
|
19.12.2008 - 16:35
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась:
Kolmogorov-Smirnov(a) Shapiro-Wilk есть уровень значимости по двум тестам > 0,05 0,2 0,088 0,088 0,089 есть уровень значимости по двум тестам < 0,05 0,001 0 0,005 0,001 а есть для разных тестов разный, кому доверять? 0,051 0,022 0,2 0,022 и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны? |
|
19.12.2008 - 17:23
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
и как теперь оценить корреляцию? Используйте непараметрический коэффициент корреляции Спирменачто делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны? Вы не доказали, что у них РАЗНОЕ распределение. Вы только доказали, что ОДНА выборка распределена не по нормальному закону. Две связанные величины могут быть распределены как угодно. Возьмите, например, рост и пол человека. Рост распределен нормально, а пол биноминально, т.е. распределения этих 2-х величин отличаются. Тем не менее, мальчики в среднем выше девочек, значит эти величины взаимосвязаны.Просто включи мозги => http://doctorstat.narod.ru
|
|
20.12.2008 - 14:01
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась: Kolmogorov-Smirnov(a) Shapiro-Wilk ... и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны? Да уж - "помощь". Все посчитано категорически неверно. Как уже говорил плав, необходима не просто [маргинальная] нормальность каждой выборки, а нормальность двумерная. Указанные в посте критерии не проверяют данный факт. Двумерную нормальность можно проверить с помощью специальных критериев: асимметрии и эксцесса (т.е. "сферичности") Мардиа, критерия Хенце-Цирклера (многомерный аналог Эппса-Палли). Имеется многомерный аналог Шапиро-Уилка, однако в программах он, по-моему, пока не реализован. Сообщение отредактировал Игорь - 20.12.2008 - 14:02 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
21.12.2008 - 12:10
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая). Уппс... Нет. Если значимость корреляции 0,01 это НЕ означает, что "2 переменные не связаны между собой меньше 0,01". Это означает, что если бы две переменные НЕ БЫЛИ БЫ связаны между собой, то вероятность получить коэффициент корреляции такой или большей величины была бы 1%. Иными словами, если взять двадцать переменных, которые не связаны друг с другом, то, по крайней мере один коэффициент корреляции будет иметь р<0.01. Для корреляционных решеток с большим количеством переменных использовать правила, пришедшие из сравнения групп (0,05 и т.п.) нельзя, надо, по крайней мере использовать поправку Бонферрони. |
|
21.12.2008 - 13:22
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
Только начала осваивать статистику...
Наверное, вы уже просто между собой общаетесь у меня при каждом новом ответе почему-то возникает все больше и больше вопросов:) Правильно ли я поняла, что имея выборку, для оценки корреляции каждых двух параметров, я сначала определяю характер распределения каждого из параметров. - если два параметра распределены нормально, то применяю коэффициент Пирсона. Причем, нормальность проверяю только с помощью асимметрии и эксцесса и т.д., как писал Игорь. - если хоть один параметр имеет распределение, отличное от нормального, то для оценки корреляции можно использовать коэффициент Спирмена. - дальше, получив результаты, можно уже оценивать степень корреляции, принимая во внимание уровень значимости. так? про поправку Бонферрони и корреляционные решетки с большим количеством переменных я даже спрашивать пока боюсь, лучше для начала почитаю. Сообщение отредактировал Олик) - 21.12.2008 - 13:25 |
|