Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Оценить корреляцию в Excel
Олик)
сообщение 16.12.2008 - 13:55
Сообщение #1





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



Добрый день! Помогите, пожалуйста, решить проблему. Только начала осваивать статистику и одновременно хочу научиться использовать для этих целей Excel.
Есть порядка 600 пар данных, подозреваю, что они должны быть взаимосвязаны, но как это обосновать - не знаю.
Коэффициент корреляции Пирсона с помощью Excel расчитать могу, но он работает на нормальном распределении. Мои данные, боюсь, не имеют нормального.
Выглядит это примерно так:
1 175 750
2 175 1225
3 45 350
4 125 350
5 125 500
6 175 1000
7 80 500
8 250 875
9 45 75
10 175 525
11 175 750
12 125 625
13 175 350
14 125 525
15 125 375
16 80 300
17 175 500
18 175 875
19 30 225
20 125 500
21 80 750
22 80 500
23 30 300
24 30 150
25 80 250
26 80 500
27 30 225
28 45 225
29 45 175
30 45 375
Начала оценивать нормальность распределения каждого из столбцов отдельно, чтобы хотя бы опровергнуть, но и этого даже не получилось. В общем запуталась:).
Подскажите, пожалуйста, может, есть какой-то алгоритм?
Скорее всего данные распределены не по нормальному закону (1), как это определить?
Что выбрать для оценки корреляции?
Спасибо заранее))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 16.12.2008 - 15:30
Сообщение #2





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олик) @ 16.12.2008 - 13:55) *
Скорее всего данные распределены не по нормальному закону (1), как это определить?
Что выбрать для оценки корреляции?
Первая величина (столбец) распределена явно не по нормальному закону, см.приложенный рисунок. Ее кривая распределения не похожа на колокол, несимметрична. Поэтому использовать коэффициент корреляции Пирсона (есть в Excel) нельзя. Необходимо использовать ранговый (непараметрический) коэффициент корреляции Спирмена (нет в Excel, зато есть во всех других статистических программах). В программе Statistica, например, Спирмен вычисляется в меню: Statistics->Nonparametrics->Correlations(Spearman). В программе SPSS меню Analyse->Correlate->Bivariate (Флаг Spearman)

Сообщение отредактировал DoctorStat - 16.12.2008 - 15:32
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 16.12.2008 - 17:12
Сообщение #3





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



Спасибо большое!)
еще небольшое уточнение: теперь, прежде чем сравнивать 2 столбца в SPSS, я должна убедиться, что оба имеют отличное от нормального распределение или это лишнее?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 16.12.2008 - 17:15
Сообщение #4





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 16.12.2008 - 21:34
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Олик) @ 16.12.2008 - 17:15) *
хотя, наверное, я уже и сама поняла, что лишнее, еще раз спасибо!

Для корреляции Пирсона - должно быть не просто нормальное, а бивариантно нормальное распределение, для Спирмена - просто доказательство монотонности (т.е. возрастания или падения и там и там, без явных изгибов и перегибов).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 18.12.2008 - 15:41
Сообщение #6





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



Correlations V2 V3
Spearman's rho
V2 Correlation Coefficient 1,000 ,583(**)
Sig. (2-tailed) . ,000
N 536 536
V3 Correlation Coefficient ,583(**) 1,000
Sig. (2-tailed) ,000 .
N 536 536
** Корреляция значима на уровне 0.01 (2-сторонняя).

Добралась до SPSS, вот такую красоту получила!
Осталася 1 вопрос: почему значима на уровне 0,01? что это значит?
я бы это интерпретировала как коэффициенты корреляции 1 и 0,6...
какие еще уровни бывают?
Прикрепленные файлы
Прикрепленный файл  Correlations________________________________V2___________________V3.doc ( 31 килобайт ) Кол-во скачиваний: 839
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 18.12.2008 - 16:18
Сообщение #7





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олик) @ 18.12.2008 - 15:41) *
Осталася 1 вопрос: почему значима на уровне 0,01? что это значит?
какие еще уровни бывают?
Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая).


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 19.12.2008 - 13:07
Сообщение #8





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



у меня продолжение того же вопроса:
имею много данных по различным параметрам, построила для них гистограммы (некоторые из них прикрепила).
В конечном результате хочу добиться следующего: для определенной модели нужно включить эти данные, но только в том случае, если нет взаимовлияния. Снова нужно оценить корреляцию и снова я стою перед проблемой оценки нормальности распределения...
Судя по гистограммам, я бы последние три отнесла к нормальному распределению. Но как доказать, что я не ошибаюсь, если я не ошибаюсь? Какие все-таки четкие способы, кроме "глазомерного"? Есть в какой-нибудь программе возможность путем каких-либо комбинаций добиться подписи - вот эти данные распределены по нормальному закону, а вот эти по такому-то...?
И как проводить корреляционный анализ между данными с разным распределением?
Заранее прошу прощения, если что-то глупое пишу - учусь...smile.gif

...ну вот, а прикрепить не получается... попробую разобраться...

Сообщение отредактировал Олик) - 19.12.2008 - 13:13
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 19.12.2008 - 13:15
Сообщение #9





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



кажется вышло)
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 19.12.2008 - 14:07
Сообщение #10





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олик) @ 19.12.2008 - 13:15) *
кажется вышло)
1. ОЦЕНКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ В ПРОГРАММЕ SPSS.
Analyze->Descriptive Statistics->Explore - Plots - Флаг - Normality plots with tests.
В результатах нужно смотреть таблицу Критерий нормальности. Там 2 теста: Колмогоров-Смирнов и Шапиро-Уилк. Смотрите последний столбец таблицы - значимость. Если полученная значимость в обоих тестах слишком мала (<0,05), то распределение отлично от нормального.
2. ОЦЕНКА ЗАВИСИМОСТИ 2-Х ВЕЛИЧИН.
Ваши графики распределений, показанные на рисунках, скорее всего отличны от нормального, поэтому для оценки парной зависимости используйте непараметрический ранговый коэффициент корреляции Спирмена.

Сообщение отредактировал DoctorStat - 19.12.2008 - 14:08


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 19.12.2008 - 16:35
Сообщение #11





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась:
Kolmogorov-Smirnov(a) Shapiro-Wilk
есть уровень значимости по двум тестам > 0,05
0,2 0,088
0,088 0,089
есть уровень значимости по двум тестам < 0,05
0,001 0
0,005 0,001
а есть для разных тестов разный, кому доверять?
0,051 0,022
0,2 0,022

и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 19.12.2008 - 17:23
Сообщение #12





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Олик) @ 19.12.2008 - 16:35) *
и как теперь оценить корреляцию?
Используйте непараметрический коэффициент корреляции Спирмена
Цитата(Олик) @ 19.12.2008 - 16:35) *
что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?
Вы не доказали, что у них РАЗНОЕ распределение. Вы только доказали, что ОДНА выборка распределена не по нормальному закону. Две связанные величины могут быть распределены как угодно. Возьмите, например, рост и пол человека. Рост распределен нормально, а пол биноминально, т.е. распределения этих 2-х величин отличаются. Тем не менее, мальчики в среднем выше девочек, значит эти величины взаимосвязаны.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 20.12.2008 - 14:01
Сообщение #13





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Олик) @ 19.12.2008 - 16:35) *
посчитала, спасибо за помощь, но вот получила как раз то, чего опасалась:
Kolmogorov-Smirnov(a) Shapiro-Wilk

...

и как теперь оценить корреляцию? что делать, если два параметра имеют разное распределение, можно ли сделать уже из этого вывод, что они никак друг с другом не связаны?

Да уж - "помощь". Все посчитано категорически неверно.

Как уже говорил плав, необходима не просто [маргинальная] нормальность каждой выборки, а нормальность двумерная. Указанные в посте критерии не проверяют данный факт.

Двумерную нормальность можно проверить с помощью специальных критериев: асимметрии и эксцесса (т.е. "сферичности") Мардиа, критерия Хенце-Цирклера (многомерный аналог Эппса-Палли). Имеется многомерный аналог Шапиро-Уилка, однако в программах он, по-моему, пока не реализован.

Сообщение отредактировал Игорь - 20.12.2008 - 14:02


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 12:10
Сообщение #14





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DoctorStat @ 18.12.2008 - 16:18) *
Коэффициент парной корреляции Спирмена равен 0,583. Значимость корреляции p=0,01 - означает, что вероятность того, что 2 переменные не связаны между собой меньше 0,01 (1 случай из 100). Это достаточно высокая значимость. В медицине часто используют 3 уровня значимости p-value: 0,05 (средняя); 0,01(высокая); 0,001(очень высокая).

Уппс... Нет. Если значимость корреляции 0,01 это НЕ означает, что "2 переменные не связаны между собой меньше 0,01". Это означает, что если бы две переменные НЕ БЫЛИ БЫ связаны между собой, то вероятность получить коэффициент корреляции такой или большей величины была бы 1%. Иными словами, если взять двадцать переменных, которые не связаны друг с другом, то, по крайней мере один коэффициент корреляции будет иметь р<0.01. Для корреляционных решеток с большим количеством переменных использовать правила, пришедшие из сравнения групп (0,05 и т.п.) нельзя, надо, по крайней мере использовать поправку Бонферрони.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олик)
сообщение 21.12.2008 - 13:22
Сообщение #15





Группа: Пользователи
Сообщений: 13
Регистрация: 16.12.2008
Из: Санкт-Петербург
Пользователь №: 5627



Только начала осваивать статистику...

Наверное, вы уже просто между собой общаетесь smile.gif
у меня при каждом новом ответе почему-то возникает все больше и больше вопросов:)

Правильно ли я поняла, что имея выборку, для оценки корреляции каждых двух параметров, я сначала определяю характер распределения каждого из параметров.

- если два параметра распределены нормально, то применяю коэффициент Пирсона. Причем, нормальность проверяю только с помощью асимметрии и эксцесса и т.д., как писал Игорь.

- если хоть один параметр имеет распределение, отличное от нормального, то для оценки корреляции можно использовать коэффициент Спирмена.

- дальше, получив результаты, можно уже оценивать степень корреляции, принимая во внимание уровень значимости. так?

про поправку Бонферрони и корреляционные решетки с большим количеством переменных я даже спрашивать пока боюсь, лучше для начала почитаю.

Сообщение отредактировал Олик) - 21.12.2008 - 13:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему