Коэффициент корреляции и его статистическая значимость

Коэффициент корреляции и его статистическая значимость

Опции

Choledochus

25.10.2009 - 10:53

Сообщение #1

Группа: Пользователи
Сообщений: 97
Регистрация: 14.03.2006
Из: Москва
Пользователь №: 870

Вот подсчитал что можно как я знаю в Excel:
- достоверность линейной аппроксимации (линия тренда проходит через 0,0: E=kH)
- коэффициент корреляции.
Не нравятся:
- то, что R^2 <0 в первом случае (что это может означать связь E=kH - не достоверна?)

- во втором случае связь между колонками без p

.

Помогите пожалуйста "онаучить" мои попытки.
Как правильно обработать связь между двумя колонками?
Хотелось бы в итоге корреляционную связь дать на уровне какой-либо значимости.
СПАСИБО

p.s. Как сделали вот эти авторы (второй рисунок) и откуда они p взяли? Пишут, что методом линейного регрессионного анализа (третий рисунок).

Сообщение отредактировал Choledochus - 25.10.2009 - 11:50

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

DrgLena Просмотр профиля	25.10.2009 - 17:38 Сообщение #2
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Что вы посчитали, или что вам не нравится, не понятно. По первому набору данных, вы получили коэффициент корреляции 0,68. А дальше, коэффициент детерминации (R^2) не может быть ни отрицательным, ни больше единицы, а вы приводите -1,28. Ну попробуйте возвести в квадрат руками или на калькуляторе, и получите по вашим данным 0,46. А уравнение линейной регрессии у вас похоже на приведенное в ссылке Е=64,64+5,43*Н , при этом р<0,0004.

Choledochus Просмотр профиля	25.10.2009 - 20:14 Сообщение #3
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870	Спасибо (R^2=-1,28 привожу не я - это принтскрин листа Excel, если линию регрессии провести через начало координат). "Обычное" уравнение регрессии я получил - просто не понятно как p в этом случае вычисляется (p<0,0004)?

DrgLena Просмотр профиля	25.10.2009 - 20:37 Сообщение #4
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Странно, что эксел выдает такой коэффициент детерминации. Вы выбрали Set to zero. В вашем уравнении при Н=0, т.е. начало координат по "х", Е= свободному члену, т.е. 64,64. В ссылке уравнение линейной регрессии со свободным членом. Но если не вдаваться в регресию, ваш вопрос был о коэффициенте корреляции в первом случае коэффициент корреляции статистически значим р=0,02, во втором р=0,054. Сообщение отредактировал DrgLena - 25.10.2009 - 21:29

Choledochus Просмотр профиля	25.10.2009 - 21:48 Сообщение #5
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870	DrgLena, еще раз спасибо, но, все-таки, как вы считаете значимость p? И в первом случае 0,0004 или 0,02? Сообщение отредактировал Choledochus - 25.10.2009 - 22:25

DrgLena Просмотр профиля	25.10.2009 - 22:44 Сообщение #6
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Значимость коэффициентов корреляции по вашим данным - в моем последнем посте, а значимость уравнения линейной регресси по первому набору данных со свободным членом 0,0004. Если вы считаете в эксел, то вам лучше воспользоваться надстройкой AtteStat, там о корреляции подробно написано и формулы есть.

Choledochus Просмотр профиля	25.10.2009 - 23:04 Сообщение #7
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870	В интернете одни битые ссылки, даже на сайте программы (. Все равно спасибо Сообщение отредактировал Choledochus - 25.10.2009 - 23:06

nokh Просмотр профиля	26.10.2009 - 00:46 Сообщение #8
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Choledochus @ 26.10.2009 - 02:04) В интернете одни битые ссылки, даже на сайте программы (. Все равно спасибо Рабочая ссылка: http://attestatsoft.narod.ru/download.htm Добавлю, что корреляционный и регрессионный анализы хотя и являются близкими техниками, но используются при решении принципиально различных исследовательских задач. Корреляция - для поиска линейной связи между признаками. Это более широкая задача, т.к. 2 признака могут быть связаны самым разным образом: прямая зависимость, опосредованная связь через цепь событий, общий процесс в основе и т.д.). Регрессия же применяется для более узкой задачи - поиска линейной или нелинейной зависимости у от х (в простейшем случае). При этом считается, что признак х измерен практически без ошибок (возраст, время) или задаётся исследователем в ходе эксперимента (концентрация, доза, нагрузка и т.п.): т.е. ошибка х пренебрежимо мала по сравнению с ошибкой у, отражающей популяционную изменчивость. Поэтому приводить и корреляцию, и регрессию в одном анализе обычно избыточно или даже неверно. Например, мы нашли связь между ростом и весом. Это именно корреляция, т.к. ни рост не зависит от веса, ни вес от роста, оба они являются следствием общих процессов роста организма. Но если нам для каких то целей понадобится выразить эту связь линией, то мы не можем использовать обычную регрессию (по методу наименьших квадратов), т.к. и х, и у содержат ошибки. В этом случае находят линию, являющуюся большим диаметром корреляционного эллипса (она является средним геометрическим регрессий у от х и х от у и называется geometric mean regression). Если же Ваша задача регрессионная - зачем нужна корреляция? А авторы цитируемой Вами статьи безграмотны, т.к. путают корреляцию и регрессию. Статистическая значимость связи признаков считается по результатам корреляционного анализа, а значимость зависимости - по результатам регрессионого анализа, т.е. для одних и тех же данных будут разные коэффициенты детерминации (R^2) и р. Сообщение отредактировал nokh - 26.10.2009 - 01:14

Choledochus

26.10.2009 - 20:33

Сообщение #9

Группа: Пользователи
Сообщений: 97
Регистрация: 14.03.2006
Из: Москва
Пользователь №: 870

Спасибо за подробный ответ.
С этой ссылки скачать тоже не получается - у меня скачивается Яндекс.бар, хотя в названии ссылки Attestat1094.exe???
На geometric mean regression ни Яндекс, ни Altavista ничего путного не находит.
Может СТАТИСТИКА может построить этот эллипс или какая-то другая программа должна быть, возможно даже он-лайн.

p.s. Вот для второго набора данных посчитал в Маткаде. К-ты a и b, а также корреляции совпали с экселевскими. Судя по описанию Mathcad corr (VX,VY) - коэффициент корреляции Пирсона.
Осталось ещё значимость корреляции научиться считать в чём-то. Может кто может перешлет дистрибутив Attestat на lib.sma@gmail.com
В любом случае спасибо

Сообщение отредактировал Choledochus - 26.10.2009 - 21:12

Эскизы прикрепленных изображений

DrgLena Просмотр профиля	26.10.2009 - 22:31 Сообщение #10
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	1. Скачать столь популярную программу не смогли. Учитесь. 2. Найти в инете информацию ,на которую вам указывают не можете. 1,390,000 results for geometric mean regre??. (yahoo!) 3. Предыдущий пост бесплатного волонтера не прочли. Потому и не знаете, что вам нужно посчитать, не то регрессию, не то корреляцию. 4. Маткат вам много может дать цифр для ?онаучивания?. Но лучше возьмите любой учебник по статистике, оценка коэффициента корреляции есть почти во всех. Либо по таблице в конце учебника, либо через формулу расчета t и др.

Green

29.10.2009 - 16:07

Сообщение #11

Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284

DrgLena

R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel

Choledochus
Это просто к слову:
На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity.
Т.е. если трактовать ее, как результат корреляционного анализа.

Это не кованализ :)

DrgLena Просмотр профиля	29.10.2009 - 23:38 Сообщение #12
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(Green @ 29.10.2009 - 17:07) DrgLena R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel Если интересно, посмотрите, что выдают статистические программы, например, Statistica, SPSS для регрессии без свободного члена по этим данным. Коэффициент детерминации одинаков в обеих программ, но отличный от Excel Цитата(Green @ 29.10.2009 - 17:07) Choledochus Это просто к слову: На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity. На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости.

Choledochus

30.10.2009 - 00:00

Сообщение #13

Группа: Пользователи
Сообщений: 97
Регистрация: 14.03.2006
Из: Москва
Пользователь №: 870

Спасибо за обсуждение!
А может такое в принципе быть: коэффициент корреляции больше (Группа II), а статистически он, наоборот, не значим (p>0,05)?

Сообщение отредактировал Choledochus - 30.10.2009 - 00:01

Эскизы прикрепленных изображений

DrgLena Просмотр профиля	30.10.2009 - 10:20 Сообщение #14
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Да может. Для оценки второго коэффициента оцень мало наблюдений, чсс=5-2=3. Если бы было 5, то коэффициент 0,87 был бы значим. Посмотрите у Лакина стр.345 таблицу критических значений коэффициента корреляции при заданном числе степеней свободы, для 5% и 1% уровня значимости.

Green Просмотр профиля	30.10.2009 - 18:19 Сообщение #15
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Цитата(DrgLena @ 29.10.2009 - 22:38) На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости. Я не про глазок. Я про то, что R^2 =0.117 - это СЛАБАЯ связь, точнее - ОЧЕНЬ слабая. 1. Есть коэффициент корреляции равный Х , p<0.001 для него означает, что значение Х не случайно. ( при этом неважно , чему равно Х). 2. Если мы исследуем коэффициент корреляции между двумя переменными и он достоверен, то коэффициент R^2 , имхо, тоже достоверен. Разве не так? 3. Есть такая трактовка: Коэффициент детерминации отражает, какую часть общей изменчивости одной переменной объясняет изменчивость второй переменной и наоборот. ------- Отсюда и был мой вывод о том, что связь достоверно слабая. Точнее, ее почти нет. 10%. Упомянула я об этом потому, что в тексте поста мне показалось, что автор упирает в первую очередь на p, не обращая внимания на ЗНАЧЕНИЕ коэффициента. ------------- > Коэффициент детерминации одинаков в обеих программ, но отличный от Excel а я и привела то, что считает Excel и называет "величиной достоверности аппроксимации" ( видимо, и линия тренда и R^2 тут из экономики, хотя должна быть аналогия...) Сообщение отредактировал Green - 30.10.2009 - 18:30 Это не кованализ :)

« Предыдущая тема · Медицинская статистика · Следующая тема »