Коэффициент корреляции и его статистическая значимость |
Здравствуйте, гость ( Вход | Регистрация )
Коэффициент корреляции и его статистическая значимость |
25.10.2009 - 10:53
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
Вот подсчитал что можно как я знаю в Excel:
- достоверность линейной аппроксимации (линия тренда проходит через 0,0: E=kH) - коэффициент корреляции. Не нравятся: - то, что R^2 <0 в первом случае (что это может означать связь E=kH - не достоверна?) - во втором случае связь между колонками без p . Помогите пожалуйста "онаучить" мои попытки. Как правильно обработать связь между двумя колонками? Хотелось бы в итоге корреляционную связь дать на уровне какой-либо значимости. СПАСИБО p.s. Как сделали вот эти авторы (второй рисунок) и откуда они p взяли? Пишут, что методом линейного регрессионного анализа (третий рисунок). Сообщение отредактировал Choledochus - 25.10.2009 - 11:50 |
|
25.10.2009 - 17:38
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Что вы посчитали, или что вам не нравится, не понятно. По первому набору данных, вы получили коэффициент корреляции 0,68. А дальше, коэффициент детерминации (R^2) не может быть ни отрицательным, ни больше единицы, а вы приводите -1,28. Ну попробуйте возвести в квадрат руками или на калькуляторе, и получите по вашим данным 0,46. А уравнение линейной регрессии у вас похоже на приведенное в ссылке Е=64,64+5,43*Н , при этом р<0,0004.
|
|
25.10.2009 - 20:14
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
Спасибо (R^2=-1,28 привожу не я - это принтскрин листа Excel, если линию регрессии провести через начало координат).
"Обычное" уравнение регрессии я получил - просто не понятно как p в этом случае вычисляется (p<0,0004)? |
|
25.10.2009 - 20:37
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Странно, что эксел выдает такой коэффициент детерминации. Вы выбрали Set to zero. В вашем уравнении при Н=0, т.е. начало координат по "х", Е= свободному члену, т.е. 64,64. В ссылке уравнение линейной регрессии со свободным членом. Но если не вдаваться в регресию, ваш вопрос был о коэффициенте корреляции в первом случае коэффициент корреляции статистически значим р=0,02, во втором р=0,054.
Сообщение отредактировал DrgLena - 25.10.2009 - 21:29 |
|
25.10.2009 - 21:48
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
DrgLena, еще раз спасибо, но, все-таки, как вы считаете значимость p?
И в первом случае 0,0004 или 0,02? Сообщение отредактировал Choledochus - 25.10.2009 - 22:25 |
|
25.10.2009 - 22:44
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Значимость коэффициентов корреляции по вашим данным - в моем последнем посте, а значимость уравнения линейной регресси по первому набору данных со свободным членом 0,0004. Если вы считаете в эксел, то вам лучше воспользоваться надстройкой AtteStat, там о корреляции подробно написано и формулы есть.
|
|
25.10.2009 - 23:04
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
В интернете одни битые ссылки, даже на сайте программы (.
Все равно спасибо Сообщение отредактировал Choledochus - 25.10.2009 - 23:06 |
|
26.10.2009 - 00:46
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В интернете одни битые ссылки, даже на сайте программы (. Все равно спасибо Рабочая ссылка: http://attestatsoft.narod.ru/download.htm Добавлю, что корреляционный и регрессионный анализы хотя и являются близкими техниками, но используются при решении принципиально различных исследовательских задач. Корреляция - для поиска линейной связи между признаками. Это более широкая задача, т.к. 2 признака могут быть связаны самым разным образом: прямая зависимость, опосредованная связь через цепь событий, общий процесс в основе и т.д.). Регрессия же применяется для более узкой задачи - поиска линейной или нелинейной зависимости у от х (в простейшем случае). При этом считается, что признак х измерен практически без ошибок (возраст, время) или задаётся исследователем в ходе эксперимента (концентрация, доза, нагрузка и т.п.): т.е. ошибка х пренебрежимо мала по сравнению с ошибкой у, отражающей популяционную изменчивость. Поэтому приводить и корреляцию, и регрессию в одном анализе обычно избыточно или даже неверно. Например, мы нашли связь между ростом и весом. Это именно корреляция, т.к. ни рост не зависит от веса, ни вес от роста, оба они являются следствием общих процессов роста организма. Но если нам для каких то целей понадобится выразить эту связь линией, то мы не можем использовать обычную регрессию (по методу наименьших квадратов), т.к. и х, и у содержат ошибки. В этом случае находят линию, являющуюся большим диаметром корреляционного эллипса (она является средним геометрическим регрессий у от х и х от у и называется geometric mean regression). Если же Ваша задача регрессионная - зачем нужна корреляция? А авторы цитируемой Вами статьи безграмотны, т.к. путают корреляцию и регрессию. Статистическая значимость связи признаков считается по результатам корреляционного анализа, а значимость зависимости - по результатам регрессионого анализа, т.е. для одних и тех же данных будут разные коэффициенты детерминации (R^2) и р. Сообщение отредактировал nokh - 26.10.2009 - 01:14 |
|
26.10.2009 - 20:33
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
Спасибо за подробный ответ.
С этой ссылки скачать тоже не получается - у меня скачивается Яндекс.бар, хотя в названии ссылки Attestat1094.exe??? На geometric mean regression ни Яндекс, ни Altavista ничего путного не находит. Может СТАТИСТИКА может построить этот эллипс или какая-то другая программа должна быть, возможно даже он-лайн. p.s. Вот для второго набора данных посчитал в Маткаде. К-ты a и b, а также корреляции совпали с экселевскими. Судя по описанию Mathcad corr (VX,VY) - коэффициент корреляции Пирсона. Осталось ещё значимость корреляции научиться считать в чём-то. Может кто может перешлет дистрибутив Attestat на lib.sma@gmail.com В любом случае спасибо Сообщение отредактировал Choledochus - 26.10.2009 - 21:12 |
|
26.10.2009 - 22:31
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
1. Скачать столь популярную программу не смогли. Учитесь.
2. Найти в инете информацию ,на которую вам указывают не можете. 1,390,000 results for geometric mean regre??. (yahoo!) 3. Предыдущий пост бесплатного волонтера не прочли. Потому и не знаете, что вам нужно посчитать, не то регрессию, не то корреляцию. 4. Маткат вам много может дать цифр для ?онаучивания?. Но лучше возьмите любой учебник по статистике, оценка коэффициента корреляции есть почти во всех. Либо по таблице в конце учебника, либо через формулу расчета t и др. |
|
29.10.2009 - 16:07
Сообщение
#11
|
||
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
DrgLena
R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel Choledochus Это просто к слову: На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity. Т.е. если трактовать ее, как результат корреляционного анализа. Это не кованализ :)
|
|
|
29.10.2009 - 23:38
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
DrgLena R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel Если интересно, посмотрите, что выдают статистические программы, например, Statistica, SPSS для регрессии без свободного члена по этим данным. Коэффициент детерминации одинаков в обеих программ, но отличный от Excel Choledochus Это просто к слову: На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity. На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости. |
|
30.10.2009 - 00:00
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 97 Регистрация: 14.03.2006 Из: Москва Пользователь №: 870 |
|
|
30.10.2009 - 10:20
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да может. Для оценки второго коэффициента оцень мало наблюдений, чсс=5-2=3. Если бы было 5, то коэффициент 0,87 был бы значим. Посмотрите у Лакина стр.345 таблицу критических значений коэффициента корреляции при заданном числе степеней свободы, для 5% и 1% уровня значимости.
|
|
30.10.2009 - 18:19
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости. Я не про глазок. Я про то, что R^2 =0.117 - это СЛАБАЯ связь, точнее - ОЧЕНЬ слабая. 1. Есть коэффициент корреляции равный Х , p<0.001 для него означает, что значение Х не случайно. ( при этом неважно , чему равно Х). 2. Если мы исследуем коэффициент корреляции между двумя переменными и он достоверен, то коэффициент R^2 , имхо, тоже достоверен. Разве не так? 3. Есть такая трактовка: Коэффициент детерминации отражает, какую часть общей изменчивости одной переменной объясняет изменчивость второй переменной и наоборот. ------- Отсюда и был мой вывод о том, что связь достоверно слабая. Точнее, ее почти нет. 10%. Упомянула я об этом потому, что в тексте поста мне показалось, что автор упирает в первую очередь на p, не обращая внимания на ЗНАЧЕНИЕ коэффициента. ------------- > Коэффициент детерминации одинаков в обеих программ, но отличный от Excel а я и привела то, что считает Excel и называет "величиной достоверности аппроксимации" ( видимо, и линия тренда и R^2 тут из экономики, хотя должна быть аналогия...) Сообщение отредактировал Green - 30.10.2009 - 18:30 Это не кованализ :)
|
|