Choledochus
25.10.2009 - 10:53
Вот подсчитал что можно как я знаю в Excel:
- достоверность линейной аппроксимации (линия тренда проходит через 0,0: E=kH)
- коэффициент корреляции.
Не нравятся:
- то, что
R^2 <0 в первом случае (что это может означать связь E=kH - не достоверна?)
- во втором случае связь между колонками
без p 
.
Помогите пожалуйста "онаучить" мои попытки.
Как правильно обработать связь между двумя колонками?
Хотелось бы в итоге корреляционную связь дать на уровне какой-либо значимости.
СПАСИБОp.s. Как сделали вот эти авторы (второй рисунок) и
откуда они p взяли? Пишут, что методом линейного регрессионного анализа (третий рисунок).
DrgLena
25.10.2009 - 17:38
Что вы посчитали, или что вам не нравится, не понятно. По первому набору данных, вы получили коэффициент корреляции 0,68. А дальше, коэффициент детерминации (R^2) не может быть ни отрицательным, ни больше единицы, а вы приводите -1,28. Ну попробуйте возвести в квадрат руками или на калькуляторе, и получите по вашим данным 0,46. А уравнение линейной регрессии у вас похоже на приведенное в ссылке Е=64,64+5,43*Н , при этом р<0,0004.
Choledochus
25.10.2009 - 20:14
Спасибо (R^2=-1,28 привожу не я - это принтскрин листа Excel, если линию регрессии провести через начало координат).
"Обычное" уравнение регрессии я получил - просто не понятно как p в этом случае вычисляется (p<0,0004)?
DrgLena
25.10.2009 - 20:37
Странно, что эксел выдает такой коэффициент детерминации. Вы выбрали Set to zero. В вашем уравнении при Н=0, т.е. начало координат по "х", Е= свободному члену, т.е. 64,64. В ссылке уравнение линейной регрессии со свободным членом. Но если не вдаваться в регресию, ваш вопрос был о коэффициенте корреляции в первом случае коэффициент корреляции статистически значим р=0,02, во втором р=0,054.
Choledochus
25.10.2009 - 21:48
DrgLena, еще раз спасибо, но, все-таки, как вы считаете значимость p?
И в первом случае 0,0004 или 0,02?
DrgLena
25.10.2009 - 22:44
Значимость коэффициентов корреляции по вашим данным - в моем последнем посте, а значимость уравнения линейной регресси по первому набору данных со свободным членом 0,0004. Если вы считаете в эксел, то вам лучше воспользоваться надстройкой AtteStat, там о корреляции подробно написано и формулы есть.
Choledochus
25.10.2009 - 23:04
В интернете одни битые ссылки, даже на сайте программы (.
Все равно спасибо
Цитата(Choledochus @ 26.10.2009 - 02:04)

В интернете одни битые ссылки, даже на сайте программы (.
Все равно спасибо
Рабочая ссылка:
http://attestatsoft.narod.ru/download.htmДобавлю, что корреляционный и регрессионный анализы хотя и являются близкими техниками, но используются при решении
принципиально различных исследовательских задач. Корреляция - для поиска линейной
связи между признаками. Это более широкая задача, т.к. 2 признака могут быть связаны самым разным образом: прямая зависимость, опосредованная связь через цепь событий, общий процесс в основе и т.д.). Регрессия же применяется для более узкой задачи - поиска линейной или нелинейной
зависимости у от х (в простейшем случае). При этом считается, что признак х измерен практически без ошибок (возраст, время) или задаётся исследователем в ходе эксперимента (концентрация, доза, нагрузка и т.п.): т.е. ошибка х пренебрежимо мала по сравнению с ошибкой у, отражающей популяционную изменчивость. Поэтому приводить и корреляцию, и регрессию в одном анализе обычно избыточно или даже неверно. Например, мы нашли связь между ростом и весом. Это именно корреляция, т.к. ни рост не зависит от веса, ни вес от роста, оба они являются следствием общих процессов роста организма. Но если нам для каких то целей понадобится выразить эту связь линией, то мы не можем использовать обычную регрессию (по методу наименьших квадратов), т.к. и х, и у содержат ошибки. В этом случае находят линию, являющуюся б
ольшим диаметром корреляционного эллипса (она является средним геометрическим регрессий у от х и х от у и называется geometric mean regression). Если же Ваша задача регрессионная - зачем нужна корреляция?
А авторы цитируемой Вами статьи безграмотны, т.к. путают корреляцию и регрессию. Статистическая значимость связи признаков считается по результатам корреляционного анализа, а значимость зависимости - по результатам регрессионого анализа, т.е. для одних и тех же данных будут разные коэффициенты детерминации (R^2) и р.
Choledochus
26.10.2009 - 20:33
Спасибо за подробный ответ.
С этой ссылки скачать тоже не получается - у меня скачивается Яндекс.бар, хотя в названии ссылки Attestat1094.exe???
На geometric mean regression ни Яндекс, ни Altavista ничего путного не находит.
Может СТАТИСТИКА может построить этот эллипс или какая-то другая программа должна быть, возможно даже он-лайн.
p.s. Вот для второго набора данных посчитал в Маткаде. К-ты a и b, а также корреляции совпали с экселевскими. Судя по описанию Mathcad corr (VX,VY) - коэффициент корреляции Пирсона.
Осталось ещё значимость корреляции научиться считать в чём-то. Может кто может перешлет дистрибутив Attestat на lib.sma@gmail.com
В любом случае спасибо
DrgLena
26.10.2009 - 22:31
1. Скачать столь популярную программу не смогли. Учитесь.
2. Найти в инете информацию ,на которую вам указывают не можете. 1,390,000 results for geometric mean regre??. (yahoo!)
3. Предыдущий пост бесплатного волонтера не прочли. Потому и не знаете, что вам нужно посчитать, не то регрессию, не то корреляцию.
4. Маткат вам много может дать цифр для ?онаучивания?. Но лучше возьмите любой учебник по статистике, оценка коэффициента корреляции есть почти во всех. Либо по таблице в конце учебника, либо через формулу расчета t и др.
DrgLena
R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel
Нажмите для просмотра прикрепленного файлаCholedochus
Это просто к слову:
На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity.
Т.е. если трактовать ее, как результат корреляционного анализа.
DrgLena
29.10.2009 - 23:38
Цитата(Green @ 29.10.2009 - 17:07)

DrgLena
R^2 < 0 заинтересовало, воспроизвела. Открыла справку Excel
Если интересно, посмотрите, что выдают статистические программы, например, Statistica, SPSS для регрессии без свободного члена по этим данным. Коэффициент детерминации одинаков в обеих программ, но отличный от Excel
Цитата(Green @ 29.10.2009 - 17:07)

Choledochus
Это просто к слову:
На Вашей второй картинке в первом посте достоверно НЕТ корреляции между Hardness и Elasticity.
На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости.
Choledochus
30.10.2009 - 00:00
Спасибо за обсуждение!
А может такое в принципе быть: коэффициент корреляции больше (Группа II), а статистически он, наоборот, не значим (p>0,05)?
DrgLena
30.10.2009 - 10:20
Да может. Для оценки второго коэффициента оцень мало наблюдений, чсс=5-2=3. Если бы было 5, то коэффициент 0,87 был бы значим. Посмотрите у Лакина стр.345 таблицу критических значений коэффициента корреляции при заданном числе степеней свободы, для 5% и 1% уровня значимости.
Цитата(DrgLena @ 29.10.2009 - 22:38)

На глазок, может коэффициент корреляции (r=0,34) статистически не значим, но если точек там примерно 70, то это вполне достаточно для того чтобы он был значим, причем как на 5%, так и на 1% уровне значимости.
Я не про глазок. Я про то, что R^2 =0.117 - это СЛАБАЯ связь, точнее - ОЧЕНЬ слабая.
1. Есть коэффициент корреляции равный Х , p<0.001 для него означает, что значение Х не случайно. ( при этом неважно , чему равно Х).
2. Если мы исследуем коэффициент корреляции между двумя переменными и он достоверен, то коэффициент R^2 , имхо, тоже достоверен. Разве не так?
3. Есть такая трактовка: Коэффициент детерминации отражает, какую часть общей изменчивости одной переменной объясняет изменчивость второй переменной и наоборот.
-------
Отсюда и был мой вывод о том, что связь достоверно слабая. Точнее, ее почти нет. 10%.
Упомянула я об этом потому, что в тексте поста мне показалось, что автор упирает в первую очередь на p, не обращая внимания на ЗНАЧЕНИЕ коэффициента.
-------------
> Коэффициент детерминации одинаков в обеих программ, но отличный от Excel
а я и привела то, что считает Excel и называет "величиной достоверности аппроксимации" ( видимо, и линия тренда и R^2 тут из экономики, хотя должна быть аналогия...)
DrgLena
30.10.2009 - 23:07
Цитата(Green @ 30.10.2009 - 19:19)

1. Есть коэффициент корреляции равный Х , p<0.001 для него означает, что значение Х не случайно. ( при этом неважно , чему равно Х).
r=0,34, p<0,05 Не случайно?
Цитата(Green @ 30.10.2009 - 19:19)

Отсюда и был мой вывод о том, что связь достоверно слабая. Точнее, ее почти нет. 10%.
....Достоверно слабая, или ее почти нет.... очень не точный вывод о коэффициенте корреляции, как для экономики, так и для ботаники. Автор поста получил более высокие коэффициенты корреляции и во втором случае коэффициент 0,87 статистически не значим.
> r=0,34, p<0,05 Не случайно?
По-видимому, нет

.
"В исследованиях используются два способа формирования выборки: естественная (Naturalictic sample) и целевая (Purposive sample). Естественная выборка ? случаи набираются среди популяции. Например, влияние противозачаточных таблеток на длительность кровотечения. Естественной выборкой будет отбор 200 женщин из большой популяции, а потом выделение двух групп ? принимающих и не принимающих противозачаточные таблетки. Этот метод формирования выборки не является смещенным. Относительная частота принимающих и не принимающих таблетки репрезентативна для всей популяции.
Целевая выборка ? когда набираются группы из разных популяций. Желательно, чтобы группы имели одинаковый размер. Например, 100 женщин, принимающих таблетки и 100 женщин, не принимающих противозачаточные таблетки. В этом случае, относительная частота не будет репрезентативной для популяции женщин. Однако это не повлияет на исследование различий в длительности кровотечений.
Разница между естественной и целевой выборкой заключается в том, является или нет независимая переменная в выборке репрезентативной для описания популяции. Естественная выборка может использоваться в когортных исследованиях. Целевая ? в исследованиях случай-контроль и рандомизированных клинических исследованиях. .....Для обработки данных естественных выборок может использоваться корреляционный анализ. Примером может являться исследование зависимости между употреблением соли и кровяным давлением. В таком исследовании не является важным, какая из переменных является зависимой, а какая независимой. Со статистической точки зрения тут исследуется совместные изменения переменных. Статистика, которая отражает насколько сильно взаимосвязаны обе переменные называется ковариацией (Covariance) . Наиболее известен коэффициент корреляции Пирсона. Он представляет собой точечную оценку силы связи между двумя переменными. В этом основная разница между регрессионным и корреляционным анализом. Регрессионный анализ не оценивает силу связи между переменными в популяции. Корреляционный анализ оценивает силу связи, но не может оценить значения зависимой переменной в зависимости от значений независимой переменной. Коэффициент корреляции может принимать значения в диапазоне от -1 до +1. Положительное значение коэффициента корреляции означает, что при возрастании одной переменной другая тоже возрастает. При отрицательном значении ? при возрастании одной переменной другая убывает. При коэффициенте корреляции равном нулю, не наблюдается связи между переменными. Интерпретация силы связи между двумя переменными может быть получена с использованием коэффициента детерминации. Если домножить этот коэффициент на 100%, то получим процент вариации зависимой переменной, который объясняется вариацией зависимой переменной. Однако, необходимо помнить, что такое объяснение пригодно только для естественной (репрезентативной) выборки. Можно искусственно завысить коэффициент корреляции при использовании целевой выборки."
Richard K. Riegelman
Studying a Study and Testing a Test: How to Read the Health Science Literature
(переводила я, пока для собственных нужд)
======
Поэтому, собственно, есть сомнения, что на 11 кейсах можно получить "правильный" коэффициент корреляции, что они отражают популяцию. А математика в данном случае - только слепой инструмент.
========
>очень не точный вывод о коэффициенте корреляции
А как бы Вы написали ИНТЕРПРЕТАЦИЮ достоверно полученного r=0,34 ?
DrgLena
2.11.2009 - 22:59
Не уверена, что для изучение влияния факта приема противозачаточных таблеток на длительность кровотечения будет использован коэффициент корреляции Пирсона, а об этом как раз и шла речь.
Коэффициент корреляции не может быть правильный или не правильный, как не может быть и ?достоверно полученный?, как вы пишете.
Полученная величина коэффициента корреляции указывает на наличие слабой положительной корреляционной связи между двумя. показателями (r=0,34). А если при этом уровень значимости р<0,05, то и в генеральной совокупности вы вправе ожидать наличие такой же связи с вероятностью не менее 0,95. Можете выбрать другой уровень альфа и оценить коэффициент на другом уровне.
Что касается другого случая, когда автор получил коэффициент корреляции 0,87, однако в данном случае ошибочно утверждать, что доказано наличие сильной корреляционной связи, поскольку не достигнут принятый в исследовании уровень значимости.
И математика в данном случае как раз предоставляет свой инструмент, чтобы вы могли перенести результаты выборочных оценок на генеральную совокупность и какую ошибку при этом вы можете допустить.
>А если при этом уровень значимости р<0,05, то и в генеральной совокупности вы вправе ожидать наличие такой же связи с вероятностью не менее 0,95.
Замечание 1. Поскольку всего 11 случаев, хотелось бы оценить доверительный интервал.
Коэффициент Пирсона
0,679636831
P-значение
0,989291146
Доверительный 95% интервал
0,134664037
0,908939689
Как видим, значение коэффициента корреляции "болтается" между 0,13 и 0,91. Утешительный результат для исследователя? имхо, нет.
Замечание 2. Перенос возможен только, если выборка репрезентативна. Это надо иметь ввиду. Именно это я пыталась пояснить, давая цитату, в которой речь шла не о конкретном исследовании, а о способе формирования выборки и примере этого формирования. Если прочесть внимательно, то речь не идет об исследовании влияния факта приема противозачаточных таблеток на длительность кровотечения и использовании для этого коэффициента корреляции Пирсона.
Замечание 3. Это уже замечание домысла. Hardness=твердость. Elasticity=эластичность.
Мое техническое образование полагает, что было бы странным найти сильную связь между такими параметрами. Но тут, безусловно, я не считаю это аргументом
DrgLena
4.11.2009 - 18:35
Не могу не согласиться с вами, что определенный тип исследования, то что сегодня стали называть дизайном, включает в себя, прежде всего, способ формирования выборки. И ваша цитата именно об этом. Но относительно коэффициента корреляции, то не нужно требовать от него слишком много в медицинских исследованиях, если связь есть, то всегда интересует какая именно. Относительно значимости коэффициента корреляции, то все таблицы в конце наших учебников по статистике дают табличную оценку коэффициентов начиная с чсс = 5, для 5% и 1% уровня значимости. Вряд ли 7 больных ? можно считать репрезентативной выборкой.
В случае корреляции между физическими свойствами разрабатываемых медицинских материалов, очевидно об этом рассматриваемый пример, то дизайн клинических исследований здесь вообще не причем, и если есть 6 видов одного материала или 11 другого, то автор вправе посмотреть, как коррелирует Е, модуль упругости (коэф. Гука, отношение относительного удлинения к величине нагрузки, примерно, точно не помню) с твердостью материала Н ( может это твердость по Бринеллю, определяется вдавливанием шарика). Хотелось бы, чтобы материал был и твердый и упругий
DrgLena, спасибо,
как-то о образцах материала не подумала в разделе медицинской статистики

Во всяком случае, можно еще оценить размер необходимой выборки при заданной мощности. Было бы убедительнее, и, по-видимому корректнее.
DrgLena
4.11.2009 - 22:49
Согласна, выкладывайте решение для мощности 0,80 и альфа 0,05. Сравним, графическое решение я прилагаю. А достигнутая мощность в примерах автора поста 0,69 и 0,60 соответственно.
Так это к автору темы

У меня получился точно такой же график.
Не менее 15 случаев для для мощности 0,80 и альфа 0,05 для подтверждения кк=0,67.
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.