Корреляция, определение значимости коэффициента

Корреляция, определение значимости коэффициента

passant Просмотр профиля	4.03.2017 - 18:07 Сообщение #16
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Ой, как ~~запугали~~ запутали человека Еще немного, и он поймет, что без применения методов Факторизации Ферма и использования интегралов Лебега в банаховых пространствах дальнейшие исследования в стоматологии бессмысленны и в корне неверны. Смотрите. Ваша начальное сообщение содержит неверный посыл: "Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ." Неверно! Проведение кор.анализа не является целью (даже если так это Вам сформулировал Ваш научный руководитель)! Это лишь одно из средств (методов) проведения исследования, т.е. достижения какой-то цели. Вот когда Вы четко и однозначно сформулируете цель, тогда и метод станет понятен. А пока - каждый домысливает Ваши цели за Вас и исходя из этих "домыслов" и собственных знаний (а во-многом - предпочтений) рекомендует тот или иной путь. Правда, не ясно, а Вам туда или в другую сторону. Если очень грубо - хотите просто выяснить, как одни из измеряемых Вами факторов связаны с другими - ну так да, корреляционный анализ "в зубы" и вперед. Ну, может, с разновидностями - парный, множественные и т.д. И этого будет достаточно для достижения поставленной цели. Если же поставить другую цель, например, решать задачи предсказания одних показателей по значениям других (включая диагностику в широком, математическом смысле) - тогда беремся за регрессию, в той ее разновидности, которая определяется в основном шкалами измерений Ваших данных. Вот тут ее десяток видов насчитали (http://datareview.info/article/10-tipov-regressii-kakoy-vyibrat/) и это не совсем полный список. А еще есть методы классификации(их тоже несколько десятков разных имеется) , которые по-сути тоже относятся сюда-же . Так что только от Вас зависит следующий ход - корректное формулирование цели. И уж потом, коллеги, надеюсь, объединяться и вместо того, что-бы спорить между собой, предложат вам метод ее достижения. Вот как-то так. Сообщение отредактировал passant - 4.03.2017 - 18:43

SurgeonAnastasia Просмотр профиля	5.03.2017 - 14:19 Сообщение #17
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Уважаемый passant, спасибо, Вы меня успокоили и весьма понятно объяснили все. Изначально, вы правы, стояла цель найти связующее звено между психологией и стоматологией. Она найдена. Но это слишком просто теперь мне кажется. Вы чётко предположили относительно цели влияния признака одного на другой. Теперь я ставлю цель определить то, как влияют виды мотиваций и локус контроля на признаки, характеризующие состоятельность имплантатов, то есть, результат лечения и удовлетворенность пациентов, что, в принципе, тоже относится к оценке результата лечения. Я так понимаю, что нужно использовать различные виды регрессии: 1. Логичная для двух бинарных признаков (у меня это удовлетворённость и локус контроля) 2. Байесовская для ранговых признаков 3. ??? И вопрос, какую использовать, где один признак ранговый, второй-дихотомический. Логистическую? (раньше я так думала)

p2004r Просмотр профиля	6.03.2017 - 12:46 Сообщение #18
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(SurgeonAnastasia @ 4.03.2017 - 17:17) Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался. Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом. Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод? Ну так присоедините таблицу с данными, там всего то ничего их (8 "колонок"). http://r-statistics.livejournal.com/

leo_biostat Просмотр профиля	6.03.2017 - 17:53 Сообщение #19
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953	Цитата(SurgeonAnastasia @ 4.03.2017 - 17:17) Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался. Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом. Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод? Реально, практически во всех исследованиях, всегда существуют скрытые группировки. Их, эти группировки, надо выявить с помощью кластерного анализа. Причём используя разные методы кластеризации. При кластеризации пациентов всегда устанавливаются группы с хорошим состоянием здоровья, и с плохим. Однако кроме двух этих групп (кластеров) всегда устанавливается и большее количество групп. Т.е. и 3, и 4, и т.д. Вот эти группировки, наличие которых объясняется комбинациями используемых признаков, надо далее сравнивать. В частности, сравнивать как параметры распределений по всем признакам, и корреляции в отдельных группах (как минимум двумя разными коэффициентами корреляции), так и делать сравнение многомерными методами (логистическая регрессия и дискриминантный анализ). Это позволит установить, какие конкретно признаки доминируют в формировании установленных группировок. В результате этого подхода как раз и можно проранжировать (упорядочить) используемые признаки по их интенсивности изменения. Относительно наличия М и Ж. Продуктивно упомянутый выше набор методов анализа сделать как для всех пациентов (М+Ж), так и раздельно для М и для Ж. Почему я предлагаю достаточно немалый набор разных методов анализа? Потому, что очень часто помимо достаточно простых первых сформулированных задач, на основе полученных результатов формулируются и иные, более продуктивные задачи. Главная их цель - это поиск скрытых группировок пациентов, их различия, и ранжирование признаков различия. А также выявление тех признаков, которыми можно управлять состоянием здоровья пациентов. Желаю успешных исследований!

SurgeonAnastasia Просмотр профиля	7.03.2017 - 10:27 Сообщение #20
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Цитата(p2004r @ 6.03.2017 - 12:46) Ну так присоедините таблицу с данными, там всего то ничего их (8 "колонок"). Да,присоединю,спасибо!

p2004r Просмотр профиля	7.03.2017 - 13:06 Сообщение #21
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(SurgeonAnastasia @ 7.03.2017 - 10:27) Да,присоединю,спасибо! Ok, буду ждать. http://r-statistics.livejournal.com/

SurgeonAnastasia Просмотр профиля	8.03.2017 - 01:28 Сообщение #22
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать... Присоединяю теблицы: в первой значения психологии, во второй-стоматологии. Пойду считать и читать дальше... Прикрепленные файлы табл_пс.xlsx ( 9,14 килобайт ) Кол-во скачиваний: 218 табл_стом.xlsx ( 9,09 килобайт ) Кол-во скачиваний: 211

p2004r Просмотр профиля	8.03.2017 - 11:25 Сообщение #23
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(SurgeonAnastasia @ 8.03.2017 - 01:28) Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать... Присоединяю теблицы: в первой значения психологии, во второй-стоматологии. Пойду считать и читать дальше... То что файла два, но в них по 46 наблюдений, означает что в одинаковых строках таблицы один и тот же наблюдаемый? http://r-statistics.livejournal.com/

SurgeonAnastasia Просмотр профиля	8.03.2017 - 12:03 Сообщение #24
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Да!

p2004r Просмотр профиля	8.03.2017 - 12:45 Сообщение #25
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(SurgeonAnastasia @ 8.03.2017 - 12:03) Да! Ok! Тогда типы переменных в датасете вот так выглядят Код > str(data) 'data.frame': 46 obs. of 8 variables: $ лк : Factor w/ 2 levels "0","1": 1 1 1 1 1 2 1 2 1 1 ... $ ш : Ord.factor w/ 3 levels "1"<"2"<"3": 2 1 2 2 1 1 2 1 1 1 ... $ э.н: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 3 3 3 3 3 2 ... $ э.у: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 1 2 3 3 3 2 3 2 ... $ иг : Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 2 2 1 3 3 2 ... $ уд : Factor w/ 2 levels "0","1": 2 2 2 2 1 2 2 2 2 2 ... $ м.т: num 0.3 0 0 0 0 0.3 0 0 0 0 ... $ к.т: num 0 0 0 0.3 0.3 0.5 0 0 0 0.3 ... http://r-statistics.livejournal.com/

p2004r

8.03.2017 - 14:00

Сообщение #26

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

1. Поиск оптимальной структуры сети связей объясняющей данные наилучшим непротиворечивым методом.

Методы основанные на поиске максимума критерия оптимальности сети показывают упорно в сторону отсутствия связи между обоими наборами показателей (при учете их внутренней структуры).

Код

> print(hc(data, optimized = F, debug = F))

  Bayesian network learned via Score-based methods

  model:
   [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т]
  nodes:                                 8
  arcs:                                  4
    undirected arcs:                     0
    directed arcs:                       4
  average markov blanket size:           1.25
  average neighbourhood size:            1.00
  average branching factor:              0.50

  learning algorithm:                    Hill-Climbing
  score:                                 BIC (cond. Gauss.)
  penalization coefficient:              1.914321
  tests used in the learning procedure:  280
  optimized:                             FALSE

> AIC(hc(data, optimized = F, debug = F), data)
[1] -132.8683

> print(tabu(data, optimized = F, debug = F))

  Bayesian network learned via Score-based methods

  model:
   [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т]
  nodes:                                 8
  arcs:                                  4
    undirected arcs:                     0
    directed arcs:                       4
  average markov blanket size:           1.25
  average neighbourhood size:            1.00
  average branching factor:              0.50

  learning algorithm:                    Tabu Search
  score:                                 BIC (cond. Gauss.)
  penalization coefficient:              1.914321
  tests used in the learning procedure:  1008
  optimized:                             FALSE

> AIC(tabu(data, optimized = F, debug = F), data)
[1] -132.8683

Сеть связей предлагается одинаковая.

Большинство методов основанных на анализе "непротиворечивоти" двухсторонних связей подтверждают наличие связи л.к -- э.у (как обычно не определяя сразу направленность, это нужно делать оценивая изменение суммы критерия сети в целом при помощи choose.direction() ) ну и изредка других связей найденными алгоритмами поиска по критерию оценки сети в целом.

Однако, Max-Min Parents and Children (MMPC) находит интересующую связь между двумя группами переменных.

Цитата

Tsamardinos I, Aliferis CF, Statnikov A (2003). "Time and Sample Efficient Discovery of Markov Blankets and Direct Causal Relations". In "KDD '03: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining", pp. 673-678. ACM.

Tsamardinos I, Brown LE, Aliferis CF (2006). "The Max-Min Hill-Climbing Bayesian Network Structure Learning Algorithm". Machine Learning, 65(1), 31-78.

Код

> print(mmpc(data, optimized = F, debug = F))

  Bayesian network learned via Constraint-based methods

  model:
    [undirected graph]
  nodes:                                 8
  arcs:                                  3
    undirected arcs:                     3
    directed arcs:                       0
  average markov blanket size:           0.75
  average neighbourhood size:            0.75
  average branching factor:              0.00

  learning algorithm:                    Max-Min Parent Children
  conditional independence test:         Mutual Information (cond. Gauss.)
  alpha threshold:                       0.05
  tests used in the learning procedure:  74
  optimized:                             FALSE

> plot(mmpc(data, optimized = F, debug = F), main = "Max-Min Parent Children")

Но такая картина, если тыкать в связи бутстреп тестами, не очень то подтверждается.

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

Ответить с цитированием данного сообщения

SurgeonAnastasia Просмотр профиля	8.03.2017 - 14:16 Сообщение #27
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй? Регрессия показывает, что есть... может, не то анализирую... Для моего исследования нужно установить именно наличие или отсутствие связи и влияния

p2004r

8.03.2017 - 14:23

Сообщение #28

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Если рассматривать "нужный вариант" (который подчеркну маловероятен), то структура связей вот такая.

Код

> bn.fit(res.mmpc, data)

  Bayesian network parameters

  Parameters of node лк (multinomial distribution)

Conditional probability table:
         0         1
0.6086957 0.3913043

  Parameters of node ш (ordinal distribution)

Conditional probability table:
         1         2         3
0.4782609 0.3695652 0.1521739

  Parameters of node э.н (ordinal distribution)

Conditional probability table:
          1          2          3
0.06521739 0.36956522 0.56521739

  Parameters of node э.у (ordinal distribution)

Conditional probability table:

   лк
э.у          0          1
  1 0.03571429 0.00000000
  2 0.21428571 0.61111111
  3 0.75000000 0.38888889

  Parameters of node иг (ordinal distribution)

Conditional probability table:
         1         2         3
0.1956522 0.4565217 0.3478261

  Parameters of node уд (multinomial distribution)

Conditional probability table:
         0         1
0.1086957 0.8913043

  Parameters of node м.т (conditional Gaussian distribution)

Conditional density: м.т | ш
Coefficients:
                      0           1           2
(Intercept)  0.04090909  0.01764706  0.00000000
Standard deviation of the residuals:
         0           1           2
0.10537503  0.07276069  0.00000000
Discrete parents' configurations:
   ш
0  1
1  2
2  3

  Parameters of node к.т (conditional Gaussian distribution)

Conditional density: к.т | э.н
Coefficients:
                      0           1           2
(Intercept)  0.20000000  0.03529412  0.05000000
Standard deviation of the residuals:
         0           1           2
0.17320508  0.09963167  0.14491377
Discrete parents' configurations:
   э.н
0    1
1    2
2    3

>

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

p2004r

8.03.2017 - 14:30

Сообщение #29

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(SurgeonAnastasia @ 8.03.2017 - 14:16)

Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй?
Регрессия показывает, что есть... может, не то анализирую...
Для моего исследования нужно установить именно наличие или отсутствие связи и влияния

Тут проблема "попарных сравнений" заключается в том, что во время каждого попарной оценки связи мы перетягиваем многомерное "одеяло дисперсии" в нужную нам сейчас проекцию. То есть в этом тесте "накрываем ноги, голова мерзнет", во втором тесте "нарываем голову, мерзнут ноги".

Данный анализ проводит сотни и тысячи тестов для _всех_ вариантов структуры связей (я специально отключил оптимизацию отсечения дублирующихся логически вариантов), и "одеяло дисперсии" натянуть одновременно на ноги и голову просто невозможно. Наличие одной связи сразу учитывается при проверке остальных.

Похожую проблему решает "частная корреляция". Что было бы со связью двух переменных, если бы остальные переменные в выборке были бы равны своим средним значениям.

ps безусловно если просто смотреть на максимальное правдоподобие (а не на информационные критерии), то связей просто миллион

(картинка ниже, нумерик типы пришлось выкинуть)

Вот она же с силой связи

Код

strength.plot(res.tabu,  arc.strength(res.tabu, data[,1:6]))
   from  to     strength
1   э.у  иг -11.54438156
2   э.н  иг -11.56038466
3     ш  иг  -9.57683099
4    лк  иг  -8.61544484
5    уд  иг  -4.06065758
6    лк э.у  -5.80043755
7     ш э.н  -8.30008512
8    лк э.н  -4.83072724
9   э.у э.н  -4.55718834
10    ш  уд  -3.21507587
11    ш э.у  -3.02605670
12   уд э.у  -2.17698384
13   лк  уд  -0.70398346
14   уд э.н  -0.29182865
15   лк   ш  -0.08793641

Сообщение отредактировал p2004r - 8.03.2017 - 15:05

Эскизы прикрепленных изображений

http://r-statistics.livejournal.com/

DrgLena Просмотр профиля	8.03.2017 - 23:34 Сообщение #30
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(SurgeonAnastasia @ 8.03.2017 - 01:28) Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать... А какую регрессию вы считаете и, что у вас при этом зависимая переменная, и что предикторы?

« Предыдущая тема · Медицинская статистика · Следующая тема »