Корреляция, определение значимости коэффициента |
Здравствуйте, гость ( Вход | Регистрация )
Корреляция, определение значимости коэффициента |
4.03.2017 - 18:07
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Ой, как
Смотрите. Ваша начальное сообщение содержит неверный посыл: "Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ." Неверно! Проведение кор.анализа не является целью (даже если так это Вам сформулировал Ваш научный руководитель)! Это лишь одно из средств (методов) проведения исследования, т.е. достижения какой-то цели. Вот когда Вы четко и однозначно сформулируете цель, тогда и метод станет понятен. А пока - каждый домысливает Ваши цели за Вас и исходя из этих "домыслов" и собственных знаний (а во-многом - предпочтений) рекомендует тот или иной путь. Правда, не ясно, а Вам туда или в другую сторону. Если очень грубо - хотите просто выяснить, как одни из измеряемых Вами факторов связаны с другими - ну так да, корреляционный анализ "в зубы" и вперед. Ну, может, с разновидностями - парный, множественные и т.д. И этого будет достаточно для достижения поставленной цели. Если же поставить другую цель, например, решать задачи предсказания одних показателей по значениям других (включая диагностику в широком, математическом смысле) - тогда беремся за регрессию, в той ее разновидности, которая определяется в основном шкалами измерений Ваших данных. Вот тут ее десяток видов насчитали (http://datareview.info/article/10-tipov-regressii-kakoy-vyibrat/) и это не совсем полный список. А еще есть методы классификации(их тоже несколько десятков разных имеется) , которые по-сути тоже относятся сюда-же . Так что только от Вас зависит следующий ход - корректное формулирование цели. И уж потом, коллеги, надеюсь, объединяться и вместо того, что-бы спорить между собой, предложат вам метод ее достижения. Вот как-то так. Сообщение отредактировал passant - 4.03.2017 - 18:43 |
|
5.03.2017 - 14:19
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398 |
Уважаемый passant, спасибо, Вы меня успокоили и весьма понятно объяснили все.
Изначально, вы правы, стояла цель найти связующее звено между психологией и стоматологией. Она найдена. Но это слишком просто теперь мне кажется. Вы чётко предположили относительно цели влияния признака одного на другой. Теперь я ставлю цель определить то, как влияют виды мотиваций и локус контроля на признаки, характеризующие состоятельность имплантатов, то есть, результат лечения и удовлетворенность пациентов, что, в принципе, тоже относится к оценке результата лечения. Я так понимаю, что нужно использовать различные виды регрессии: 1. Логичная для двух бинарных признаков (у меня это удовлетворённость и локус контроля) 2. Байесовская для ранговых признаков 3. ??? И вопрос, какую использовать, где один признак ранговый, второй-дихотомический. Логистическую? (раньше я так думала) |
|
6.03.2017 - 12:46
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался. Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом. Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод? Ну так присоедините таблицу с данными, там всего то ничего их (8 "колонок"). |
|
6.03.2017 - 17:53
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался. Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом. Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод? Реально, практически во всех исследованиях, всегда существуют скрытые группировки. Их, эти группировки, надо выявить с помощью кластерного анализа. Причём используя разные методы кластеризации. При кластеризации пациентов всегда устанавливаются группы с хорошим состоянием здоровья, и с плохим. Однако кроме двух этих групп (кластеров) всегда устанавливается и большее количество групп. Т.е. и 3, и 4, и т.д. Вот эти группировки, наличие которых объясняется комбинациями используемых признаков, надо далее сравнивать. В частности, сравнивать как параметры распределений по всем признакам, и корреляции в отдельных группах (как минимум двумя разными коэффициентами корреляции), так и делать сравнение многомерными методами (логистическая регрессия и дискриминантный анализ). Это позволит установить, какие конкретно признаки доминируют в формировании установленных группировок. В результате этого подхода как раз и можно проранжировать (упорядочить) используемые признаки по их интенсивности изменения. Относительно наличия М и Ж. Продуктивно упомянутый выше набор методов анализа сделать как для всех пациентов (М+Ж), так и раздельно для М и для Ж. Почему я предлагаю достаточно немалый набор разных методов анализа? Потому, что очень часто помимо достаточно простых первых сформулированных задач, на основе полученных результатов формулируются и иные, более продуктивные задачи. Главная их цель - это поиск скрытых группировок пациентов, их различия, и ранжирование признаков различия. А также выявление тех признаков, которыми можно управлять состоянием здоровья пациентов. Желаю успешных исследований! |
|
7.03.2017 - 10:27
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398 |
|
|
7.03.2017 - 13:06
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
|
|
8.03.2017 - 01:28
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398 |
Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать...
Присоединяю теблицы: в первой значения психологии, во второй-стоматологии. Пойду считать и читать дальше...
Прикрепленные файлы
табл_пс.xlsx ( 9,14 килобайт )
Кол-во скачиваний: 218
табл_стом.xlsx ( 9,09 килобайт ) Кол-во скачиваний: 211 |
|
8.03.2017 - 11:25
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать... Присоединяю теблицы: в первой значения психологии, во второй-стоматологии. Пойду считать и читать дальше... То что файла два, но в них по 46 наблюдений, означает что в одинаковых строках таблицы один и тот же наблюдаемый? |
|
8.03.2017 - 12:03
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398 |
Да!
|
|
8.03.2017 - 12:45
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Да! Ok! Тогда типы переменных в датасете вот так выглядят Код > str(data)
'data.frame': 46 obs. of 8 variables: $ лк : Factor w/ 2 levels "0","1": 1 1 1 1 1 2 1 2 1 1 ... $ ш : Ord.factor w/ 3 levels "1"<"2"<"3": 2 1 2 2 1 1 2 1 1 1 ... $ э.н: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 3 3 3 3 3 2 ... $ э.у: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 1 2 3 3 3 2 3 2 ... $ иг : Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 2 2 1 3 3 2 ... $ уд : Factor w/ 2 levels "0","1": 2 2 2 2 1 2 2 2 2 2 ... $ м.т: num 0.3 0 0 0 0 0.3 0 0 0 0 ... $ к.т: num 0 0 0 0.3 0.3 0.5 0 0 0 0.3 ... |
|
8.03.2017 - 14:00
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
1. Поиск оптимальной структуры сети связей объясняющей данные наилучшим непротиворечивым методом.
Методы основанные на поиске максимума критерия оптимальности сети показывают упорно в сторону отсутствия связи между обоими наборами показателей (при учете их внутренней структуры). Код > print(hc(data, optimized = F, debug = F)) Bayesian network learned via Score-based methods model: [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т] nodes: 8 arcs: 4 undirected arcs: 0 directed arcs: 4 average markov blanket size: 1.25 average neighbourhood size: 1.00 average branching factor: 0.50 learning algorithm: Hill-Climbing score: BIC (cond. Gauss.) penalization coefficient: 1.914321 tests used in the learning procedure: 280 optimized: FALSE > AIC(hc(data, optimized = F, debug = F), data) [1] -132.8683 > print(tabu(data, optimized = F, debug = F)) Bayesian network learned via Score-based methods model: [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т] nodes: 8 arcs: 4 undirected arcs: 0 directed arcs: 4 average markov blanket size: 1.25 average neighbourhood size: 1.00 average branching factor: 0.50 learning algorithm: Tabu Search score: BIC (cond. Gauss.) penalization coefficient: 1.914321 tests used in the learning procedure: 1008 optimized: FALSE > AIC(tabu(data, optimized = F, debug = F), data) [1] -132.8683 Сеть связей предлагается одинаковая. Большинство методов основанных на анализе "непротиворечивоти" двухсторонних связей подтверждают наличие связи л.к -- э.у (как обычно не определяя сразу направленность, это нужно делать оценивая изменение суммы критерия сети в целом при помощи choose.direction() ) ну и изредка других связей найденными алгоритмами поиска по критерию оценки сети в целом. Однако, Max-Min Parents and Children (MMPC) находит интересующую связь между двумя группами переменных. Цитата Tsamardinos I, Aliferis CF, Statnikov A (2003). "Time and Sample Efficient Discovery of Markov Blankets and Direct Causal Relations". In "KDD '03: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining", pp. 673-678. ACM. Tsamardinos I, Brown LE, Aliferis CF (2006). "The Max-Min Hill-Climbing Bayesian Network Structure Learning Algorithm". Machine Learning, 65(1), 31-78. Код > print(mmpc(data, optimized = F, debug = F)) Bayesian network learned via Constraint-based methods model: [undirected graph] nodes: 8 arcs: 3 undirected arcs: 3 directed arcs: 0 average markov blanket size: 0.75 average neighbourhood size: 0.75 average branching factor: 0.00 learning algorithm: Max-Min Parent Children conditional independence test: Mutual Information (cond. Gauss.) alpha threshold: 0.05 tests used in the learning procedure: 74 optimized: FALSE > plot(mmpc(data, optimized = F, debug = F), main = "Max-Min Parent Children") Но такая картина, если тыкать в связи бутстреп тестами, не очень то подтверждается. |
|
8.03.2017 - 14:16
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398 |
Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй?
Регрессия показывает, что есть... может, не то анализирую... Для моего исследования нужно установить именно наличие или отсутствие связи и влияния |
|
8.03.2017 - 14:23
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Если рассматривать "нужный вариант" (который подчеркну маловероятен), то структура связей вот такая.
Код > bn.fit(res.mmpc, data)
Bayesian network parameters Parameters of node лк (multinomial distribution) Conditional probability table: 0 1 0.6086957 0.3913043 Parameters of node ш (ordinal distribution) Conditional probability table: 1 2 3 0.4782609 0.3695652 0.1521739 Parameters of node э.н (ordinal distribution) Conditional probability table: 1 2 3 0.06521739 0.36956522 0.56521739 Parameters of node э.у (ordinal distribution) Conditional probability table: лк э.у 0 1 1 0.03571429 0.00000000 2 0.21428571 0.61111111 3 0.75000000 0.38888889 Parameters of node иг (ordinal distribution) Conditional probability table: 1 2 3 0.1956522 0.4565217 0.3478261 Parameters of node уд (multinomial distribution) Conditional probability table: 0 1 0.1086957 0.8913043 Parameters of node м.т (conditional Gaussian distribution) Conditional density: м.т | ш Coefficients: 0 1 2 (Intercept) 0.04090909 0.01764706 0.00000000 Standard deviation of the residuals: 0 1 2 0.10537503 0.07276069 0.00000000 Discrete parents' configurations: ш 0 1 1 2 2 3 Parameters of node к.т (conditional Gaussian distribution) Conditional density: к.т | э.н Coefficients: 0 1 2 (Intercept) 0.20000000 0.03529412 0.05000000 Standard deviation of the residuals: 0 1 2 0.17320508 0.09963167 0.14491377 Discrete parents' configurations: э.н 0 1 1 2 2 3 > |
|
8.03.2017 - 14:30
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй? Регрессия показывает, что есть... может, не то анализирую... Для моего исследования нужно установить именно наличие или отсутствие связи и влияния Тут проблема "попарных сравнений" заключается в том, что во время каждого попарной оценки связи мы перетягиваем многомерное "одеяло дисперсии" в нужную нам сейчас проекцию. То есть в этом тесте "накрываем ноги, голова мерзнет", во втором тесте "нарываем голову, мерзнут ноги". Данный анализ проводит сотни и тысячи тестов для _всех_ вариантов структуры связей (я специально отключил оптимизацию отсечения дублирующихся логически вариантов), и "одеяло дисперсии" натянуть одновременно на ноги и голову просто невозможно. Наличие одной связи сразу учитывается при проверке остальных. Похожую проблему решает "частная корреляция". Что было бы со связью двух переменных, если бы остальные переменные в выборке были бы равны своим средним значениям. ps безусловно если просто смотреть на максимальное правдоподобие (а не на информационные критерии), то связей просто миллион (картинка ниже, нумерик типы пришлось выкинуть) Вот она же с силой связи Код strength.plot(res.tabu, arc.strength(res.tabu, data[,1:6]))
from to strength 1 э.у иг -11.54438156 2 э.н иг -11.56038466 3 ш иг -9.57683099 4 лк иг -8.61544484 5 уд иг -4.06065758 6 лк э.у -5.80043755 7 ш э.н -8.30008512 8 лк э.н -4.83072724 9 э.у э.н -4.55718834 10 ш уд -3.21507587 11 ш э.у -3.02605670 12 уд э.у -2.17698384 13 лк уд -0.70398346 14 уд э.н -0.29182865 15 лк ш -0.08793641 Сообщение отредактировал p2004r - 8.03.2017 - 15:05 |
|
8.03.2017 - 23:34
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать... А какую регрессию вы считаете и, что у вас при этом зависимая переменная, и что предикторы? |
|