Корреляция, определение значимости коэффициента

Корреляция, определение значимости коэффициента

SurgeonAnastasia Просмотр профиля	27.02.2017 - 01:42 Сообщение #1
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Здравствуйте Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ. Анализ был проведён с использованием расчета коэффициентов Спирмена, биссериального коэффициентов. Коэффициенты получены как положительные, так и отрицательные. Затем проведено определение значимости этих коэффициентов. Также получены различные значения, как и значимые значения, так и значения, соответствующие гипотезе о нулевом коэффициенте. Все считала в Excel. В итоге, много вопросов: 1. Правильный ли у меня алгоритм действий? 2. Если да, то что интерпретировать: сам коэффициент или его значимость? 3. Правильно ли использовать Excel или другая программа лучше для этих целей. Заранее прошу прощения за возможную некомпетентность.

nokh Просмотр профиля	27.02.2017 - 23:38 Сообщение #2
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(SurgeonAnastasia @ 27.02.2017 - 03:42) 1. Правильный ли у меня алгоритм действий? 2. Если да, то что интерпретировать: сам коэффициент или его значимость? 3. Правильно ли использовать Excel или другая программа лучше для этих целей. Заранее прошу прощения за возможную некомпетентность. 1. Для двух ранговых - корреляция Спирмена, для рангового и дихотомического - рангово-бисериальная корреляция. 2. Если корреляция статистически незначима - интерпретировать нечего, только констатировать отсутствие связи. А вообще любая ассоциация характеризуется 3 мерами: (1) направлением связи, (2) силой связи и (3) статистической значимостью. Каждая несёт свою информацию. 3. Для освоения любого статистического метода лучший путь: (1) по формулам и таблицам из книг на калькуляторе, (2) электронные таблицы, (3) статистические пакеты, (4) специализированные статистические пакеты или библиотеки. Раз вы сумели всё посчитать в Exсel'е, значит достаточно полно разобрались в методах "изнутри", это очень полезно. Но беда в том, что при программировании расчётов в электронных таблицах возможны ошибки - как мы узнаем, что вы считали по верным формулам, не напутали с ячейками и т.д.? Никак! Ещё хуже если человек считал по формулам, умножал столбиком, интерполировал р-значение по Лагранжу и т.д. - ошибки почти неизбежны. Поэтому для отчёта по исследованию лучше всё наоборот: от (4) до (1). Использование исследователем проверенного статистического софта - гарантия того, что он не накосячит с расчётами. С этой точки зрения Excel - плохо. К тому же, по сложившейся в нашей стране печальной практике, если в статье/диссертации написано: "все расчёты выполнены стандартными методами вариационной статистики в пакете MS Excel", значит автор - дебил и либо вообще ничего не считал, либо нажимал на какие-то кнопки в пиратском софте, либо ему кто-то считал, а в чём - он забыл или не спросил, либо какие-то иные проявления скудоумия. Поэтому найдите пакет или онлайновый калькулятор, который посчитает что вам нужно, укажите их в работе с номером версии для пакета и датой обращения для онлайнового калькулятора. Сейчас всего этого - полно. Заодно проверите, насколько правильны были ваши расчёты. Сообщение отредактировал nokh - 27.02.2017 - 23:42

SurgeonAnastasia Просмотр профиля	28.02.2017 - 09:45 Сообщение #3
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Nokh, спасибо за развёрнутый ответ! Я скачаю Stsistica и проведу эти исследования ещё и в этой программе. Но меня смущает ощущение, что-то я могла не так сделать, слишком просто получается все. Изучив другие темы форума, мне показалось, что я что-то упускаю. Ещё хотела бы уточнить по поводу оценки значимости коэффициента: у меня один коэффициент был равен -0,12, t набл при этом больше t крит( по таблице Стьюдента). Я читала в книге, что это частая история, когда кажется будто коэффициент стремится к нулю, поэтому надо считать t набл и сравнивать его с критическим. Вопрос: правильно ли я размышляю и значит ли, что я трактую это, как наличие слабой отрицательной связи( опять же по таблице Стьюдента)?

SurgeonAnastasia Просмотр профиля	28.02.2017 - 09:49 Сообщение #4
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Прошу прощения, последнее смотрела не по Стьюденту, конечно.

nokh Просмотр профиля	1.03.2017 - 09:09 Сообщение #5
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Вы собираетесь скачать нелицензированную программу, в которой к тому же нет рангово-бисериальной корреляции. Лучше посчитайте в онлайновом пакете http://vassarstats.net/ (раздел Correlation & Regression)

SurgeonAnastasia Просмотр профиля	1.03.2017 - 19:37 Сообщение #6
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Спасибо большое за помощь!

leo_biostat Просмотр профиля	2.03.2017 - 20:09 Сообщение #7
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953	Цитата(SurgeonAnastasia @ 27.02.2017 - 01:42) Здравствуйте Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ. Анализ был проведён с использованием расчета коэффициентов Спирмена, биссериального коэффициентов. Коэффициенты получены как положительные, так и отрицательные. Затем проведено определение значимости этих коэффициентов. Также получены различные значения, как и значимые значения, так и значения, соответствующие гипотезе о нулевом коэффициенте. Все считала в Excel. В итоге, много вопросов: 1. Правильный ли у меня алгоритм действий? 2. Если да, то что интерпретировать: сам коэффициент или его значимость? 3. Правильно ли использовать Excel или другая программа лучше для этих целей. Заранее прошу прощения за возможную некомпетентность. Здравствуйте! В прошлом году мы с коллегами проводили для стоматологов стат. анализ по аналогичным массивам. И в беседе с исследователями узнали, что в таких исследованиях всегда учитывается наличие различных групп наблюдений. Например, пол пациентов, анамнез, группа зубов или их расположение, и т.п. Поэтому в таких ситуациях следует использовать не только анализ парных взаимосвязей, но и методы многомерного стат. анализа. Это могут быть разные методы, но наиболее эффективно для подобных массивов использовать логистическую регрессию. Описание метода и примеры см. в серии 9 статей (http://www.biometrica.tomsk.ru/logit_1.htm -- http://www.biometrica.tomsk.ru/logit_9.htm)

nokh Просмотр профиля	2.03.2017 - 21:35 Сообщение #8
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(leo_biostat @ 2.03.2017 - 22:09) Здравствуйте! В прошлом году мы с коллегами проводили для стоматологов стат. анализ по аналогичным массивам. И в беседе с исследователями узнали, что в таких исследованиях всегда учитывается наличие различных групп наблюдений. Например, пол пациентов, анамнез, группа зубов или их расположение, и т.п. Поэтому в таких ситуациях следует использовать не только анализ парных взаимосвязей, но и методы многомерного стат. анализа. Это могут быть разные методы, но наиболее эффективно для подобных массивов использовать логистическую регрессию. Описание метода и примеры см. в серии 9 статей (http://www.biometrica.tomsk.ru/logit_1.htm -- http://www.biometrica.tomsk.ru/logit_9.htm) Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много.

SurgeonAnastasia Просмотр профиля	2.03.2017 - 22:40 Сообщение #9
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Да, у меня были мысли относительно логистической регрессии, но после изучения форума и примеров, где ее использовали, я поняла, что это не совсем в моем случае подходит, хотя, да, в других исследованиях у нас часто идёт деление по таким признакам. Цель моего исследования, найти связь между психологией и стоматологией, интерпретировать ее, если она выявится. Это вообще,в целом, история интересная, но не простая, так как меня преследует чувство того, что где-то закрадывается ошибка. Спасибо за ответы, они направляют меня дальше на углубление изучения анализа, хочу во всем сама разобраться, так сказать, от и до во всей дессертации.

p2004r Просмотр профиля	3.03.2017 - 11:42 Сообщение #10
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 2.03.2017 - 21:35) Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много. Цитата Необходимо было провести корреляционный анализ. Безусловно логистическая регрессия меньше всего сюда подойдет. Но вот так вот "просто смотреть" на матрицу К.К. (причем даже не строя частных К.К.) как то тоже "не совсем продуктивно". Даже всего для 8 показателей топикстартера задача восстановить возможную картину причинно-следственных связей (или хотябы наложить ограничения на возможные причинно-следственные связи) окажется весьма трудной задачей. Лучше всего для такой задачи топик стартера подойдет построение байесовской сети http://www.bnlearn.com/ . Посмотрев на предлагаемое решение можно потом "без явных глупостей в суждениях" описать полученный набор К.К. PS набор данных как я понимаю небольшой, его можно сюда загрузить? http://r-statistics.livejournal.com/

leo_biostat Просмотр профиля	3.03.2017 - 16:43 Сообщение #11
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953	Цитата(nokh @ 2.03.2017 - 21:35) Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много. Это вопрос, кто кого вводит в заблуждение. Напомню, в своём обращении автор спрашивает: "*Правильный ли у меня алгоритм действий?*" То есть правильно ли ограничиваться лишь одной парной корреляцией, или же следует использовать что-то другое? Исходя из собственного более 35-летнего опыта статистического анализа как биомед. данных, так и иных спец. данных (объёмами более миллиона наблюдений и более тысячи признаков), утверждаю, что ограничение изучением лишь одних парных взаимосвязей, при игнорировании разных многомерных методов анализа, это просто исследовательская ошибка. Опытные врачи, при лечении своих пациентов, не просто фиксируют числовые значения результатов разных видов анализа, а обобщают их в разные последовательности значений. Т.е. фактически формируют многомерную модель состояния пациента. Отвержение сложных методов анализа может быть ещё и результатом отсутствия собственного опыта в использовании таких методов. В таких ситуациях лучше интересоваться аргументацией использования предлагаемых сложных методов.

100$ Просмотр профиля	3.03.2017 - 23:30 Сообщение #12
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(leo_biostat @ 3.03.2017 - 16:43) Это вопрос, кто кого вводит в заблуждение. Напомню, в своём обращении автор спрашивает: "*Правильный ли у меня алгоритм действий?*" То есть правильно ли ограничиваться лишь одной парной корреляцией, или же следует использовать что-то другое? Исходя из собственного более 35-летнего опыта статистического анализа как биомед. данных, так и иных спец. данных (объёмами более миллиона наблюдений и более тысячи признаков), утверждаю, что ограничение изучением лишь одних парных взаимосвязей, при игнорировании разных многомерных методов анализа, это просто исследовательская ошибка. Опытные врачи, при лечении своих пациентов, не просто фиксируют числовые значения результатов разных видов анализа, а обобщают их в разные последовательности значений. Т.е. фактически формируют многомерную модель состояния пациента. Отвержение сложных методов анализа может быть ещё и результатом отсутствия собственного опыта в использовании таких методов. В таких ситуациях лучше интересоваться аргументацией использования предлагаемых сложных методов. /Уважительно/ Лео, а будучи спрошенным "Сколько будет дважды два", вы ответите "Четыре" или разразитесь лекцией по Дедекиндовым сечениям?

DoctorStat Просмотр профиля	4.03.2017 - 13:38 Сообщение #13
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	У меня такое ощущение, что парные корреляции могут быть незначимы, а сложная многомерная зависимость имеет место быть. В продолжение этой догадки: не лучше ли начать с многомерных методов анализа, постепенно уменьшая размерность признаков до минимального (парного) значения ? Просто включи мозги => http://doctorstat.narod.ru

leo_biostat

4.03.2017 - 14:08

Сообщение #14

Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953

Цитата(100$ @ 4.03.2017 - 00:30)

/Уважительно/
Лео, а будучи спрошенным "Сколько будет дважды два", вы ответите "Четыре" или разразитесь лекцией по Дедекиндовым сечениям?

100 Баксов! Ваш вопрос - "узкая щель" :-)) Ответ всегда зависит от нюансов предыдущего общения.
Т.е. о каком исчислении до вопроса беседовал вопрошающий, и т.д.
О Дедекиндовом сечении. Помню, когда был студентом, то лектор объяснял нам это понятие.
Но когда сам читал в универе лекции по статистике, то не загружал студентов этим понятием.
Ведь в статистике очень много иных не менее сложных терминов и понятий. Уверен, что и самим медикам, участникам этого форума, этот термин не будет интересным. Им надо больше рассказывать о полезных терминах, методах, и убеждать более глубоко использовать статистический анализ.
Увы, но сейчас истинное состояние в этом направлении весьма нелепое и непродуктивное. Это состояние уже понимают Минобрнауки и ВАК, и готовят новые требования к диссертациям и журналам. Недавно моя московская коллега прислала мне докторскую мед. диссертацию одного диссертанта из Омского гос. медунивера, с предложением разместить её в КУНСТКАМЕРЕ.
Диссертация просто позорная! Ниже привожу один из результатов поиска по этой диссертации:

Будет время, выложу эту диссертацию с комментариями в КУНСТКАМЕРУ.

Ответить с цитированием данного сообщения

SurgeonAnastasia Просмотр профиля	4.03.2017 - 17:17 Сообщение #15
Группа: Пользователи Сообщений: 14 Регистрация: 27.02.2017 Пользователь №: 29398	Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался. Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом. Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод?

« Предыдущая тема · Медицинская статистика · Следующая тема »