Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Корреляция, определение значимости коэффициента

Автор: SurgeonAnastasia 27.02.2017 - 01:42

Здравствуйте
Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ.
Анализ был проведён с использованием расчета коэффициентов Спирмена, биссериального коэффициентов. Коэффициенты получены как положительные, так и отрицательные. Затем проведено определение значимости этих коэффициентов. Также получены различные значения, как и значимые значения, так и значения, соответствующие гипотезе о нулевом коэффициенте.
Все считала в Excel.
В итоге, много вопросов:
1. Правильный ли у меня алгоритм действий?
2. Если да, то что интерпретировать: сам коэффициент или его значимость?
3. Правильно ли использовать Excel или другая программа лучше для этих целей.
Заранее прошу прощения за возможную некомпетентность.

Автор: nokh 27.02.2017 - 23:38

Цитата(SurgeonAnastasia @ 27.02.2017 - 03:42) *
1. Правильный ли у меня алгоритм действий?
2. Если да, то что интерпретировать: сам коэффициент или его значимость?
3. Правильно ли использовать Excel или другая программа лучше для этих целей.
Заранее прошу прощения за возможную некомпетентность.

1. Для двух ранговых - корреляция Спирмена, для рангового и дихотомического - рангово-бисериальная корреляция.

2. Если корреляция статистически незначима - интерпретировать нечего, только констатировать отсутствие связи. А вообще любая ассоциация характеризуется 3 мерами: (1) направлением связи, (2) силой связи и (3) статистической значимостью. Каждая несёт свою информацию.

3. Для освоения любого статистического метода лучший путь: (1) по формулам и таблицам из книг на калькуляторе, (2) электронные таблицы, (3) статистические пакеты, (4) специализированные статистические пакеты или библиотеки. Раз вы сумели всё посчитать в Exсel'е, значит достаточно полно разобрались в методах "изнутри", это очень полезно. Но беда в том, что при программировании расчётов в электронных таблицах возможны ошибки - как мы узнаем, что вы считали по верным формулам, не напутали с ячейками и т.д.? Никак! Ещё хуже если человек считал по формулам, умножал столбиком, интерполировал р-значение по Лагранжу и т.д. - ошибки почти неизбежны. Поэтому для отчёта по исследованию лучше всё наоборот: от (4) до (1). Использование исследователем проверенного статистического софта - гарантия того, что он не накосячит с расчётами. С этой точки зрения Excel - плохо. К тому же, по сложившейся в нашей стране печальной практике, если в статье/диссертации написано: "все расчёты выполнены стандартными методами вариационной статистики в пакете MS Excel", значит автор - дебил и либо вообще ничего не считал, либо нажимал на какие-то кнопки в пиратском софте, либо ему кто-то считал, а в чём - он забыл или не спросил, либо какие-то иные проявления скудоумия.

Поэтому найдите пакет или онлайновый калькулятор, который посчитает что вам нужно, укажите их в работе с номером версии для пакета и датой обращения для онлайнового калькулятора. Сейчас всего этого - полно. Заодно проверите, насколько правильны были ваши расчёты.

Автор: SurgeonAnastasia 28.02.2017 - 09:45

Nokh, спасибо за развёрнутый ответ!
Я скачаю Stsistica и проведу эти исследования ещё и в этой программе. Но меня смущает ощущение, что-то я могла не так сделать, слишком просто получается все. Изучив другие темы форума, мне показалось, что я что-то упускаю.
Ещё хотела бы уточнить по поводу оценки значимости коэффициента: у меня один коэффициент был равен -0,12, t набл при этом больше t крит( по таблице Стьюдента). Я читала в книге, что это частая история, когда кажется будто коэффициент стремится к нулю, поэтому надо считать t набл и сравнивать его с критическим. Вопрос: правильно ли я размышляю и значит ли, что я трактую это, как наличие слабой отрицательной связи( опять же по таблице Стьюдента)?

Автор: SurgeonAnastasia 28.02.2017 - 09:49

Прошу прощения, последнее смотрела не по Стьюденту, конечно.

Автор: nokh 1.03.2017 - 09:09

Вы собираетесь скачать нелицензированную программу, в которой к тому же нет рангово-бисериальной корреляции. Лучше посчитайте в онлайновом пакете http://vassarstats.net/ (раздел Correlation & Regression)

Автор: SurgeonAnastasia 1.03.2017 - 19:37

Спасибо большое за помощь!

Автор: leo_biostat 2.03.2017 - 20:09

Цитата(SurgeonAnastasia @ 27.02.2017 - 01:42) *
Здравствуйте
Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ.
Анализ был проведён с использованием расчета коэффициентов Спирмена, биссериального коэффициентов. Коэффициенты получены как положительные, так и отрицательные. Затем проведено определение значимости этих коэффициентов. Также получены различные значения, как и значимые значения, так и значения, соответствующие гипотезе о нулевом коэффициенте.
Все считала в Excel.
В итоге, много вопросов:
1. Правильный ли у меня алгоритм действий?
2. Если да, то что интерпретировать: сам коэффициент или его значимость?
3. Правильно ли использовать Excel или другая программа лучше для этих целей.
Заранее прошу прощения за возможную некомпетентность.



Здравствуйте!

В прошлом году мы с коллегами проводили для стоматологов стат. анализ по аналогичным массивам. И в беседе с исследователями узнали, что в таких исследованиях всегда учитывается наличие различных групп наблюдений. Например, пол пациентов, анамнез, группа зубов или их расположение, и т.п. Поэтому в таких ситуациях следует использовать не только анализ парных взаимосвязей, но и методы многомерного стат. анализа. Это могут быть разные методы, но наиболее эффективно для подобных массивов использовать логистическую регрессию. Описание метода и примеры см. в серии 9 статей (http://www.biometrica.tomsk.ru/logit_1.htm -- http://www.biometrica.tomsk.ru/logit_9.htm)


Автор: nokh 2.03.2017 - 21:35

Цитата(leo_biostat @ 2.03.2017 - 22:09) *
Здравствуйте!

В прошлом году мы с коллегами проводили для стоматологов стат. анализ по аналогичным массивам. И в беседе с исследователями узнали, что в таких исследованиях всегда учитывается наличие различных групп наблюдений. Например, пол пациентов, анамнез, группа зубов или их расположение, и т.п. Поэтому в таких ситуациях следует использовать не только анализ парных взаимосвязей, но и методы многомерного стат. анализа. Это могут быть разные методы, но наиболее эффективно для подобных массивов использовать логистическую регрессию. Описание метода и примеры см. в серии 9 статей (http://www.biometrica.tomsk.ru/logit_1.htm -- http://www.biometrica.tomsk.ru/logit_9.htm)

Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много.

Автор: SurgeonAnastasia 2.03.2017 - 22:40

Да, у меня были мысли относительно логистической регрессии, но после изучения форума и примеров, где ее использовали, я поняла, что это не совсем в моем случае подходит, хотя, да, в других исследованиях у нас часто идёт деление по таким признакам.
Цель моего исследования, найти связь между психологией и стоматологией, интерпретировать ее, если она выявится.
Это вообще,в целом, история интересная, но не простая, так как меня преследует чувство того, что где-то закрадывается ошибка.
Спасибо за ответы, они направляют меня дальше на углубление изучения анализа, хочу во всем сама разобраться, так сказать, от и до во всей дессертации.

Автор: p2004r 3.03.2017 - 11:42

Цитата(nokh @ 2.03.2017 - 21:35) *
Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много.


Цитата
Необходимо было провести корреляционный анализ.


Безусловно логистическая регрессия меньше всего сюда подойдет.

Но вот так вот "просто смотреть" на матрицу К.К. (причем даже не строя частных К.К.) как то тоже "не совсем продуктивно". Даже всего для 8 показателей топикстартера задача восстановить возможную картину причинно-следственных связей (или хотябы наложить ограничения на возможные причинно-следственные связи) окажется весьма трудной задачей.

Лучше всего для такой задачи топик стартера подойдет построение байесовской сети http://www.bnlearn.com/ . Посмотрев на предлагаемое решение можно потом "без явных глупостей в суждениях" описать полученный набор К.К.

PS набор данных как я понимаю небольшой, его можно сюда загрузить?

Автор: leo_biostat 3.03.2017 - 16:43

Цитата(nokh @ 2.03.2017 - 21:35) *
Вы вводите топикстартера в заблуждение неуместными комментариями. Его интересовали конкретно 2 корреляции: ранговая Спирмена и точечно-бисериальная. Информацию по ним он получил, фронт работ есть. Для поиска связи ему не следует использовать регрессию , которая используется для поиска зависимостей, и это независимо от того, что вы считали стоматологам. Рекомендую прочитать что-нибудь по различию задач поиска связи от задач поиска зависимостей - хорошей литературы в вашей библиотеке много.


Это вопрос, кто кого вводит в заблуждение. Напомню, в своём обращении автор спрашивает: "Правильный ли у меня алгоритм действий?" То есть правильно ли ограничиваться лишь одной парной корреляцией, или же следует использовать что-то другое?
Исходя из собственного более 35-летнего опыта статистического анализа как биомед. данных, так и иных спец. данных (объёмами более миллиона наблюдений и более тысячи признаков), утверждаю, что ограничение изучением лишь одних парных взаимосвязей, при игнорировании разных многомерных методов анализа, это просто исследовательская ошибка. Опытные врачи, при лечении своих пациентов, не просто фиксируют числовые значения результатов разных видов анализа, а обобщают их в разные последовательности значений. Т.е. фактически формируют многомерную модель состояния пациента. Отвержение сложных методов анализа может быть ещё и результатом отсутствия собственного опыта в использовании таких методов. В таких ситуациях лучше интересоваться аргументацией использования предлагаемых сложных методов.

Автор: 100$ 3.03.2017 - 23:30

Цитата(leo_biostat @ 3.03.2017 - 16:43) *
Это вопрос, кто кого вводит в заблуждение. Напомню, в своём обращении автор спрашивает: "Правильный ли у меня алгоритм действий?" То есть правильно ли ограничиваться лишь одной парной корреляцией, или же следует использовать что-то другое?
Исходя из собственного более 35-летнего опыта статистического анализа как биомед. данных, так и иных спец. данных (объёмами более миллиона наблюдений и более тысячи признаков), утверждаю, что ограничение изучением лишь одних парных взаимосвязей, при игнорировании разных многомерных методов анализа, это просто исследовательская ошибка. Опытные врачи, при лечении своих пациентов, не просто фиксируют числовые значения результатов разных видов анализа, а обобщают их в разные последовательности значений. Т.е. фактически формируют многомерную модель состояния пациента. Отвержение сложных методов анализа может быть ещё и результатом отсутствия собственного опыта в использовании таких методов. В таких ситуациях лучше интересоваться аргументацией использования предлагаемых сложных методов.


/Уважительно/

Лео, а будучи спрошенным "Сколько будет дважды два", вы ответите "Четыре" или разразитесь лекцией по Дедекиндовым сечениям?

Автор: DoctorStat 4.03.2017 - 13:38

У меня такое ощущение, что парные корреляции могут быть незначимы, а сложная многомерная зависимость имеет место быть. В продолжение этой догадки: не лучше ли начать с многомерных методов анализа, постепенно уменьшая размерность признаков до минимального (парного) значения ?

Автор: leo_biostat 4.03.2017 - 14:08

Цитата(100$ @ 4.03.2017 - 00:30) *
/Уважительно/
Лео, а будучи спрошенным "Сколько будет дважды два", вы ответите "Четыре" или разразитесь лекцией по Дедекиндовым сечениям?

100 Баксов! Ваш вопрос - "узкая щель" :-)) Ответ всегда зависит от нюансов предыдущего общения.
Т.е. о каком исчислении до вопроса беседовал вопрошающий, и т.д.
О Дедекиндовом сечении. Помню, когда был студентом, то лектор объяснял нам это понятие.
Но когда сам читал в универе лекции по статистике, то не загружал студентов этим понятием.
Ведь в статистике очень много иных не менее сложных терминов и понятий. Уверен, что и самим медикам, участникам этого форума, этот термин не будет интересным. Им надо больше рассказывать о полезных терминах, методах, и убеждать более глубоко использовать статистический анализ.
Увы, но сейчас истинное состояние в этом направлении весьма нелепое и непродуктивное. Это состояние уже понимают Минобрнауки и ВАК, и готовят новые требования к диссертациям и журналам. Недавно моя московская коллега прислала мне докторскую мед. диссертацию одного диссертанта из Омского гос. медунивера, с предложением разместить её в КУНСТКАМЕРЕ.
Диссертация просто позорная! Ниже привожу один из результатов поиска по этой диссертации:

Будет время, выложу эту диссертацию с комментариями в КУНСТКАМЕРУ.

Автор: SurgeonAnastasia 4.03.2017 - 17:17

Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался.
Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом.
Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод?

Автор: passant 4.03.2017 - 18:07

Ой, как запугали запутали человека smile.gif Еще немного, и он поймет, что без применения методов Факторизации Ферма и использования интегралов Лебега в банаховых пространствах дальнейшие исследования в стоматологии бессмысленны и в корне неверны. wink.gif
Смотрите. Ваша начальное сообщение содержит неверный посыл:
"Проведено исследование, связанное с изучением стоматологических и психологических параметров, по 4 параметра в каждом разделе. Психологические параметры выражались в дихотомической шкале и ранговой. Стоматологические - в ранговой. Необходимо было провести корреляционный анализ."
Неверно! Проведение кор.анализа не является целью (даже если так это Вам сформулировал Ваш научный руководитель)! Это лишь одно из средств (методов) проведения исследования, т.е. достижения какой-то цели. Вот когда Вы четко и однозначно сформулируете цель, тогда и метод станет понятен.
А пока - каждый домысливает Ваши цели за Вас и исходя из этих "домыслов" и собственных знаний (а во-многом - предпочтений) рекомендует тот или иной путь. Правда, не ясно, а Вам туда или в другую сторону. rolleyes.gif
Если очень грубо - хотите просто выяснить, как одни из измеряемых Вами факторов связаны с другими - ну так да, корреляционный анализ "в зубы" и вперед. Ну, может, с разновидностями - парный, множественные и т.д. И этого будет достаточно для достижения поставленной цели. Если же поставить другую цель, например, решать задачи предсказания одних показателей по значениям других (включая диагностику в широком, математическом смысле) - тогда беремся за регрессию, в той ее разновидности, которая определяется в основном шкалами измерений Ваших данных. Вот тут ее десяток видов насчитали (http://datareview.info/article/10-tipov-regressii-kakoy-vyibrat/) и это не совсем полный список. А еще есть методы классификации(их тоже несколько десятков разных имеется) , которые по-сути тоже относятся сюда-же .
Так что только от Вас зависит следующий ход - корректное формулирование цели. И уж потом, коллеги, надеюсь, объединяться и вместо того, что-бы спорить между собой, предложат вам метод ее достижения.
Вот как-то так.

Автор: SurgeonAnastasia 5.03.2017 - 14:19

Уважаемый passant, спасибо, Вы меня успокоили и весьма понятно объяснили все.
Изначально, вы правы, стояла цель найти связующее звено между психологией и стоматологией. Она найдена. Но это слишком просто теперь мне кажется. Вы чётко предположили относительно цели влияния признака одного на другой. Теперь я ставлю цель определить то, как влияют виды мотиваций и локус контроля на признаки, характеризующие состоятельность имплантатов, то есть, результат лечения и удовлетворенность пациентов, что, в принципе, тоже относится к оценке результата лечения.
Я так понимаю, что нужно использовать различные виды регрессии:
1. Логичная для двух бинарных признаков (у меня это удовлетворённость и локус контроля)
2. Байесовская для ранговых признаков
3. ??? И вопрос, какую использовать, где один признак ранговый, второй-дихотомический. Логистическую? (раньше я так думала)

Автор: p2004r 6.03.2017 - 12:46

Цитата(SurgeonAnastasia @ 4.03.2017 - 17:17) *
Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался.
Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом.
Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод?


Ну так присоедините таблицу с данными, там всего то ничего их (8 "колонок").

Автор: leo_biostat 6.03.2017 - 17:53

Цитата(SurgeonAnastasia @ 4.03.2017 - 17:17) *
Я согласна с тем, что, наверное, необходимо более серьезное статистическое исследование, именно поэтому я и обратилась за помощью, чувствуя, что определения КК может быть недостаточно. Но конкретно в моем исследовании нет разделения пациентов на группы, есть группа пациентов с определенным диагнозом, одинаковым, безусловно, есть отличия в оперативных вмешательствах, но в задачах исследования данный параметр не учитывался.
Подробно: исследуется мотивационная сфера пациентов и показатели уровня гигиены, уровня костной ткани и мягких тканей, удовлетворенность от проведённого лечения. В психологии 4 параметра и стоматологии тоже их 4. Пациенты все с диагнозом частичное отсутствие зубов в эстетически значимой зоне, всем проведена установка дентальных имплантатов. Я понимаю, что можно разделить на группы: м и ж, возраст, количество имплантатов установленных, по типу имплантатов, по типу ортопедической конструкции, были или не были операции по восстановлению утраченных объемов кости и мягких тканей, длительность лечения и так до бесконечности. Я готова усложнять анализ, могу разделить на группы, допустим, по количеству установленных имплантатов... в итоге, что выбрать,какой метод. Я сейчас пользуюсь он-Лайн калькулятором,чтобы посчитать КК и сравнить с предыдущим моим подсчетом.
Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод?


Реально, практически во всех исследованиях, всегда существуют скрытые группировки. Их, эти группировки, надо выявить с помощью кластерного анализа. Причём используя разные методы кластеризации. При кластеризации пациентов всегда устанавливаются группы с хорошим состоянием здоровья, и с плохим. Однако кроме двух этих групп (кластеров) всегда устанавливается и большее количество групп. Т.е. и 3, и 4, и т.д. Вот эти группировки, наличие которых объясняется комбинациями используемых признаков, надо далее сравнивать. В частности, сравнивать как параметры распределений по всем признакам, и корреляции в отдельных группах (как минимум двумя разными коэффициентами корреляции), так и делать сравнение многомерными методами (логистическая регрессия и дискриминантный анализ). Это позволит установить, какие конкретно признаки доминируют в формировании установленных группировок. В результате этого подхода как раз и можно проранжировать (упорядочить) используемые признаки по их интенсивности изменения.
Относительно наличия М и Ж. Продуктивно упомянутый выше набор методов анализа сделать как для всех пациентов (М+Ж), так и раздельно для М и для Ж.

Почему я предлагаю достаточно немалый набор разных методов анализа? Потому, что очень часто помимо достаточно простых первых сформулированных задач, на основе полученных результатов формулируются и иные, более продуктивные задачи. Главная их цель - это поиск скрытых группировок пациентов, их различия, и ранжирование признаков различия. А также выявление тех признаков, которыми можно управлять состоянием здоровья пациентов.

Желаю успешных исследований!



Автор: SurgeonAnastasia 7.03.2017 - 10:27

Цитата(p2004r @ 6.03.2017 - 12:46) *
Ну так присоедините таблицу с данными, там всего то ничего их (8 "колонок").

Да,присоединю,спасибо!

Автор: p2004r 7.03.2017 - 13:06

Цитата(SurgeonAnastasia @ 7.03.2017 - 10:27) *
Да,присоединю,спасибо!


Ok, буду ждать.

Автор: SurgeonAnastasia 8.03.2017 - 01:28

Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать...
Присоединяю теблицы: в первой значения психологии, во второй-стоматологии.
Пойду считать и читать дальше...

 табл_пс.xlsx ( 9,14 килобайт ) : 218
 табл_стом.xlsx ( 9,09 килобайт ) : 211
 

Автор: p2004r 8.03.2017 - 11:25

Цитата(SurgeonAnastasia @ 8.03.2017 - 01:28) *
Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать...
Присоединяю теблицы: в первой значения психологии, во второй-стоматологии.
Пойду считать и читать дальше...


То что файла два, но в них по 46 наблюдений, означает что в одинаковых строках таблицы один и тот же наблюдаемый?

Автор: SurgeonAnastasia 8.03.2017 - 12:03

Да!

Автор: p2004r 8.03.2017 - 12:45

Цитата(SurgeonAnastasia @ 8.03.2017 - 12:03) *
Да!


Ok! Тогда типы переменных в датасете вот так выглядят

Код
> str(data)
'data.frame':    46 obs. of  8 variables:
$ лк : Factor w/ 2 levels "0","1": 1 1 1 1 1 2 1 2 1 1 ...
$ ш  : Ord.factor w/ 3 levels "1"<"2"<"3": 2 1 2 2 1 1 2 1 1 1 ...
$ э.н: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 3 3 3 3 3 2 ...
$ э.у: Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 1 2 3 3 3 2 3 2 ...
$ иг : Ord.factor w/ 3 levels "1"<"2"<"3": 3 3 3 1 2 2 1 3 3 2 ...
$ уд : Factor w/ 2 levels "0","1": 2 2 2 2 1 2 2 2 2 2 ...
$ м.т: num  0.3 0 0 0 0 0.3 0 0 0 0 ...
$ к.т: num  0 0 0 0.3 0.3 0.5 0 0 0 0.3 ...

Автор: p2004r 8.03.2017 - 14:00

1. Поиск оптимальной структуры сети связей объясняющей данные наилучшим непротиворечивым методом.

Методы основанные на поиске максимума критерия оптимальности сети показывают упорно в сторону отсутствия связи между обоими наборами показателей (при учете их внутренней структуры).

Код
> print(hc(data, optimized = F, debug = F))

  Bayesian network learned via Score-based methods

  model:
   [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т]
  nodes:                                 8
  arcs:                                  4
    undirected arcs:                     0
    directed arcs:                       4
  average markov blanket size:           1.25
  average neighbourhood size:            1.00
  average branching factor:              0.50

  learning algorithm:                    Hill-Climbing
  score:                                 BIC (cond. Gauss.)
  penalization coefficient:              1.914321
  tests used in the learning procedure:  280
  optimized:                             FALSE

> AIC(hc(data, optimized = F, debug = F), data)
[1] -132.8683

> print(tabu(data, optimized = F, debug = F))

  Bayesian network learned via Score-based methods

  model:
   [лк][ш][э.н][иг][уд][э.у|лк][м.т|уд][к.т|иг:м.т]
  nodes:                                 8
  arcs:                                  4
    undirected arcs:                     0
    directed arcs:                       4
  average markov blanket size:           1.25
  average neighbourhood size:            1.00
  average branching factor:              0.50

  learning algorithm:                    Tabu Search
  score:                                 BIC (cond. Gauss.)
  penalization coefficient:              1.914321
  tests used in the learning procedure:  1008
  optimized:                             FALSE

> AIC(tabu(data, optimized = F, debug = F), data)
[1] -132.8683


Сеть связей предлагается одинаковая.

Большинство методов основанных на анализе "непротиворечивоти" двухсторонних связей подтверждают наличие связи л.к -- э.у (как обычно не определяя сразу направленность, это нужно делать оценивая изменение суммы критерия сети в целом при помощи choose.direction() ) ну и изредка других связей найденными алгоритмами поиска по критерию оценки сети в целом.

Однако, Max-Min Parents and Children (MMPC) находит интересующую связь между двумя группами переменных.

Цитата
Tsamardinos I, Aliferis CF, Statnikov A (2003). "Time and Sample Efficient Discovery of Markov Blankets and Direct Causal Relations". In "KDD '03: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining", pp. 673-678. ACM.

Tsamardinos I, Brown LE, Aliferis CF (2006). "The Max-Min Hill-Climbing Bayesian Network Structure Learning Algorithm". Machine Learning, 65(1), 31-78.


Код
> print(mmpc(data, optimized = F, debug = F))

  Bayesian network learned via Constraint-based methods

  model:
    [undirected graph]
  nodes:                                 8
  arcs:                                  3
    undirected arcs:                     3
    directed arcs:                       0
  average markov blanket size:           0.75
  average neighbourhood size:            0.75
  average branching factor:              0.00

  learning algorithm:                    Max-Min Parent Children
  conditional independence test:         Mutual Information (cond. Gauss.)
  alpha threshold:                       0.05
  tests used in the learning procedure:  74
  optimized:                             FALSE

> plot(mmpc(data, optimized = F, debug = F), main = "Max-Min Parent Children")



Но такая картина, если тыкать в связи бутстреп тестами, не очень то подтверждается.


 

Автор: SurgeonAnastasia 8.03.2017 - 14:16

Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй?
Регрессия показывает, что есть... может, не то анализирую...
Для моего исследования нужно установить именно наличие или отсутствие связи и влияния

Автор: p2004r 8.03.2017 - 14:23

Если рассматривать "нужный вариант" (который подчеркну маловероятен), то структура связей вот такая.

Код
> bn.fit(res.mmpc, data)

  Bayesian network parameters

  Parameters of node лк (multinomial distribution)

Conditional probability table:
         0         1
0.6086957 0.3913043

  Parameters of node ш (ordinal distribution)

Conditional probability table:
         1         2         3
0.4782609 0.3695652 0.1521739

  Parameters of node э.н (ordinal distribution)

Conditional probability table:
          1          2          3
0.06521739 0.36956522 0.56521739

  Parameters of node э.у (ordinal distribution)

Conditional probability table:

   лк
э.у          0          1
  1 0.03571429 0.00000000
  2 0.21428571 0.61111111
  3 0.75000000 0.38888889

  Parameters of node иг (ordinal distribution)

Conditional probability table:
         1         2         3
0.1956522 0.4565217 0.3478261

  Parameters of node уд (multinomial distribution)

Conditional probability table:
         0         1
0.1086957 0.8913043

  Parameters of node м.т (conditional Gaussian distribution)

Conditional density: м.т | ш
Coefficients:
                      0           1           2
(Intercept)  0.04090909  0.01764706  0.00000000
Standard deviation of the residuals:
         0           1           2  
0.10537503  0.07276069  0.00000000  
Discrete parents' configurations:
   ш
0  1
1  2
2  3

  Parameters of node к.т (conditional Gaussian distribution)

Conditional density: к.т | э.н
Coefficients:
                      0           1           2
(Intercept)  0.20000000  0.03529412  0.05000000
Standard deviation of the residuals:
         0           1           2  
0.17320508  0.09963167  0.14491377  
Discrete parents' configurations:
   э.н
0    1
1    2
2    3

>


 

Автор: p2004r 8.03.2017 - 14:30

Цитата(SurgeonAnastasia @ 8.03.2017 - 14:16) *
Вспасибо за столь обширно проделанную работу. Я попыталась разобраться и мне показалось, что сравнивались все данные? Если да, то показатели между собой а рамках каждой таблицы, в принципе, должны быть связаны, уж показатели лк ш эн и эу точно, так как это психологические характеристики, которые между собой взаимосвязаны, в этом смысл данных психологических тестов. А вот есть ли связь, допустим, конкретно: лк и иг,ок и уд, лк мт,дк и кт и тп, именно интересует влияние показателей первой таблицы на показатели второй?
Регрессия показывает, что есть... может, не то анализирую...
Для моего исследования нужно установить именно наличие или отсутствие связи и влияния



Тут проблема "попарных сравнений" заключается в том, что во время каждого попарной оценки связи мы перетягиваем многомерное "одеяло дисперсии" в нужную нам сейчас проекцию. То есть в этом тесте "накрываем ноги, голова мерзнет", во втором тесте "нарываем голову, мерзнут ноги".

Данный анализ проводит сотни и тысячи тестов для _всех_ вариантов структуры связей (я специально отключил оптимизацию отсечения дублирующихся логически вариантов), и "одеяло дисперсии" натянуть одновременно на ноги и голову просто невозможно. Наличие одной связи сразу учитывается при проверке остальных.

Похожую проблему решает "частная корреляция". Что было бы со связью двух переменных, если бы остальные переменные в выборке были бы равны своим средним значениям.

ps безусловно если просто смотреть на максимальное правдоподобие (а не на информационные критерии), то связей просто миллион smile.gif (картинка ниже, нумерик типы пришлось выкинуть)

Вот она же с силой связи

Код
strength.plot(res.tabu,  arc.strength(res.tabu, data[,1:6]))
   from  to     strength
1   э.у  иг -11.54438156
2   э.н  иг -11.56038466
3     ш  иг  -9.57683099
4    лк  иг  -8.61544484
5    уд  иг  -4.06065758
6    лк э.у  -5.80043755
7     ш э.н  -8.30008512
8    лк э.н  -4.83072724
9   э.у э.н  -4.55718834
10    ш  уд  -3.21507587
11    ш э.у  -3.02605670
12   уд э.у  -2.17698384
13   лк  уд  -0.70398346
14   уд э.н  -0.29182865
15   лк   ш  -0.08793641


 

Автор: DrgLena 8.03.2017 - 23:34

Цитата(SurgeonAnastasia @ 8.03.2017 - 01:28) *
Попробовала посчитать регрессию-при анализе R кв выявилось, что при слабой корреляции данный показатель показывет, что влияние одного признака на другой весьма существенно...что в итоге интерпретировать...

А какую регрессию вы считаете и, что у вас при этом зависимая переменная, и что предикторы?

Автор: SurgeonAnastasia 9.03.2017 - 11:12

Цитата(DrgLena @ 8.03.2017 - 23:34) *
А какую регрессию вы считаете и, что у вас при этом зависимая переменная, и что предикторы?

Линейную регрессию, предикторы-психологические показатели, ш эу эн лк, переменная- стоматологические иг уд мт кт

Автор: p2004r 9.03.2017 - 12:02

Цитата(SurgeonAnastasia @ 9.03.2017 - 11:12) *
Линейную регрессию, предикторы-психологические показатели, ш эу эн лк, переменная- стоматологические иг уд мт кт


Сама по себе регрессия не способна сказать что связь имеет место быть, поскольку способна _бесконечно_ переобучаться. В этом очень легко убедиться просто добавляя случайно сгенеренные переменные в модель, модель их с удовольствием примет и снизит ошибку подгонки модели к таким расширенным данным.

Для того что бы отвергнуть переменную из модели нужен критерий оптимальности модели в целом, это могут быть информационные критерии (AIC и т.п.). Может также использована специальная процедура рандомизации-бутстрепа с включением специально сконструированных предикторов-маркеров (library{Boruta} и другие алгоритмы "отбора значимых предикторов").

В принципе можно, раз именно регрессионным анализом хочется отбирать "значимые" связи, попробовать Boruta. Вечером сделаю для каждой из 8 переменных селекцию остальных показателй по значимости для модели случайного леса предсказывающей выбранную. Но это уже дает возможность проявления "эффекта короткого одеяла", поскольку мы будем подгонять 8 моделей, а не одну общую. (наверное если все данные упростить до набора бинарных "думми" предикторов, то можно будет сделать pls между наборами, но интерпретировать потом получившийся "винегрет" будет очень не просто).

Автор: DrgLena 9.03.2017 - 13:18

Виды мотивации и локус контроль не влияют на состоятельность имплантов. Трудно себе представить другой результат этого исследования, например, что локус контроль может влиять на состоятельность костной ткани.

Автор: SurgeonAnastasia 9.03.2017 - 14:31

Ну почему же не влияют? Работая каждый день с пациентами, устанавливая эти имплантаты, наблюдая за тем, как картина меняется в течение времени, наверное, не просто решили мы это исследование начать. Состоятельность костной ткани в области имплантатов зависит от множества фактров, но не для кого не секрет, что и локус контроля, и мотивация влияют на лечение, не я это придумала и изучала изначально в других сферах медицины.

Автор: SurgeonAnastasia 9.03.2017 - 14:34

Цитата(p2004r @ 9.03.2017 - 12:02) *
Сама по себе регрессия не способна сказать что связь имеет место быть, поскольку способна _бесконечно_ переобучаться. В этом очень легко убедиться просто добавляя случайно сгенеренные переменные в модель, модель их с удовольствием примет и снизит ошибку подгонки модели к таким расширенным данным.

Для того что бы отвергнуть переменную из модели нужен критерий оптимальности модели в целом, это могут быть информационные критерии (AIC и т.п.). Может также использована специальная процедура рандомизации-бутстрепа с включением специально сконструированных предикторов-маркеров (library{Boruta} и другие алгоритмы "отбора значимых предикторов").

В принципе можно, раз именно регрессионным анализом хочется отбирать "значимые" связи, попробовать Boruta. Вечером сделаю для каждой из 8 переменных селекцию остальных показателй по значимости для модели случайного леса предсказывающей выбранную. Но это уже дает возможность проявления "эффекта короткого одеяла", поскольку мы будем подгонять 8 моделей, а не одну общую. (наверное если все данные упростить до набора бинарных "думми" предикторов, то можно будет сделать pls между наборами, но интерпретировать потом получившийся "винегрет" будет очень не просто).

Уважаемый p2004r Вы проделали очень большую работу, спасибо Вам большое, разбираюсь пока в этом. Я так понимаю, мои подсчеты вообще неактуальны.

Автор: p2004r 9.03.2017 - 18:39

Цитата(SurgeonAnastasia @ 9.03.2017 - 14:34) *
Уважаемый p2004r Вы проделали очень большую работу, спасибо Вам большое, разбираюсь пока в этом. Я так понимаю, мои подсчеты вообще неактуальны.


Вот еще результат восьми процедур отбора значимых предикторов для каждой из переменных выборки.

p=0.01

Код
> Boruta(к.т~., data=data, maxRuns = 2600)
Boruta performed 2453 iterations in 51.44179 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, лк, м.т, уд, ш and 2 more.

> Boruta(м.т~., data=data, maxRuns = mega_shok.gif0)
Boruta performed 23 iterations in 0.4761589 secs.
1 attributes confirmed important: уд.
6 attributes confirmed unimportant: иг, к.т, лк, ш, э.н and 1 more.

> Boruta(уд~., data=data, maxRuns = 1800)
Boruta performed 70 iterations in 1.545961 secs.
1 attributes confirmed important: м.т.
6 attributes confirmed unimportant: иг, к.т, лк, ш, э.н and 1 more.

> Boruta(иг~., data=data, maxRuns = 1800)
Boruta performed 82 iterations in 2.246107 secs.
No attributes deemed important.
7 attributes confirmed unimportant: к.т, лк, м.т, уд, ш and 2 more.

> Boruta(э.н~., data=data, maxRuns = 1800)
Boruta performed 14 iterations in 0.370903 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, к.т, лк, м.т, уд and 2 more.

> Boruta(э.у~., data=data, maxRuns = 1800)
Boruta performed 75 iterations in 1.928164 secs.
1 attributes confirmed important: лк.
6 attributes confirmed unimportant: иг, к.т, м.т, уд, ш and 1 more.

> Boruta(ш~., data=data, maxRuns = 1800)
Boruta performed 26 iterations in 0.591598 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, к.т, лк, м.т, уд and 2 more

> Boruta(лк~., data=data, maxRuns = 1800)
Boruta performed 470 iterations in 11.84426 secs.
2 attributes confirmed important: к.т, э.у.
5 attributes confirmed unimportant: иг, м.т, уд, ш, э.н.


Код
> Boruta(к.т~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 1314 iterations in 26.98678 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, лк, м.т, уд, ш and 2 more.

> Boruta(м.т~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 53 iterations in 1.084951 secs.
1 attributes confirmed important: уд.
6 attributes confirmed unimportant: иг, к.т, лк, ш, э.н and 1 more.

> Boruta(уд~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 41 iterations in 0.8648179 secs.
1 attributes confirmed important: м.т.
6 attributes confirmed unimportant: иг, к.т, лк, ш, э.н and 1 more.

> Boruta(иг~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 851 iterations in 23.46029 secs.
No attributes deemed important.
7 attributes confirmed unimportant: к.т, лк, м.т, уд, ш and 2 more.

> Boruta(э.н~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 53 iterations in 1.339764 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, к.т, лк, м.т, уд and 2 more.

> Boruta(э.у~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 51 iterations in 1.270474 secs.
1 attributes confirmed important: лк.
6 attributes confirmed unimportant: иг, к.т, м.т, уд, ш and 1 more.

> Boruta(ш~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 11 iterations in 0.3183038 secs.
No attributes deemed important.
7 attributes confirmed unimportant: иг, к.т, лк, м.т, уд and 2 more.

> Boruta(лк~., data=data, maxRuns = 6000, pValue = 0.05)
Boruta performed 241 iterations in 5.959469 secs.
2 attributes confirmed important: к.т, э.у.
5 attributes confirmed unimportant: иг, м.т, уд, ш, э.н.


Как видно имеется одна связь между наборами которую выборка способна подтвердить -- "лк--к.т" . Зная состояние э.у и к.т можно более состоятельно предсказывать лк.

Код
> ranger(лк~., data=data, num.trees = 15500)
Ranger result

Call:
ranger(лк ~ ., data = data, num.trees = 15500)

Type:                             Classification
Number of trees:                  15500
Sample size:                      46
Number of independent variables:  7
Mtry:                             2
Target node size:                 1
Variable importance mode:         none
OOB prediction error:             43.48 %
> ranger(лк~., data=data[c("лк", "э.у", "к.т")], num.trees = 15500)
Ranger result

Call:
ranger(лк ~ ., data = data[c("лк", "э.у", "к.т")], num.trees = 15500)

Type:                             Classification
Number of trees:                  15500
Sample size:                      46
Number of independent variables:  2
Mtry:                             1
Target node size:                 1
Variable importance mode:         none
OOB prediction error:             26.09 %


Код
> randomForest(лк~., data=data[c("лк", "э.у", "к.т")], ntree = 15500)

Call:
randomForest(formula = лк ~ ., data = data[c("лк", "э.у",      "к.т")], ntree = 15500)
               Type of random forest: classification
                     Number of trees: 15500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 26.09%
Confusion matrix:
   0  1 class.error
0 23  5   0.1785714
1  7 11   0.3888889
> randomForest(лк~., data=data, ntree = 15500)

Call:
randomForest(formula = лк ~ ., data = data, ntree = 15500)
               Type of random forest: classification
                     Number of trees: 15500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 43.48%
Confusion matrix:
   0 1 class.error
0 19 9   0.3214286
1 11 7   0.6111111
>


По отдельности они хуже

Код
> randomForest(лк~., data=data[c("лк", "э.у")], ntree = 15500)

Call:
randomForest(formula = лк ~ ., data = data[c("лк", "э.у")],      ntree = 15500)
               Type of random forest: classification
                     Number of trees: 15500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 30.43%
Confusion matrix:
   0  1 class.error
0 21  7   0.2500000
1  7 11   0.3888889
> randomForest(лк~., data=data[c("лк",  "к.т")], ntree = 15500)

Call:
randomForest(formula = лк ~ ., data = data[c("лк", "к.т")],      ntree = 15500)
               Type of random forest: classification
                     Number of trees: 15500
No. of variables tried at each split: 1

        OOB estimate of  error rate: 34.78%
Confusion matrix:
   0 1 class.error
0 28 0   0.0000000
1 16 2   0.8888889


Как видим ошибка предсказания резко сокращается на отобранных Boruta значимых предикторах.

PS 6-7% дает точности дополнительной к.т

Автор: nokh 12.03.2017 - 06:09

Цитата(leo_biostat @ 3.03.2017 - 18:43) *
Это вопрос, кто кого вводит в заблуждение. Напомню, в своём обращении автор спрашивает: "Правильный ли у меня алгоритм действий?" То есть правильно ли ограничиваться лишь одной парной корреляцией, или же следует использовать что-то другое?
Исходя из собственного более 35-летнего опыта статистического анализа как биомед. данных, так и иных спец. данных (объёмами более миллиона наблюдений и более тысячи признаков), утверждаю, что ограничение изучением лишь одних парных взаимосвязей, при игнорировании разных многомерных методов анализа, это просто исследовательская ошибка. Опытные врачи, при лечении своих пациентов, не просто фиксируют числовые значения результатов разных видов анализа, а обобщают их в разные последовательности значений. Т.е. фактически формируют многомерную модель состояния пациента. Отвержение сложных методов анализа может быть ещё и результатом отсутствия собственного опыта в использовании таких методов. В таких ситуациях лучше интересоваться аргументацией использования предлагаемых сложных методов.

Если это - вопрос, то давайте на него ответим.

1. Терминология. Называть множественную логистическую регрессию методом многомерного статистического анализа не вполне корректно. В википедии, например, на это прямо указано и объяснено почему: "Certain types of problem involving multivariate data, for example simple linear regression and multiple regression, are not usually considered as special cases of multivariate statistics because the analysis is dealt with by considering the (univariate) conditional distribution of a single outcome variable given the other variables" ( https://en.wikipedia.org/wiki/Multivariate_statistics ). Справедливости ради нужно сказать, что в некоторой справочной литературе множественную регрессию относят к multivariate техникам. Тем не менее, раз здесь существуют кривотолки, таких безапелляционных формулировок лучше избегать.

2. О каких массивах идёт речь? Один массив - стоматологические показатели, второй - психологические. Причём указано, что интересует корреляция. Вот как раз для таких массивов существует такой истинно многомерный метод как каноническая корреляция, показывающая как один набор показателей связан с другим. Если допустить менее вероятную ситуацию, что и за первым, и за вторым массивами могут стоять общие латентные факторы, то тогда следует использовать многомерные техники типа нелинейного анализа главных компонент или многомерного шкалирования с мерами расстояний, подходящими для данных в разных шкалах. В любом случае это не регрессия и тем более - не логистическая.
Вообще, путаница или подмена задач поиска связей и задач поиска зависимостей - недопустима, поскольку это - фундаментально разные явления. Корреляция не подразумевает отношений по типу "причина-следствие" и все переменные анализируются как равнокачественные, тогда как в основу подавляющего большинства регрессионных техник положено деление переменных на 2 разнокачественных блока - независимые и зависимые переменные. Соответственно и статистически они анализируются по-разному. Не думал, что мне придётся писать это для вас.

3. Ну, предположим, топикстартер как новичок путает корреляцию с регрессией и неточно сформулировал цель. В действительности её интересуют как психологические параметры влияют на стоматологические. Можно было предположить и как стоматологические проблемы сказываются на психологии - повернём задачу в сторону регрессии. Но вы-то не новичок (типа "миллионы...", "тысячи...", бла-бла-бла...) и должны знать, что для таких массивов и задач существует многомерный вариант регрессии - анализ избыточности (Redundancy analysis, RDA), а если интересует именно прогноз - то метод частных наименьших квадратов (Partial least squares regression или projection on latent structures, PLS). Здесь, возможно, придётся повозиться с оцифровкой порядковых и дихотомических признаков, или использовать менее традиционные подходы - как p2004r-, но тем не менее это - никак не задача логистической регрессии с одной пременной-откликом. Что вы предлагаете: (1) выдернуть из одного массива дихотомический показатель и моделировать его логистической регрессией? (2) найти какой-нибудь один показатель, который сойдёт за отклик, дихотомизировать его искусственно (т.е. с потерей информации) и моделировать? Это такой правильный алгоритм действий вы советуете? Можно было-бы назвать это наивным, если бы не было более уместных, но и менее лестных определений.

Таким образом, имеем либо:
(1) заблуждение, конрастирующее с заявленным уровнем профессионализма, т.к. предлагаются просто неверные методы,
(2) сознательное передёргивание фактами и понятиями в угоду методам, которыми вы уводите участников на свой ресурс с целью получения выгоды,
(3) и то, и другое.
Будете вводить участников в заблуждение, придётся публично обосновывать свою точку зрения. Вместо грязноватого пиара это может обернуться репутационными потерями.

Автор: leo_biostat 12.03.2017 - 19:09

Цитата(SurgeonAnastasia @ 4.03.2017 - 17:17) *
Что выбрать дальше? Логистическую регрессию, байесовские сети или ещё какой метод?



Чтобы ответить на Ваш вопрос более конкретно и продуктивно, можете выслать на мой мэйл свой массив данных, с описанием цели исследования.
И я вышлю Вам список рекомендуемых методов анализа а их аргументацией.

Автор: 100$ 12.03.2017 - 20:28

Цитата(leo_biostat @ 12.03.2017 - 19:09) *
Чтобы ответить на Ваш вопрос более конкретно и продуктивно, можете выслать на мой мэйл свой массив данных, с описанием цели исследования.
И я вышлю Вам список рекомендуемых методов анализа а их аргументацией.



Надо же, какие шуры-муры с клиентурой. А что, то обстоятельство, что база данных выложена в сообщении #22, подразумевает ее дублирование на мэйл?

Автор: Олег Кравец 12.03.2017 - 21:30

[Moderator on]
PLS, постарайтесь не уходить к личностям
[Moderator off]

Лично меня раздражает постоянное утягивание одеяла, но зубки сжал и читаю дальше.

Автор: 100$ 12.03.2017 - 23:21

Цитата(Олег Кравец @ 12.03.2017 - 21:30) *
[Moderator on]
PLS, постарайтесь не уходить к личностям
[Moderator off]

Лично меня раздражает постоянное утягивание одеяла, но зубки сжал и читаю дальше.


В очередной раз польщенный высоким вниманием модератора в качестве ответной любезности бескорыстно сообщаю, что в "велик могучем русский языка" "переходят на" личности, но никак не "уходят к".

И да, берегите костную ткань. А то неизвестно, что на что влияет сильнее: то ли психология на стоматологию, то ли наоборот. Почитайте лучше опус проф. Орлова "О критерии Стьюдента и интеллектуальном рэкете". Удовольствия кратно больше, а зубовного скрежета соответственно меньше.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)