Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Взаимосвязь корреляционного и регрессионного анализа
Maria85
сообщение 23.08.2016 - 22:11
Сообщение #1





Группа: Пользователи
Сообщений: 4
Регистрация: 23.08.2016
Пользователь №: 28581



Уважаемые коллеги, никак не могу найти ответ на свой вопрос. Я изучаю влияние признаков на ухудшение прогноза заболевания. При проведении корреляционного анализа выявляется связь ухудшения заболевания с одним признаком, а при построении линейной регрессионной модели она отсутствует, зато появляется связь с другим признаком, с которым не было корреляции, построила рок-кривую для этого же признака довольные приличные значения площади под кривой. Возможно ли это? или же моя регрессионная модель неверно построена, хотя r квадрат показывает достоверность модели. Заранее спасибо за ответы, совсем отчаялась с этой регрессией уже...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 24.08.2016 - 08:46
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Maria85 @ 23.08.2016 - 22:11) *
Уважаемые коллеги, никак не могу найти ответ на свой вопрос. Я изучаю влияние признаков на ухудшение прогноза заболевания. При проведении корреляционного анализа выявляется связь ухудшения заболевания с одним признаком, а при построении линейной регрессионной модели она отсутствует, зато появляется связь с другим признаком, с которым не было корреляции, построила рок-кривую для этого же признака довольные приличные значения площади под кривой. Возможно ли это? или же моя регрессионная модель неверно построена, хотя r квадрат показывает достоверность модели. Заранее спасибо за ответы, совсем отчаялась с этой регрессией уже...

Из этого описания нельзя понять, что с чем коррелирует, и как вообще выполняется анализ.
Но то, что разные модели приводят к разным выводам - это нормально.
Ни корреляция, ни регрессионный анализ ничего не говорят о причинности. Два показателя, между которыми есть сильная и значимая корреляция, могут одновременно изменяться под влиянием третьего показателя.
R^2 не может показывать достоверность модели. Достоверность - это вероятность возникновения события, равная 1; достоверным может быть восход Солнца, но не статистическая модель. И значимость R^2 тоже не показывает.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Maria85
сообщение 24.08.2016 - 10:02
Сообщение #3





Группа: Пользователи
Сообщений: 4
Регистрация: 23.08.2016
Пользователь №: 28581



Цитата(ogurtsov @ 24.08.2016 - 08:46) *
Из этого описания нельзя понять, что с чем коррелирует, и как вообще выполняется анализ.
Но то, что разные модели приводят к разным выводам - это нормально.
Ни корреляция, ни регрессионный анализ ничего не говорят о причинности. Два показателя, между которыми есть сильная и значимая корреляция, могут одновременно изменяться под влиянием третьего показателя.
R^2 не может показывать достоверность модели. Достоверность - это вероятность возникновения события, равная 1; достоверным может быть восход Солнца, но не статистическая модель. И значимость R^2 тоже не показывает.



Спасибо большое за ваш ответ!! У меня есть группа пациентов с рассеянным склерозом, которых наблюдали в течении двух лет. Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии. С этой целью я и хочу провести регрессионный анализ. Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов. Но при проведении корреляционного анализа определяется корреляция между изменением баллов по шкале клинического состояния с одним фактором, а при проведении регрессии этих же данных с другим фактором, с которым не было корреляции. Я перевела данные шкалы в качественный признак, попробовала сделать логистическую регрессию, но результат такой же. Просто мне всегда казалось, что регрессионный анализ определяет сильнейшую из корреляций, поэтому показалось странным отсутствие корреляций с этим фактором. Еще такой момент, мои данные распределены ненормально, может мне нужно сделать их трансформацию для построения логистической модели? Про R квадрат поняла, больше не буду так говорить!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 24.08.2016 - 12:00
Сообщение #4





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Maria85 @ 24.08.2016 - 10:02) *
Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии.


Для этого в самом простом случае выборка делится на обучающую и тестовую, на обучающей строится модель и используется для предсказания на тестовой. Далее смотрим долю верных ответов и решаем, полезна ли такая модель.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.08.2016 - 12:37
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Maria85 @ 24.08.2016 - 10:02) *
Спасибо большое за ваш ответ!! У меня есть группа пациентов с рассеянным склерозом, которых наблюдали в течении двух лет. Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии. С этой целью я и хочу провести регрессионный анализ. Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов. Но при проведении корреляционного анализа определяется корреляция между изменением баллов по шкале клинического состояния с одним фактором, а при проведении регрессии этих же данных с другим фактором, с которым не было корреляции. Я перевела данные шкалы в качественный признак, попробовала сделать логистическую регрессию, но результат такой же. Просто мне всегда казалось, что регрессионный анализ определяет сильнейшую из корреляций, поэтому показалось странным отсутствие корреляций с этим фактором. Еще такой момент, мои данные распределены ненормально, может мне нужно сделать их трансформацию для построения логистической модели? Про R квадрат поняла, больше не буду так говорить!


В регрессию (и логистическую тоже) нельзя помещать коррелированные предикторы. Коэффициенты уравнения становятся численно неустойчивыми и не интерпретируемыми. (Для того что бы представить себе это --- просто поместите какой либо параметр в модель еще раз под другим именем).

Для построения сети зависимостей есть например Bayesian networks (http://www.bnlearn.com/).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.08.2016 - 12:42
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Maria85 @ 24.08.2016 - 10:02) *
Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов...


Здесь есть одна небольшая, но существенная деталь: единственно возможным статистическим результатом применения любой ординальной (читай: балльной) шкалы является упорядочивание объектов по степени выраженности интересующего исследователя признака, т.е. ранжировка. Она позволяет поставить отличника впереди хорошиста, того- впереди троечника etc., но не позволяет ответить на вопрос, на сколько у одного объекта наблюдения признак выражен сильнее, чем у другого: это связано стем, что порядковая шкала не эквидистантна, и в ней не определена операция суммирования. Соответственно, никакая разница каких-то там баллов просто не имеет право на существование. Поэтому, пользуясь случаем и в надежде, что еще не все потеряно, прошу вас отказаться от использования разницы баллов как зависимой переменной (отклика в линейной регрессии) и не наворачивать одну глупость на другую. Ваши пациенты будут вам очень благодарны.

Сообщение отредактировал 100$ - 24.08.2016 - 12:43
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Maria85
сообщение 24.08.2016 - 13:03
Сообщение #7





Группа: Пользователи
Сообщений: 4
Регистрация: 23.08.2016
Пользователь №: 28581



Огромное спасибо за ваши ответы.

Цитата(p2004r @ 24.08.2016 - 12:37) *
В регрессию (и логистическую тоже) нельзя помещать коррелированные предикторы. Коэффициенты уравнения становятся численно неустойчивыми и не интерпретируемыми. (Для того что бы представить себе это --- просто поместите какой либо параметр в модель еще раз под другим именем).

Для построения сети зависимостей есть например Bayesian networks (http://www.bnlearn.com/).


Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной?


Цитата(100$ @ 24.08.2016 - 12:42) *
Здесь есть одна небольшая, но существенная деталь: единственно возможным статистическим результатом применения любой ординальной (читай: балльной) шкалы является упорядочивание объектов по степени выраженности интересующего исследователя признака, т.е. ранжировка. Она позволяет поставить отличника впереди хорошиста, того- впереди троечника etc., но не позволяет ответить на вопрос, на сколько у одного объекта наблюдения признак выражен сильнее, чем у другого: это связано стем, что порядковая шкала не эквидистантна, и в ней не определена операция суммирования. Соответственно, никакая разница каких-то там баллов просто не имеет право на существование. Поэтому, пользуясь случаем и в надежде, что еще не все потеряно, прошу вас отказаться от использования разницы баллов как зависимой переменной (отклика в линейной регрессии) и не наворачивать одну глупость на другую. Ваши пациенты будут вам очень благодарны.



Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.08.2016 - 13:14
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Maria85 @ 24.08.2016 - 13:03) *
Огромное спасибо за ваши ответы.

Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной?

Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель?


Конечно. На оба вопроса
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 24.08.2016 - 13:50
Сообщение #9





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Maria85 @ 24.08.2016 - 13:03) *
Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной?


Как не странно, ответ -- некоторые да, а некоторые нет (например если это тренд временного ряда, его сначала придется убрать). Но я уже "содрогаюсь" какие выводы могут быть сделаны из этого smile.gif

Лучше просто сразу писать что за данные имеются (илм, что еще лучше, описать схему-план эксперимента - наблюдения в котором данные получили) и тогда можно сказать что из них можно извлечь. А так это всё "стрельба в сторону леса".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Maria85
сообщение 24.08.2016 - 14:15
Сообщение #10





Группа: Пользователи
Сообщений: 4
Регистрация: 23.08.2016
Пользователь №: 28581



Цитата(p2004r @ 24.08.2016 - 13:50) *
Как не странно, ответ -- некоторые да, а некоторые нет (например если это тренд временного ряда, его сначала придется убрать). Но я уже "содрогаюсь" какие выводы могут быть сделаны из этого smile.gif

Лучше просто сразу писать что за данные имеются (илм, что еще лучше, описать схему-план эксперимента - наблюдения в котором данные получили) и тогда можно сказать что из них можно извлечь. А так это всё "стрельба в сторону леса".



Имеются данные анализа МРТ каждого пациента: количество пораженного белого вещества головного мозга в Т1 и Т2 режимах, объемы серого, белого вещества, перивентрикулярное серое вешество, данные изменения объемов серого вещества при динамическом наблюдении. Выявляются корреляции по Спирмену с пораженным веществом головного мозга в режиме Т1, а в регрессии нет, зато определяется влияние поражения вещества в режиме Т2 на прогрессирование заболевания, что меня и удивило. Но как теперь выясняется, может быть мне нельзя было проводить корреляционный анализ по Спирмену между изменением количества баллов по шкале с данными МРТ.

Сообщение отредактировал Maria85 - 24.08.2016 - 14:18
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 25.08.2016 - 20:24
Сообщение #11





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Maria85 @ 24.08.2016 - 14:15) *
Имеются данные анализа МРТ каждого пациента: количество пораженного белого вещества головного мозга в Т1 и Т2 режимах, объемы серого, белого вещества, перивентрикулярное серое вешество, данные изменения объемов серого вещества при динамическом наблюдении. Выявляются корреляции по Спирмену с пораженным веществом головного мозга в режиме Т1, а в регрессии нет, зато определяется влияние поражения вещества в режиме Т2 на прогрессирование заболевания, что меня и удивило. Но как теперь выясняется, может быть мне нельзя было проводить корреляционный анализ по Спирмену между изменением количества баллов по шкале с данными МРТ.


Тут в словах "динамическое наблюдение" собственно и скрыт "план эксперимента". Чуть подробнее про этот план, иначе ничего определенного сказать нельзя, постоянно будут "уточнения".

Есть целая классификация всяких вариантов (вот например подборка https://explorable.com/research-designs ) и даже нотация придумана.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 24.11.2016 - 16:40
Сообщение #12





Группа: Пользователи
Сообщений: 105
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Maria85 @ 24.08.2016 - 13:03) *
Огромное спасибо за ваши ответы.



Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной?


Это заблуждение.
В логистической регрессии есть много разных алгоритмов. И эти алгоритмы как раз позволяют отбирать среди потенциальных предикторов, которые закоррелированы между собой (либо просто взаимосвязаны, т.е. речь идёт не о парах количественных признаков, а о двух других парах: 1) один количественный и один качественный; 2) два качественных признака). Если же все предикторы есть количественные признаки, то можно использовать и дискриминантный анализ. Который, кстати, тоже имеет немало алгоритмов. В частности, учитывающих различные пропорции сравниваемых групп в изучаемой популяции (генеральной совокупности). Примеры отбора таких закоррелированных (взаимосвязанных) предикторов в логистической регрессии можете посмотреть по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm


Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель?


Да, это возможно. При этом желательно использовать как разные алгоритмы, так и разные наборы потенциальных предикторов.

Сообщение отредактировал leo_biostat - 24.11.2016 - 16:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему