Взаимосвязь корреляционного и регрессионного анализа |
Здравствуйте, гость ( Вход | Регистрация )
Взаимосвязь корреляционного и регрессионного анализа |
23.08.2016 - 22:11
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 23.08.2016 Пользователь №: 28581 |
Уважаемые коллеги, никак не могу найти ответ на свой вопрос. Я изучаю влияние признаков на ухудшение прогноза заболевания. При проведении корреляционного анализа выявляется связь ухудшения заболевания с одним признаком, а при построении линейной регрессионной модели она отсутствует, зато появляется связь с другим признаком, с которым не было корреляции, построила рок-кривую для этого же признака довольные приличные значения площади под кривой. Возможно ли это? или же моя регрессионная модель неверно построена, хотя r квадрат показывает достоверность модели. Заранее спасибо за ответы, совсем отчаялась с этой регрессией уже...
|
|
24.08.2016 - 08:46
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Уважаемые коллеги, никак не могу найти ответ на свой вопрос. Я изучаю влияние признаков на ухудшение прогноза заболевания. При проведении корреляционного анализа выявляется связь ухудшения заболевания с одним признаком, а при построении линейной регрессионной модели она отсутствует, зато появляется связь с другим признаком, с которым не было корреляции, построила рок-кривую для этого же признака довольные приличные значения площади под кривой. Возможно ли это? или же моя регрессионная модель неверно построена, хотя r квадрат показывает достоверность модели. Заранее спасибо за ответы, совсем отчаялась с этой регрессией уже... Из этого описания нельзя понять, что с чем коррелирует, и как вообще выполняется анализ. Но то, что разные модели приводят к разным выводам - это нормально. Ни корреляция, ни регрессионный анализ ничего не говорят о причинности. Два показателя, между которыми есть сильная и значимая корреляция, могут одновременно изменяться под влиянием третьего показателя. R^2 не может показывать достоверность модели. Достоверность - это вероятность возникновения события, равная 1; достоверным может быть восход Солнца, но не статистическая модель. И значимость R^2 тоже не показывает. |
|
24.08.2016 - 10:02
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 23.08.2016 Пользователь №: 28581 |
Из этого описания нельзя понять, что с чем коррелирует, и как вообще выполняется анализ. Но то, что разные модели приводят к разным выводам - это нормально. Ни корреляция, ни регрессионный анализ ничего не говорят о причинности. Два показателя, между которыми есть сильная и значимая корреляция, могут одновременно изменяться под влиянием третьего показателя. R^2 не может показывать достоверность модели. Достоверность - это вероятность возникновения события, равная 1; достоверным может быть восход Солнца, но не статистическая модель. И значимость R^2 тоже не показывает. Спасибо большое за ваш ответ!! У меня есть группа пациентов с рассеянным склерозом, которых наблюдали в течении двух лет. Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии. С этой целью я и хочу провести регрессионный анализ. Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов. Но при проведении корреляционного анализа определяется корреляция между изменением баллов по шкале клинического состояния с одним фактором, а при проведении регрессии этих же данных с другим фактором, с которым не было корреляции. Я перевела данные шкалы в качественный признак, попробовала сделать логистическую регрессию, но результат такой же. Просто мне всегда казалось, что регрессионный анализ определяет сильнейшую из корреляций, поэтому показалось странным отсутствие корреляций с этим фактором. Еще такой момент, мои данные распределены ненормально, может мне нужно сделать их трансформацию для построения логистической модели? Про R квадрат поняла, больше не буду так говорить! |
|
24.08.2016 - 12:00
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии. Для этого в самом простом случае выборка делится на обучающую и тестовую, на обучающей строится модель и используется для предсказания на тестовой. Далее смотрим долю верных ответов и решаем, полезна ли такая модель. |
|
24.08.2016 - 12:37
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо большое за ваш ответ!! У меня есть группа пациентов с рассеянным склерозом, которых наблюдали в течении двух лет. Мне важно знать влияние определенных факторов на прогрессирование заболевания, чтобы можно было предсказывать прогноз развития заболевания пациентам на начальной стадии. С этой целью я и хочу провести регрессионный анализ. Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов. Но при проведении корреляционного анализа определяется корреляция между изменением баллов по шкале клинического состояния с одним фактором, а при проведении регрессии этих же данных с другим фактором, с которым не было корреляции. Я перевела данные шкалы в качественный признак, попробовала сделать логистическую регрессию, но результат такой же. Просто мне всегда казалось, что регрессионный анализ определяет сильнейшую из корреляций, поэтому показалось странным отсутствие корреляций с этим фактором. Еще такой момент, мои данные распределены ненормально, может мне нужно сделать их трансформацию для построения логистической модели? Про R квадрат поняла, больше не буду так говорить! В регрессию (и логистическую тоже) нельзя помещать коррелированные предикторы. Коэффициенты уравнения становятся численно неустойчивыми и не интерпретируемыми. (Для того что бы представить себе это --- просто поместите какой либо параметр в модель еще раз под другим именем). Для построения сети зависимостей есть например Bayesian networks (http://www.bnlearn.com/). |
|
24.08.2016 - 12:42
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Моей зависимой переменной является разница баллов по шкале, отражающей клиническое состояние пациентов... Здесь есть одна небольшая, но существенная деталь: единственно возможным статистическим результатом применения любой ординальной (читай: балльной) шкалы является упорядочивание объектов по степени выраженности интересующего исследователя признака, т.е. ранжировка. Она позволяет поставить отличника впереди хорошиста, того- впереди троечника etc., но не позволяет ответить на вопрос, на сколько у одного объекта наблюдения признак выражен сильнее, чем у другого: это связано стем, что порядковая шкала не эквидистантна, и в ней не определена операция суммирования. Соответственно, никакая разница каких-то там баллов просто не имеет право на существование. Поэтому, пользуясь случаем и в надежде, что еще не все потеряно, прошу вас отказаться от использования разницы баллов как зависимой переменной (отклика в линейной регрессии) и не наворачивать одну глупость на другую. Ваши пациенты будут вам очень благодарны. Сообщение отредактировал 100$ - 24.08.2016 - 12:43 |
|
24.08.2016 - 13:03
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 23.08.2016 Пользователь №: 28581 |
Огромное спасибо за ваши ответы.
В регрессию (и логистическую тоже) нельзя помещать коррелированные предикторы. Коэффициенты уравнения становятся численно неустойчивыми и не интерпретируемыми. (Для того что бы представить себе это --- просто поместите какой либо параметр в модель еще раз под другим именем). Для построения сети зависимостей есть например Bayesian networks (http://www.bnlearn.com/). Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной? Здесь есть одна небольшая, но существенная деталь: единственно возможным статистическим результатом применения любой ординальной (читай: балльной) шкалы является упорядочивание объектов по степени выраженности интересующего исследователя признака, т.е. ранжировка. Она позволяет поставить отличника впереди хорошиста, того- впереди троечника etc., но не позволяет ответить на вопрос, на сколько у одного объекта наблюдения признак выражен сильнее, чем у другого: это связано стем, что порядковая шкала не эквидистантна, и в ней не определена операция суммирования. Соответственно, никакая разница каких-то там баллов просто не имеет право на существование. Поэтому, пользуясь случаем и в надежде, что еще не все потеряно, прошу вас отказаться от использования разницы баллов как зависимой переменной (отклика в линейной регрессии) и не наворачивать одну глупость на другую. Ваши пациенты будут вам очень благодарны. Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель? |
|
24.08.2016 - 13:14
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Огромное спасибо за ваши ответы. Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной? Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель? Конечно. На оба вопроса |
|
24.08.2016 - 13:50
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной? Как не странно, ответ -- некоторые да, а некоторые нет (например если это тренд временного ряда, его сначала придется убрать). Но я уже "содрогаюсь" какие выводы могут быть сделаны из этого Лучше просто сразу писать что за данные имеются (илм, что еще лучше, описать схему-план эксперимента - наблюдения в котором данные получили) и тогда можно сказать что из них можно извлечь. А так это всё "стрельба в сторону леса". |
|
24.08.2016 - 14:15
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 23.08.2016 Пользователь №: 28581 |
Как не странно, ответ -- некоторые да, а некоторые нет (например если это тренд временного ряда, его сначала придется убрать). Но я уже "содрогаюсь" какие выводы могут быть сделаны из этого Лучше просто сразу писать что за данные имеются (илм, что еще лучше, описать схему-план эксперимента - наблюдения в котором данные получили) и тогда можно сказать что из них можно извлечь. А так это всё "стрельба в сторону леса". Имеются данные анализа МРТ каждого пациента: количество пораженного белого вещества головного мозга в Т1 и Т2 режимах, объемы серого, белого вещества, перивентрикулярное серое вешество, данные изменения объемов серого вещества при динамическом наблюдении. Выявляются корреляции по Спирмену с пораженным веществом головного мозга в режиме Т1, а в регрессии нет, зато определяется влияние поражения вещества в режиме Т2 на прогрессирование заболевания, что меня и удивило. Но как теперь выясняется, может быть мне нельзя было проводить корреляционный анализ по Спирмену между изменением количества баллов по шкале с данными МРТ. Сообщение отредактировал Maria85 - 24.08.2016 - 14:18 |
|
25.08.2016 - 20:24
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Имеются данные анализа МРТ каждого пациента: количество пораженного белого вещества головного мозга в Т1 и Т2 режимах, объемы серого, белого вещества, перивентрикулярное серое вешество, данные изменения объемов серого вещества при динамическом наблюдении. Выявляются корреляции по Спирмену с пораженным веществом головного мозга в режиме Т1, а в регрессии нет, зато определяется влияние поражения вещества в режиме Т2 на прогрессирование заболевания, что меня и удивило. Но как теперь выясняется, может быть мне нельзя было проводить корреляционный анализ по Спирмену между изменением количества баллов по шкале с данными МРТ. Тут в словах "динамическое наблюдение" собственно и скрыт "план эксперимента". Чуть подробнее про этот план, иначе ничего определенного сказать нельзя, постоянно будут "уточнения". Есть целая классификация всяких вариантов (вот например подборка https://explorable.com/research-designs ) и даже нотация придумана. |
|
24.11.2016 - 16:40
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 105 Регистрация: 23.11.2016 Пользователь №: 28953 |
Огромное спасибо за ваши ответы. Коррелированные между собой нельзя, это я понимаю, а коррелированные с зависимой переменной? Это заблуждение. В логистической регрессии есть много разных алгоритмов. И эти алгоритмы как раз позволяют отбирать среди потенциальных предикторов, которые закоррелированы между собой (либо просто взаимосвязаны, т.е. речь идёт не о парах количественных признаков, а о двух других парах: 1) один количественный и один качественный; 2) два качественных признака). Если же все предикторы есть количественные признаки, то можно использовать и дискриминантный анализ. Который, кстати, тоже имеет немало алгоритмов. В частности, учитывающих различные пропорции сравниваемых групп в изучаемой популяции (генеральной совокупности). Примеры отбора таких закоррелированных (взаимосвязанных) предикторов в логистической регрессии можете посмотреть по адресам http://www.biometrica.tomsk.ru/logit_1.htm --- http://www.biometrica.tomsk.ru/logit_9.htm Конечно, не все потеряно, для этого и спрашиваю совета у знающих людей. Для меня смысл не в разнице баллов, а в разделении пациентов на тех, у кого случилось клиническое ухудшение и на тех, кто остался стабильным. Могу ли я отразить это качественной переменной, где 1- это пациенты без ухудшения, а 2 - с прогрессированием заболевания, и поставить это зависимой переменной в логистическую регрессионную модель? Да, это возможно. При этом желательно использовать как разные алгоритмы, так и разные наборы потенциальных предикторов. Сообщение отредактировал leo_biostat - 24.11.2016 - 16:48 |
|