Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Линейная регрессия
Lordeg
сообщение 29.06.2017 - 12:09
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 29.06.2017
Пользователь №: 29989



Добрый день!
Возникли вопросы. help.gif, пожалуйста=)

Цель: Определить степень влияния факторов на мед. расходы.

Данные:
Предикторы - (пол, возраст, сем.положение и тд). Все категориальные. 7 шт
Зависимая - расходы на мед помощь (количественная)

Метод:
Предикторы были закодированы числами (в стиле муж-1/жен-2)
Проведена множественная линейная регрессия (обязательно МЛР, прихоть Нрук)
Закрыв глаза и стиснув зубы С радостью применил: lm(Y~x1+x2...), плюс посчитаны all-subsets regression (пакет leaps)

Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

Заранее спасибо!
Простите, если уже обсуждалось это, не нашел.

Сообщение отредактировал Lordeg - 29.06.2017 - 14:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 29.06.2017 - 23:03
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Lordeg @ 29.06.2017 - 15:09) *
Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic...amp;#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели.

2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели.
Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать.

3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить...

4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Lordeg
сообщение 29.06.2017 - 23:41
Сообщение #3





Группа: Пользователи
Сообщений: 3
Регистрация: 29.06.2017
Пользователь №: 29989



Цитата(nokh @ 30.06.2017 - 00:03) *
1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic...amp;#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели.

2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели.
Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать.

3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить...

4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу.

nokh, большое спасибо за развернутый ответ =)
Про dummy знаю, но не посчитал это трансформацией. Зависимая трансформирована, с ней все ок =)
Gifi по-изучаю (для себя).

Спасибо, что ответили на эти примитивные вопросы. А то стою я на асфальте, в лыжи обутый, но то ли лыжи не едут...

PS. Работа социологическая, но в мед. универе. Помогаю товарищу, который в отчаянии. Свою я уже защитил, по геостатистике. Полностью согласен с "не изобретать колесо" и "не ругаться с НР"

Ещё раз спасибо =)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему