Линейная регрессия |
Здравствуйте, гость ( Вход | Регистрация )
Линейная регрессия |
29.06.2017 - 12:09
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 29.06.2017 Пользователь №: 29989 |
Добрый день!
Возникли вопросы. , пожалуйста=) Цель: Определить степень влияния факторов на мед. расходы. Данные: Предикторы - (пол, возраст, сем.положение и тд). Все категориальные. 7 шт Зависимая - расходы на мед помощь (количественная) Метод: Предикторы были закодированы числами (в стиле муж-1/жен-2) Проведена множественная линейная регрессия (обязательно МЛР, прихоть Нрук) Вопросы: 1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает. 2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать? 3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а. 4. Что использовать, если не МЛР. Полно конечно всяких методов. Заранее спасибо! Простите, если уже обсуждалось это, не нашел. Сообщение отредактировал Lordeg - 29.06.2017 - 14:44 |
|
29.06.2017 - 20:01
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Добрый день! Возникли вопросы. , пожалуйста=) Цель: Определить степень влияния факторов на мед. расходы. Данные: Предикторы - (пол, возраст, сем.положение и тд). Все категориальные. 7 шт Зависимая - расходы на мед помощь (количественная) Метод: Предикторы были закодированы числами (в стиле муж-1/жен-2) Проведена множественная линейная регрессия (обязательно МЛР, прихоть Нрук) Вопросы: 1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает. 2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать? 3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а. 4. Что использовать, если не МЛР. Полно конечно всяких методов. Заранее спасибо! Простите, если уже обсуждалось это, не нашел. Использовать что то из https://en.wikipedia.org/wiki/Feature_extraction & https://en.wikipedia.org/wiki/Feature_selection В гугле набрать "Feature selection site:r-project.org" |
|
29.06.2017 - 22:08
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 29.06.2017 Пользователь №: 29989 |
Использовать что то из https://en.wikipedia.org/wiki/Feature_extraction & https://en.wikipedia.org/wiki/Feature_selection В гугле набрать "Feature selection site:r-project.org" Спасибо! Скажите, нет ли у Вас предположений. что может значить "трансформация категориальных переменных"? Как их трансформировать то??)) |
|
29.06.2017 - 23:03
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Вопросы: 1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает. 2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать? 3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а. 4. Что использовать, если не МЛР. Полно конечно всяких методов. 1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic...amp;#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели. 2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели. Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать. 3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить... 4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу. |
|
29.06.2017 - 23:41
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 29.06.2017 Пользователь №: 29989 |
1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic...amp;#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели. 2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели. Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать. 3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить... 4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу. nokh, большое спасибо за развернутый ответ =) Про dummy знаю, но не посчитал это трансформацией. Зависимая трансформирована, с ней все ок =) Gifi по-изучаю (для себя). Спасибо, что ответили на эти примитивные вопросы. А то стою я на асфальте, в лыжи обутый, но то ли лыжи не едут... PS. Работа социологическая, но в мед. универе. Помогаю товарищу, который в отчаянии. Свою я уже защитил, по геостатистике. Полностью согласен с "не изобретать колесо" и "не ругаться с НР" Ещё раз спасибо =) |
|