Форум врачей-аспирантов [Форум Invision Power Board]

Автор: Lordeg 29.06.2017 - 12:09

Добрый день!
Возникли вопросы. , пожалуйста=)

Цель: Определить степень влияния факторов на мед. расходы.

Данные:
Предикторы - (пол, возраст, сем.положение и тд). Все категориальные. 7 шт
Зависимая - расходы на мед помощь (количественная)

Метод:
Предикторы были закодированы числами (в стиле муж-1/жен-2)
Проведена множественная линейная регрессия (обязательно МЛР, прихоть Нрук)
~~Закрыв глаза и стиснув зубы~~ С радостью применил: lm(Y~x1+x2...), плюс посчитаны all-subsets regression (пакет leaps)

Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

Заранее спасибо!
Простите, если уже обсуждалось это, не нашел.

Автор: p2004r 29.06.2017 - 20:01

Цитата(Lordeg @ 29.06.2017 - 12:09)

Добрый день!
Возникли вопросы.

, пожалуйста=)

Цель: Определить степень влияния факторов на мед. расходы.

Данные:
Предикторы - (пол, возраст, сем.положение и тд). Все категориальные. 7 шт
Зависимая - расходы на мед помощь (количественная)

Метод:
Предикторы были закодированы числами (в стиле муж-1/жен-2)
Проведена множественная линейная регрессия (обязательно МЛР, прихоть Нрук)
~~Закрыв глаза и стиснув зубы~~ С радостью применил: lm(Y~x1+x2...), плюс посчитаны all-subsets regression (пакет leaps)

Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

Заранее спасибо!
Простите, если уже обсуждалось это, не нашел.

Использовать что то из https://en.wikipedia.org/wiki/Feature_extraction & https://en.wikipedia.org/wiki/Feature_selection

В гугле набрать "Feature selection site:r-project.org"

Автор: Lordeg 29.06.2017 - 22:08

Цитата(p2004r @ 29.06.2017 - 21:01)

Использовать что то из https://en.wikipedia.org/wiki/Feature_extraction & https://en.wikipedia.org/wiki/Feature_selection

В гугле набрать "Feature selection site:r-project.org"

Спасибо!
Скажите, нет ли у Вас предположений. что может значить "трансформация категориальных переменных"? Как их трансформировать то??))

Автор: nokh 29.06.2017 - 23:03

Цитата(Lordeg @ 29.06.2017 - 15:09)

Вопросы:
1. Корректно ли вообще использовать линейную множественную регрессию для таких данных (категориальных). Интерпретация результатов пугает.
2. Науч. рук-ом было сказано: "Почему в модели регрессионного анализа в качестве предиктора, категориальная переменная без трансформации?" Скажите, как мне её трансформировать?
3. Науч. рук-ом было сказано: "И нужно осуществить регр. анализ методом backword elimination, а также построить модели регрессионного анализа поочередно, удаляя из них отдельно каждый предиктор." Зачем? all-subsets должен включаться в себя все варианты backword'а.
4. Что использовать, если не МЛР. Полно конечно всяких методов.

1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic=4080&pid=21442&st=0&#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели.

2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели.
Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать.

3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить...

4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу.

Автор: Lordeg 29.06.2017 - 23:41

Цитата(nokh @ 30.06.2017 - 00:03)

1. Корректно. Но прочитайте мой длинный пост в сообщении #6 этой темы: http://forum.disser.ru/index.php?showtopic=4080&pid=21442&st=0&#entry21442 . Поэтому "пугает" - не удивительно, по крайней мере для полной модели.

2. Скорее всего НР что-то слышал про трансформации, но что слышал - забыл. Неудивительно, не пугает, проходили... Качественные дихотомические показатели используются в регрессионных моделях безо всяких преобразований. Такие переменные называют фиктивными, индикаторными и т.п. (погуглите "dummy variables"). Поскольку ваша задача здесь не медицинская, а экономическая, логично почитать что-нибудь эконометрическое по регрессии - эконометрики самые крутые по регрессиям, ведь им нужно прогнозировать не тлю на капусте и не летальные исходы у каких-то неудачников, а Деньги. Доугерти посмотрите (есть в сети). Что касается трансформаций, то преобразовывать скорее потребуется не предикторы, а саму зависимую переменную. Но это вы должны будете проверять специально, например, - по распределению остатков модели.
Впрочем есть вариант преобразования, который можно применить и к предикторам, но он - многомерный. Представить можно примерно так: в многомерном пространстве предикторов через гипероблако наблюдений прокладывается линия регрессии. При этом само пространство преобразуется так, чтобы обеспечить максимальную взаимную линейность связей в нём. В результате все предикторы (количественные, порядковые и качественные) получают новые цифровые значения - оцифровываются. Система упрощается, ошибка снижается. Такое преобразование Джифи (Gifi transformation) есть в SPSS и пакете homals под R, но уверен, что НР про это не знает и лучше до защиты его этим не раздражать.

3. Для упрощения модели можно использовать, как прямую (forward), так и обратную (backward) пошаговую технику. Говорят обратную - делайте. Смысл в упрощении модели в том, что чем меньше в ней показателей, тем меньше шансов, что результаты будут "пугать". Поскольку вы пишете квалификационную работу, есть смысл дать и полную, и оптимизированную модель, всё описать, обсудить...

4. Методов - полно, но не нужно изобретать колесо. Акутуальна МЛР у экономистов? Устраивает НР? - пользуйтесь! Иначе вам придётся погружаться в эконометрические дебри, а там математика традиционно сложнее. Потеряете время + повздорите с руководителем. Ваша цель сейчас - не сэкономить чьи-то деньги максимально эффективно, а сделать свою квалификационную работу.

nokh, большое спасибо за развернутый ответ =)
Про dummy знаю, но не посчитал это трансформацией. Зависимая трансформирована, с ней все ок =)
Gifi по-изучаю (для себя).

Спасибо, что ответили на эти примитивные вопросы. А то стою я на асфальте, в лыжи обутый, но то ли лыжи не едут...

PS. Работа социологическая, но в мед. универе. Помогаю товарищу, который в отчаянии. Свою я уже защитил, по геостатистике. Полностью согласен с "не изобретать колесо" и "не ругаться с НР"

Ещё раз спасибо =)

Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Линейная регрессия

Автор: Lordeg 29.06.2017 - 12:09

Автор: p2004r 29.06.2017 - 20:01

Автор: Lordeg 29.06.2017 - 22:08

Автор: nokh 29.06.2017 - 23:03

Автор: Lordeg 29.06.2017 - 23:41