![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 ![]() |
Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо! |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 ![]() |
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация? 1) Вы можете подгонять модель логистической регрессии по данным полученным в любой шкале. 2) Для отбора предикторов использовать логистическую регрессию можно использовать с тем же ограничением как и любой другой метод нестойкий к переобучению. Как только на каждую степень свободы у вас останется пара точек в обучающей выборке любая модель будет иметь нулевые остатки. Если использовать для селекции моделей теоретический критерий оптимальности (AB)IC, то в принципе можно отбирать, но на практике это работает в лучшем случае для пары десятков показателей. 3) Наиболее эффективным представляется на первом этапе этапе отобрать предикторы оказывающие с точки зрения обучающей выборки значимое влияние на результат (ссылку на тред уже указывали). На втором этапе обучить объясняющую модель используя как критерий отбора AIC (например step() в R с алгоритмом отбора-исключения "both") облегчив пространство перебора включив "значимые предикторы" в группу из которой делают попытки исключить из модели, а "незначимые" в группу из которой делают попытки включить в модель. Полученная модель будет лучше "объяснима". (Хотя если гнаться именно за "понятным решением", то конкурентов нет у library(party) с решением в виде дерева). 4) Как совсем предварительный этап очень хорош пакет bnlearn который пытается восстановить причинность взаимодействий между показателями в выборке. Восстанавливается структура байесовской сети наиболее логично описывающая наблюдаемые в имеющейся многомерной выборке условные распределения. По сути можно руководствоваться построением модели глядя на граф связей, причем решать и вопрос какие вообще модели можно построить по имеющимся данным. ![]() |
|
![]() |
![]() |
![]() ![]() |