Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> таблицы сопряженности vs логистическая регрессия
monday
сообщение 21.11.2015 - 10:12
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода.
2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы?
3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности?

На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
monday
сообщение 21.11.2015 - 23:36
Сообщение #2





Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 22.11.2015 - 18:23
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(monday @ 21.11.2015 - 23:36) *
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?


1) Вы можете подгонять модель логистической регрессии по данным полученным в любой шкале.

2) Для отбора предикторов использовать логистическую регрессию можно использовать с тем же ограничением как и любой другой метод нестойкий к переобучению. Как только на каждую степень свободы у вас останется пара точек в обучающей выборке любая модель будет иметь нулевые остатки. Если использовать для селекции моделей теоретический критерий оптимальности (AB)IC, то в принципе можно отбирать, но на практике это работает в лучшем случае для пары десятков показателей.

3) Наиболее эффективным представляется на первом этапе этапе отобрать предикторы оказывающие с точки зрения обучающей выборки значимое влияние на результат (ссылку на тред уже указывали). На втором этапе обучить объясняющую модель используя как критерий отбора AIC (например step() в R с алгоритмом отбора-исключения "both") облегчив пространство перебора включив "значимые предикторы" в группу из которой делают попытки исключить из модели, а "незначимые" в группу из которой делают попытки включить в модель. Полученная модель будет лучше "объяснима". (Хотя если гнаться именно за "понятным решением", то конкурентов нет у library(party) с решением в виде дерева).

4) Как совсем предварительный этап очень хорош пакет bnlearn который пытается восстановить причинность взаимодействий между показателями в выборке. Восстанавливается структура байесовской сети наиболее логично описывающая наблюдаемые в имеющейся многомерной выборке условные распределения. По сути можно руководствоваться построением модели глядя на граф связей, причем решать и вопрос какие вообще модели можно построить по имеющимся данным.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему