таблицы сопряженности vs логистическая регрессия - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

таблицы сопряженности vs логистическая регрессия

monday Просмотр профиля	21.11.2015 - 10:12 Сообщение #1
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841	Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов? 1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!

Открыть тему

Ответов

monday Просмотр профиля	21.11.2015 - 23:36 Сообщение #2
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841	Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?

p2004r Просмотр профиля	22.11.2015 - 18:23 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(monday @ 21.11.2015 - 23:36) Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация? 1) Вы можете подгонять модель логистической регрессии по данным полученным в любой шкале. 2) Для отбора предикторов использовать логистическую регрессию можно использовать с тем же ограничением как и любой другой метод нестойкий к переобучению. Как только на каждую степень свободы у вас останется пара точек в обучающей выборке любая модель будет иметь нулевые остатки. Если использовать для селекции моделей теоретический критерий оптимальности (AB)IC, то в принципе можно отбирать, но на практике это работает в лучшем случае для пары десятков показателей. 3) Наиболее эффективным представляется на первом этапе этапе отобрать предикторы оказывающие с точки зрения обучающей выборки значимое влияние на результат (ссылку на тред уже указывали). На втором этапе обучить объясняющую модель используя как критерий отбора AIC (например step() в R с алгоритмом отбора-исключения "both") облегчив пространство перебора включив "значимые предикторы" в группу из которой делают попытки исключить из модели, а "незначимые" в группу из которой делают попытки включить в модель. Полученная модель будет лучше "объяснима". (Хотя если гнаться именно за "понятным решением", то конкурентов нет у library(party) с решением в виде дерева). 4) Как совсем предварительный этап очень хорош пакет bnlearn который пытается восстановить причинность взаимодействий между показателями в выборке. Восстанавливается структура байесовской сети наиболее логично описывающая наблюдаемые в имеющейся многомерной выборке условные распределения. По сути можно руководствоваться построением модели глядя на граф связей, причем решать и вопрос какие вообще модели можно построить по имеющимся данным. http://r-statistics.livejournal.com/

Сообщений в этой теме

monday таблицы сопряженности vs логистическая регрессия 21.11.2015 - 10:12

Игорь Цитата(monday @ 21.11.2015 - 11:12) ... 21.11.2015 - 11:25

monday Цитата(Игорь @ 21.11.2015 - 11:25) Н... 21.11.2015 - 19:09

nokh Цитата(monday @ 21.11.2015 - 21:09) ... 21.11.2015 - 20:03

monday Большое спасибо за развернутое объяснение и за сов... 21.11.2015 - 23:36

p2004r Цитата(monday @ 21.11.2015 - 23:36) ... 22.11.2015 - 18:23

DoctorStat Цитата(monday @ 21.11.2015 - 23:36) ... 22.11.2015 - 21:57

E_VA Цитата(DoctorStat @ 23.11.2015 - 00... 23.11.2015 - 12:26

nokh Цитата(monday @ 22.11.2015 - 01:36) ... 25.11.2015 - 18:36

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2025 IPS, Inc.