таблицы сопряженности vs логистическая регрессия

таблицы сопряженности vs логистическая регрессия

monday Просмотр профиля	21.11.2015 - 10:12 Сообщение #1
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841	Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов? 1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!

Ответов

monday Просмотр профиля	21.11.2015 - 19:09 Сообщение #2
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841	Цитата(Игорь @ 21.11.2015 - 11:25) Нет Но в другой теме я читаю: Цитата(плав @ 1.09.2010 - 11:14) 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. Если не затруднит, поясните более развернуто. Цитата(Игорь @ 21.11.2015 - 11:25) Кто Вам это сказал? В той же теме была ссылка вот на этот материал (с. 70, 35) Logistic regression В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Сообщение отредактировал monday - 21.11.2015 - 19:17

nokh Просмотр профиля	21.11.2015 - 20:03 Сообщение #3
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(monday @ 21.11.2015 - 21:09) В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Для начала нужно разобраться: 1) для чего и 2) для каких данных используются таблицы сопряжённости (ТС) и логистическая регрессия (ЛР). ТС используются: либо а) для поиска различий между группами по категориальным признакам (модель II по терминологии Сокала и Рольфа), либо б) для поиска связи (сопряжённости) между категориальными признаками (модель I). Т.о. при анализе ТС мы имеем дело с категориальными данными, в классическом случае - с номинальными категориальными данными. ЛР, как впрочем и любая другая регрессия, используется для нахождения зависимости. Причём зависимости бинарного (=дихотомического=альтернативного) отклика от количественного показателя. Т.о. ТС и ЛР - разные методы, для решения разных задач, и работающие с разными данными. То, что их можно как-то приспособить для одних и тех же данных - верно. Например, количественный показатель можно дихотомизировать - разделить на 2 категории, например, по медиану и свыше медианы. Или можно закодировать бинарный категориальный признак как количественный, например 1 и 2 и использовать как предиктор в логистической регресии. Но всё это будут какие-то сомнительные статистические манипуляции, т.к. цели у методов разные. Чтобы понять нужно ли отбирать признаки или включать всё сразу - нужно пробовать. Попробуйте включить всё что есть и посмотрите что получится. Скорее всего вы увидете, что люди занимаются отбором не от большого желания, а от острой необходимости оставить только малое число признаков-предикторов при имеющихся объёмах выборки. Но даже и такой подход не гарантирует того, что будет найдено лучшее сочетание предикторов для прогноза. Действительно, можно пойти по пути отбора потенциально полезных для Большой итоговой модели предикторов: например, для количественных предикторов использовать ЛР и считать ОШ по ней, а для качественных признаков - ТС и считать ОШ по ним. Но важным для прогноза может оказаться признак, который сам по себе - очень слабый или вообще никакущий предиктор, но в сочетании с другим признаком дающий хорошее разделение отклика. Такой признак не обнаружить на стадии отбора - он будет забракован. И наоборот, может оказаться, что несколько хороших по одиночке предикторов сильно коррелированы между собой и для модели достаточно любого одного из них. Более надёжные методы отбора предикторов типа случайного леса деревьев классификации обсуждались на форуме и даже в соседней пока теме: http://forum.disser.ru/index.php?showtopic=3787&st=0 Сообщение отредактировал nokh - 21.11.2015 - 20:50

Сообщений в этой теме

monday таблицы сопряженности vs логистическая регрессия 21.11.2015 - 10:12

Игорь Цитата(monday @ 21.11.2015 - 11:12) ... 21.11.2015 - 11:25

monday Цитата(Игорь @ 21.11.2015 - 11:25) Н... 21.11.2015 - 19:09

nokh Цитата(monday @ 21.11.2015 - 21:09) ... 21.11.2015 - 20:03

monday Большое спасибо за развернутое объяснение и за сов... 21.11.2015 - 23:36

p2004r Цитата(monday @ 21.11.2015 - 23:36) ... 22.11.2015 - 18:23

DoctorStat Цитата(monday @ 21.11.2015 - 23:36) ... 22.11.2015 - 21:57

E_VA Цитата(DoctorStat @ 23.11.2015 - 00... 23.11.2015 - 12:26

nokh Цитата(monday @ 22.11.2015 - 01:36) ... 25.11.2015 - 18:36

« Предыдущая тема · Медицинская статистика · Следующая тема »