Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> таблицы сопряженности vs логистическая регрессия
monday
сообщение 21.11.2015 - 10:12
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода.
2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы?
3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности?

На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
monday
сообщение 21.11.2015 - 19:09
Сообщение #2





Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Цитата(Игорь @ 21.11.2015 - 11:25) *
Нет

Но в другой теме я читаю:
Цитата(плав @ 1.09.2010 - 11:14) *
1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная.

Если не затруднит, поясните более развернуто.
Цитата(Игорь @ 21.11.2015 - 11:25) *
Кто Вам это сказал?

В той же теме была ссылка вот на этот материал (с. 70, 35)
Logistic regression

В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать:
Нужно ли сначала проверить наличие различий между группами по каждому параметру?
Или можно сразу строить унивариантную регрессию?
Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании?

Сообщение отредактировал monday - 21.11.2015 - 19:17
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2015 - 20:03
Сообщение #3





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(monday @ 21.11.2015 - 21:09) *
В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать:
Нужно ли сначала проверить наличие различий между группами по каждому параметру?
Или можно сразу строить унивариантную регрессию?
Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании?


Для начала нужно разобраться: 1) для чего и 2) для каких данных используются таблицы сопряжённости (ТС) и логистическая регрессия (ЛР).

ТС используются: либо а) для поиска различий между группами по категориальным признакам (модель II по терминологии Сокала и Рольфа), либо б) для поиска связи (сопряжённости) между категориальными признаками (модель I). Т.о. при анализе ТС мы имеем дело с категориальными данными, в классическом случае - с номинальными категориальными данными.

ЛР, как впрочем и любая другая регрессия, используется для нахождения зависимости. Причём зависимости бинарного (=дихотомического=альтернативного) отклика от количественного показателя.

Т.о. ТС и ЛР - разные методы, для решения разных задач, и работающие с разными данными. То, что их можно как-то приспособить для одних и тех же данных - верно. Например, количественный показатель можно дихотомизировать - разделить на 2 категории, например, по медиану и свыше медианы. Или можно закодировать бинарный категориальный признак как количественный, например 1 и 2 и использовать как предиктор в логистической регресии. Но всё это будут какие-то сомнительные статистические манипуляции, т.к. цели у методов разные.

Чтобы понять нужно ли отбирать признаки или включать всё сразу - нужно пробовать. Попробуйте включить всё что есть и посмотрите что получится. Скорее всего вы увидете, что люди занимаются отбором не от большого желания, а от острой необходимости оставить только малое число признаков-предикторов при имеющихся объёмах выборки.

Но даже и такой подход не гарантирует того, что будет найдено лучшее сочетание предикторов для прогноза. Действительно, можно пойти по пути отбора потенциально полезных для Большой итоговой модели предикторов: например, для количественных предикторов использовать ЛР и считать ОШ по ней, а для качественных признаков - ТС и считать ОШ по ним. Но важным для прогноза может оказаться признак, который сам по себе - очень слабый или вообще никакущий предиктор, но в сочетании с другим признаком дающий хорошее разделение отклика. Такой признак не обнаружить на стадии отбора - он будет забракован. И наоборот, может оказаться, что несколько хороших по одиночке предикторов сильно коррелированы между собой и для модели достаточно любого одного из них. Более надёжные методы отбора предикторов типа случайного леса деревьев классификации обсуждались на форуме и даже в соседней пока теме: http://forum.disser.ru/index.php?showtopic=3787&st=0

Сообщение отредактировал nokh - 21.11.2015 - 20:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему