![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 ![]() |
Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо! |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 ![]() |
Нет Но в другой теме я читаю: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. Если не затруднит, поясните более развернуто. Кто Вам это сказал? В той же теме была ссылка вот на этот материал (с. 70, 35) Logistic regression В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Сообщение отредактировал monday - 21.11.2015 - 19:17 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Для начала нужно разобраться: 1) для чего и 2) для каких данных используются таблицы сопряжённости (ТС) и логистическая регрессия (ЛР). ТС используются: либо а) для поиска различий между группами по категориальным признакам (модель II по терминологии Сокала и Рольфа), либо б) для поиска связи (сопряжённости) между категориальными признаками (модель I). Т.о. при анализе ТС мы имеем дело с категориальными данными, в классическом случае - с номинальными категориальными данными. ЛР, как впрочем и любая другая регрессия, используется для нахождения зависимости. Причём зависимости бинарного (=дихотомического=альтернативного) отклика от количественного показателя. Т.о. ТС и ЛР - разные методы, для решения разных задач, и работающие с разными данными. То, что их можно как-то приспособить для одних и тех же данных - верно. Например, количественный показатель можно дихотомизировать - разделить на 2 категории, например, по медиану и свыше медианы. Или можно закодировать бинарный категориальный признак как количественный, например 1 и 2 и использовать как предиктор в логистической регресии. Но всё это будут какие-то сомнительные статистические манипуляции, т.к. цели у методов разные. Чтобы понять нужно ли отбирать признаки или включать всё сразу - нужно пробовать. Попробуйте включить всё что есть и посмотрите что получится. Скорее всего вы увидете, что люди занимаются отбором не от большого желания, а от острой необходимости оставить только малое число признаков-предикторов при имеющихся объёмах выборки. Но даже и такой подход не гарантирует того, что будет найдено лучшее сочетание предикторов для прогноза. Действительно, можно пойти по пути отбора потенциально полезных для Большой итоговой модели предикторов: например, для количественных предикторов использовать ЛР и считать ОШ по ней, а для качественных признаков - ТС и считать ОШ по ним. Но важным для прогноза может оказаться признак, который сам по себе - очень слабый или вообще никакущий предиктор, но в сочетании с другим признаком дающий хорошее разделение отклика. Такой признак не обнаружить на стадии отбора - он будет забракован. И наоборот, может оказаться, что несколько хороших по одиночке предикторов сильно коррелированы между собой и для модели достаточно любого одного из них. Более надёжные методы отбора предикторов типа случайного леса деревьев классификации обсуждались на форуме и даже в соседней пока теме: http://forum.disser.ru/index.php?showtopic=3787&st=0 Сообщение отредактировал nokh - 21.11.2015 - 20:50 |
|
![]() |
![]() |
![]() ![]() |