таблицы сопряженности vs логистическая регрессия |
Здравствуйте, гость ( Вход | Регистрация )
таблицы сопряженности vs логистическая регрессия |
21.11.2015 - 10:12
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 |
Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо! |
|
21.11.2015 - 11:25
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? Нет 1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода. 2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы? Так приводите и делайте. 3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности? Кто Вам это сказал? На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо! Еще раз - нет. Никакой не проще и не громоздкий. Для пользователя не должно быть разницы, какая математика зашита в программу. Скачивайте программу и считайте. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
21.11.2015 - 19:09
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 |
Нет Но в другой теме я читаю: 1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная. Если не затруднит, поясните более развернуто. Кто Вам это сказал? В той же теме была ссылка вот на этот материал (с. 70, 35) Logistic regression В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Сообщение отредактировал monday - 21.11.2015 - 19:17 |
|
21.11.2015 - 20:03
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать: Нужно ли сначала проверить наличие различий между группами по каждому параметру? Или можно сразу строить унивариантную регрессию? Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании? Для начала нужно разобраться: 1) для чего и 2) для каких данных используются таблицы сопряжённости (ТС) и логистическая регрессия (ЛР). ТС используются: либо а) для поиска различий между группами по категориальным признакам (модель II по терминологии Сокала и Рольфа), либо б) для поиска связи (сопряжённости) между категориальными признаками (модель I). Т.о. при анализе ТС мы имеем дело с категориальными данными, в классическом случае - с номинальными категориальными данными. ЛР, как впрочем и любая другая регрессия, используется для нахождения зависимости. Причём зависимости бинарного (=дихотомического=альтернативного) отклика от количественного показателя. Т.о. ТС и ЛР - разные методы, для решения разных задач, и работающие с разными данными. То, что их можно как-то приспособить для одних и тех же данных - верно. Например, количественный показатель можно дихотомизировать - разделить на 2 категории, например, по медиану и свыше медианы. Или можно закодировать бинарный категориальный признак как количественный, например 1 и 2 и использовать как предиктор в логистической регресии. Но всё это будут какие-то сомнительные статистические манипуляции, т.к. цели у методов разные. Чтобы понять нужно ли отбирать признаки или включать всё сразу - нужно пробовать. Попробуйте включить всё что есть и посмотрите что получится. Скорее всего вы увидете, что люди занимаются отбором не от большого желания, а от острой необходимости оставить только малое число признаков-предикторов при имеющихся объёмах выборки. Но даже и такой подход не гарантирует того, что будет найдено лучшее сочетание предикторов для прогноза. Действительно, можно пойти по пути отбора потенциально полезных для Большой итоговой модели предикторов: например, для количественных предикторов использовать ЛР и считать ОШ по ней, а для качественных признаков - ТС и считать ОШ по ним. Но важным для прогноза может оказаться признак, который сам по себе - очень слабый или вообще никакущий предиктор, но в сочетании с другим признаком дающий хорошее разделение отклика. Такой признак не обнаружить на стадии отбора - он будет забракован. И наоборот, может оказаться, что несколько хороших по одиночке предикторов сильно коррелированы между собой и для модели достаточно любого одного из них. Более надёжные методы отбора предикторов типа случайного леса деревьев классификации обсуждались на форуме и даже в соседней пока теме: http://forum.disser.ru/index.php?showtopic=3787&st=0 Сообщение отредактировал nokh - 21.11.2015 - 20:50 |
|
21.11.2015 - 23:36
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 27.11.2014 Пользователь №: 26841 |
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?
|
|
22.11.2015 - 18:23
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация? 1) Вы можете подгонять модель логистической регрессии по данным полученным в любой шкале. 2) Для отбора предикторов использовать логистическую регрессию можно использовать с тем же ограничением как и любой другой метод нестойкий к переобучению. Как только на каждую степень свободы у вас останется пара точек в обучающей выборке любая модель будет иметь нулевые остатки. Если использовать для селекции моделей теоретический критерий оптимальности (AB)IC, то в принципе можно отбирать, но на практике это работает в лучшем случае для пары десятков показателей. 3) Наиболее эффективным представляется на первом этапе этапе отобрать предикторы оказывающие с точки зрения обучающей выборки значимое влияние на результат (ссылку на тред уже указывали). На втором этапе обучить объясняющую модель используя как критерий отбора AIC (например step() в R с алгоритмом отбора-исключения "both") облегчив пространство перебора включив "значимые предикторы" в группу из которой делают попытки исключить из модели, а "незначимые" в группу из которой делают попытки включить в модель. Полученная модель будет лучше "объяснима". (Хотя если гнаться именно за "понятным решением", то конкурентов нет у library(party) с решением в виде дерева). 4) Как совсем предварительный этап очень хорош пакет bnlearn который пытается восстановить причинность взаимодействий между показателями в выборке. Восстанавливается структура байесовской сети наиболее логично описывающая наблюдаемые в имеющейся многомерной выборке условные распределения. По сути можно руководствоваться построением модели глядя на граф связей, причем решать и вопрос какие вообще модели можно построить по имеющимся данным. |
|
22.11.2015 - 21:57
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). У меня вопрос (ранее поднятый здесь nokh-ом): что если каждая из нескольких переменных в отдельности не дает значимых различий, а набор из этих (взаимодействующих) переменных дает ? Логистическая регрессия может автоматически определить этот набор переменных или она перебирает переменные так сказать по-одиночке, включая или исключая их из списка наиболее сильных предикторов ?
Сообщение отредактировал DoctorStat - 22.11.2015 - 22:01 Просто включи мозги => http://doctorstat.narod.ru
|
|
23.11.2015 - 12:26
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
У меня вопрос (ранее поднятый здесь nokh-ом): что если каждая из нескольких переменных в отдельности не дает значимых различий, а набор из этих (взаимодействующих) переменных дает ? Логистическая регрессия может автоматически определить этот набор переменных или она перебирает переменные так сказать по-одиночке, включая или исключая их из списка наиболее сильных предикторов ? Вставлю свои "5 копеек" на основании реально проведенного эксперимента (моей задачки из соседней ветки). У меня вышла такая ситуация по 2м показателям. На предварительном этапе сравнения групп стат. значимых различий не было (p=0,45 и 0,9). Потом при отборе предикторов (озвученный ранее пакет Boruta) они попали в группу предикторов с сомнительной значимостью. Но при построении логистической регрессии, они вошли с очень близкими коэффициентами по модулю и разными знаками, при этом это был лучший вариант регрессии по разным сравниваемым показателям. На последнем этапе рассмотрев результирующий показатель, который был разностью, я сравнила по нему группы (p=0,07). По-моему, это пример того, что логистическая регрессия оценила именно вхождение линейной комбинации признаков. |
|
25.11.2015 - 18:36
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация? Дихотомические качественные признаки без проблем включаются в множественную ЛР. Поэтому, то, что результаты расчёта ОШ через ТС и ЛР для таких признаков должны быть близки я знал, но не знал насколько. Пришлось просто на искусственном примере рассчитать ОШ по ТС и по ЛР. Теперь я знаю ответ. Советую поступить так же. А вот то, что количественные переменные разбивались на упорядоченные категории - глупость с потерей информации. |
|