Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> таблицы сопряженности vs логистическая регрессия
monday
сообщение 21.11.2015 - 10:12
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Конечная цель - создание модели для прогнозирования бинарного исхода. В публикациях на подобную тему сначала проводили моновариантную логистическую регрессию и на ее основе отбирали показатели для дальнейшего включения в мультивариантную регрессию. На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы? И будет ли разница в описании результатов?
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода.
2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы?
3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности?

На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 21.11.2015 - 11:25
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 965
Регистрация: 10.04.2007
Из: Россия
Пользователь №: 4040



Цитата(monday @ 21.11.2015 - 11:12) *
На этом форуме в нескольких темах говорилось, что анализ таблиц сопряженности эквивалентен моновариантной логистической регрессии. Действительно ли они абсолютно взаимозаменяемы?

Нет
Цитата(monday @ 21.11.2015 - 11:12) *
1) Для логистической регрессии привести значение регрессионного коэффициента, уровень значимости, ОШ с ДИ и сделать вывод, что данный показатель является/не является значимым предиктором исхода.
2) Для таблиц сопряженности привести значение критерия и количество степеней свободы, уровень значимости и сделать вывод, что группы с изучаемым исходом/без него (не) различаются по данному признаку. Или будет правильнее оценить ассоциацию исхода с признаком? Если я правильно понимаю, если группы значимо различаются, то и признак с исходом всегда будут ассоциированы? Так ли это, и если да, то какой вариант описания предпочтительнее исходя из цели работы?

Так приводите и делайте.
Цитата(monday @ 21.11.2015 - 11:12) *
3) Если изучаемый признак категориальный с количеством категорий более двух, в логистической регрессии создаются dummy переменные и затем рассчитывается ОШ по отношению к опорной категории. Нужно ли их приводить? И правомерно ли посчитать такие же ОШ, используя таблицы сопряженности?

Кто Вам это сказал?
Цитата(monday @ 21.11.2015 - 11:12) *
На всякий случай уточню, что мне хочется понять именно явлюятся ли эти два подхода взаимозаменяемыми (или может я в корне ошибаюсь), а не какой из них проще и менее громоздкий. Спасибо!

Еще раз - нет. Никакой не проще и не громоздкий. Для пользователя не должно быть разницы, какая математика зашита в программу. Скачивайте программу и считайте.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
monday
сообщение 21.11.2015 - 19:09
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Цитата(Игорь @ 21.11.2015 - 11:25) *
Нет

Но в другой теме я читаю:
Цитата(плав @ 1.09.2010 - 11:14) *
1) Логистическая регрессионная модель дает те же самые результаты, что и таблицы сопряженности, если кодировка правильная.

Если не затруднит, поясните более развернуто.
Цитата(Игорь @ 21.11.2015 - 11:25) *
Кто Вам это сказал?

В той же теме была ссылка вот на этот материал (с. 70, 35)
Logistic regression

В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать:
Нужно ли сначала проверить наличие различий между группами по каждому параметру?
Или можно сразу строить унивариантную регрессию?
Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании?

Сообщение отредактировал monday - 21.11.2015 - 19:17
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.11.2015 - 20:03
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1116
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(monday @ 21.11.2015 - 21:09) *
В пример мне приводят работы, где переменные отбирались только с помощью унивариантной логистической регрессии, больше не исследовалось ничего. Можно ли так делать? Прошу прощения за сумбурные сообщения, но в голове множество вопросов, разобраться в которых по литературе у меня не выходит. Попробую сформулировать:
Нужно ли сначала проверить наличие различий между группами по каждому параметру?
Или можно сразу строить унивариантную регрессию?
Или же можно выбрать любой способ и отобрать параметры для дальнейшего анализа только на его основании?


Для начала нужно разобраться: 1) для чего и 2) для каких данных используются таблицы сопряжённости (ТС) и логистическая регрессия (ЛР).

ТС используются: либо а) для поиска различий между группами по категориальным признакам (модель II по терминологии Сокала и Рольфа), либо б) для поиска связи (сопряжённости) между категориальными признаками (модель I). Т.о. при анализе ТС мы имеем дело с категориальными данными, в классическом случае - с номинальными категориальными данными.

ЛР, как впрочем и любая другая регрессия, используется для нахождения зависимости. Причём зависимости бинарного (=дихотомического=альтернативного) отклика от количественного показателя.

Т.о. ТС и ЛР - разные методы, для решения разных задач, и работающие с разными данными. То, что их можно как-то приспособить для одних и тех же данных - верно. Например, количественный показатель можно дихотомизировать - разделить на 2 категории, например, по медиану и свыше медианы. Или можно закодировать бинарный категориальный признак как количественный, например 1 и 2 и использовать как предиктор в логистической регресии. Но всё это будут какие-то сомнительные статистические манипуляции, т.к. цели у методов разные.

Чтобы понять нужно ли отбирать признаки или включать всё сразу - нужно пробовать. Попробуйте включить всё что есть и посмотрите что получится. Скорее всего вы увидете, что люди занимаются отбором не от большого желания, а от острой необходимости оставить только малое число признаков-предикторов при имеющихся объёмах выборки.

Но даже и такой подход не гарантирует того, что будет найдено лучшее сочетание предикторов для прогноза. Действительно, можно пойти по пути отбора потенциально полезных для Большой итоговой модели предикторов: например, для количественных предикторов использовать ЛР и считать ОШ по ней, а для качественных признаков - ТС и считать ОШ по ним. Но важным для прогноза может оказаться признак, который сам по себе - очень слабый или вообще никакущий предиктор, но в сочетании с другим признаком дающий хорошее разделение отклика. Такой признак не обнаружить на стадии отбора - он будет забракован. И наоборот, может оказаться, что несколько хороших по одиночке предикторов сильно коррелированы между собой и для модели достаточно любого одного из них. Более надёжные методы отбора предикторов типа случайного леса деревьев классификации обсуждались на форуме и даже в соседней пока теме: http://forum.disser.ru/index.php?showtopic=3787&st=0

Сообщение отредактировал nokh - 21.11.2015 - 20:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
monday
сообщение 21.11.2015 - 23:36
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 27.11.2014
Пользователь №: 26841



Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 22.11.2015 - 18:23
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 1065
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(monday @ 21.11.2015 - 23:36) *
Большое спасибо за развернутое объяснение и за советы. Буду читать и разбираться. Но дело в том, что эту работу я не начинаю с нуля, а по этим данным уже работал старший колега. И мне нужно либо согласиться с тем, что делал он, либо обоснованно объяснить, в чем не прав. Т.е. не только, что есть метод лучше, а что так вообще делать неверно потому-то и потому-то..Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?


1) Вы можете подгонять модель логистической регрессии по данным полученным в любой шкале.

2) Для отбора предикторов использовать логистическую регрессию можно использовать с тем же ограничением как и любой другой метод нестойкий к переобучению. Как только на каждую степень свободы у вас останется пара точек в обучающей выборке любая модель будет иметь нулевые остатки. Если использовать для селекции моделей теоретический критерий оптимальности (AB)IC, то в принципе можно отбирать, но на практике это работает в лучшем случае для пары десятков показателей.

3) Наиболее эффективным представляется на первом этапе этапе отобрать предикторы оказывающие с точки зрения обучающей выборки значимое влияние на результат (ссылку на тред уже указывали). На втором этапе обучить объясняющую модель используя как критерий отбора AIC (например step() в R с алгоритмом отбора-исключения "both") облегчив пространство перебора включив "значимые предикторы" в группу из которой делают попытки исключить из модели, а "незначимые" в группу из которой делают попытки включить в модель. Полученная модель будет лучше "объяснима". (Хотя если гнаться именно за "понятным решением", то конкурентов нет у library(party) с решением в виде дерева).

4) Как совсем предварительный этап очень хорош пакет bnlearn который пытается восстановить причинность взаимодействий между показателями в выборке. Восстанавливается структура байесовской сети наиболее логично описывающая наблюдаемые в имеющейся многомерной выборке условные распределения. По сути можно руководствоваться построением модели глядя на граф связей, причем решать и вопрос какие вообще модели можно построить по имеющимся данным.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 22.11.2015 - 21:57
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 364
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(monday @ 21.11.2015 - 23:36) *
Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно).
У меня вопрос (ранее поднятый здесь nokh-ом): что если каждая из нескольких переменных в отдельности не дает значимых различий, а набор из этих (взаимодействующих) переменных дает ? Логистическая регрессия может автоматически определить этот набор переменных или она перебирает переменные так сказать по-одиночке, включая или исключая их из списка наиболее сильных предикторов ?

Сообщение отредактировал DoctorStat - 22.11.2015 - 22:01


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 23.11.2015 - 12:26
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(DoctorStat @ 23.11.2015 - 00:57) *
У меня вопрос (ранее поднятый здесь nokh-ом): что если каждая из нескольких переменных в отдельности не дает значимых различий, а набор из этих (взаимодействующих) переменных дает ? Логистическая регрессия может автоматически определить этот набор переменных или она перебирает переменные так сказать по-одиночке, включая или исключая их из списка наиболее сильных предикторов ?


Вставлю свои "5 копеек" на основании реально проведенного эксперимента (моей задачки из соседней ветки).
У меня вышла такая ситуация по 2м показателям. На предварительном этапе сравнения групп стат. значимых различий не было (p=0,45 и 0,9). Потом при отборе предикторов (озвученный ранее пакет Boruta) они попали в группу предикторов с сомнительной значимостью. Но при построении логистической регрессии, они вошли с очень близкими коэффициентами по модулю и разными знаками, при этом это был лучший вариант регрессии по разным сравниваемым показателям. На последнем этапе рассмотрев результирующий показатель, который был разностью, я сравнила по нему группы (p=0,07).
По-моему, это пример того, что логистическая регрессия оценила именно вхождение линейной комбинации признаков.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.11.2015 - 18:36
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 1116
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(monday @ 22.11.2015 - 01:36) *
...Так вот, переменные отбирались именно с помощью ЛР, причем независимо от типа данных: количественные, порядковые, дихотомические и номинальные с большим числом категорий (для каждой категории приведено ОШ вида "2 vs 1, 3 vs 1 и т.д.", но выше Игорь сказал что это неверно). Некоторые количественные переменные разбиты на несколько категорий и включались в ЛР уже в таком виде. Самым сложным для меня является вопрос насчет категориальных переменных в ЛР - ссылка в моем посте выше говорит, что их использовать можно. Так ли это? И какова интерпретация?

Дихотомические качественные признаки без проблем включаются в множественную ЛР. Поэтому, то, что результаты расчёта ОШ через ТС и ЛР для таких признаков должны быть близки я знал, но не знал насколько. Пришлось просто на искусственном примере рассчитать ОШ по ТС и по ЛР. Теперь я знаю ответ. Советую поступить так же. А вот то, что количественные переменные разбивались на упорядоченные категории - глупость с потерей информации.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему