Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Интерпретация результатов логистической регрессии
banga
сообщение 25.02.2009 - 21:47
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 25.02.2009
Пользователь №: 5858



Здравствуйте!
Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии.
Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека.
У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум).
1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка)
2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое?
3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)?
Заранее спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.02.2009 - 00:35
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(banga @ 25.02.2009 - 21:47) *
Здравствуйте!
Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии.
Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека.
У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум).
1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка)
2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое?
3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)?
Заранее спасибо!

Вначале надо сформулировать адекватную гипотезу. Изучение 300 переменных называется "рыбалкой", теоретически изучение такого количества предикоторов возможно лишь при размере выборки сильно превышающем 3000 человек и с пограничным уровнем достверности 0,0002.
В Вашем случае ни одно из этих условий не соблюдается. То, что Log Likelihood "хороший" просто означает, что в модели есть постоянный член уравнения, а не то, что хоть один предиктор связан с исходом (т.е. шансы агрессивности не зависят от изученных Вами переменных).
На самом деле Вам надо было проанализировать литературу, отобрать 10-15 наиболее вероятных предикторов и построить модель. Stepwise selection, как и все другие автоматические методы отбора моделе являются не вполне адекватными и не рекомендуются для использования. Правильный подход - построение модели исходя из знания предметной области, затем отбор переменных с р<0,25 и построение модли с включением только этих переменных.
При большом количестве параметров их число можно снизить факторным анализом, но у Вас размер выборки для анализа 20 - максимум 40 переменных.
И еще - по поводу последнего вопроса. Если Вы сделаете анализ правильно (как описано выше), а достоверных предикторов все равно нет, нельзя говорить, что анализ не удался - он удался. Просто предикторов агресивного поведения из числа изученных нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
banga
сообщение 26.02.2009 - 03:02
Сообщение #3





Группа: Пользователи
Сообщений: 2
Регистрация: 25.02.2009
Пользователь №: 5858



Цитата(плав @ 26.02.2009 - 00:35) *
Вначале надо сформулировать адекватную гипотезу. Изучение 300 переменных называется "рыбалкой", теоретически изучение такого количества предикоторов возможно лишь при размере выборки сильно превышающем 3000 человек и с пограничным уровнем достверности 0,0002.
В Вашем случае ни одно из этих условий не соблюдается. То, что Log Likelihood "хороший" просто означает, что в модели есть постоянный член уравнения, а не то, что хоть один предиктор связан с исходом (т.е. шансы агрессивности не зависят от изученных Вами переменных).
На самом деле Вам надо было проанализировать литературу, отобрать 10-15 наиболее вероятных предикторов и построить модель. Stepwise selection, как и все другие автоматические методы отбора моделе являются не вполне адекватными и не рекомендуются для использования. Правильный подход - построение модели исходя из знания предметной области, затем отбор переменных с р<0,25 и построение модли с включением только этих переменных.
При большом количестве параметров их число можно снизить факторным анализом, но у Вас размер выборки для анализа 20 - максимум 40 переменных.
И еще - по поводу последнего вопроса. Если Вы сделаете анализ правильно (как описано выше), а достоверных предикторов все равно нет, нельзя говорить, что анализ не удался - он удался. Просто предикторов агресивного поведения из числа изученных нет.


Спасибо вам огромное за ответ!
Тогда можно несколько уточняющих вопросов?
1. А как тогда рассматривать статистику Хи-квадрата и показатели классификационной таблицы? Поясню, почему интересуюсь. Когда я искала подходящий метод обработки данных и взяла книгу А.Наследова "SPSS: компьютерный анализ данных в психологии и социальных науках", я там вычитала вот что - цитирую: "Хи-квадрат... это критерии статистической значимости воздействия на зависимую переменную всех предикторов заданной модели, блока или шага". "-2 Log Likelihood - эта величина характеризует модель и показывает, насколько она хорошо соответствует исходным данным" (стр.359-360). Еще там же было про показатели Cox&Snell R Square и Nagelkerke R Square - "приближенные значения R в квадрате, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной" (они в моей "пробе пера" тоже получились "хорошие"). В других источниках я иной трактовки, вроде бы, не заметила. Это неправильно? А как тогда правильно? А если это все-таки правильно, то почему при хороших показателях оценки самой модели значения коэффициентов Вальда низкие?
2. Если дело в величине выборки, насколько корректно провести серию логистических регрессий - отдельно для каждой группы показателей (клинических, социодемографических, параклинических, анамнестических сведений и т.д.)? Или лучше проверить несколько моделей, куда включить показатели из разных групп? С учетом того, что на основании литературы и знания предметной области можно предположить множество различных моделей. Ну, допустим, составлю я список из альтернативных моделей, в каждой из которых буду учитывать 15 переменных. Ведь не факт, что я наилучшую из них предположу.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 26.02.2009 - 11:52
Сообщение #4





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(banga @ 25.02.2009 - 21:47) *
Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%
Вы обнаружили очень информативные факторы! Такой высокий процент 98,6% «попадания в группу» редко встречается. Непонятно только, как для такого большого процента попадания получились очень низкие значимости отдельных факторов?! Попробуйте другой метод stepwise backward:lr и сравните набор полученных переменных с предыдущим методом. В случае совпадения предикторов, отобранных разными методами, повышается уверенность в их значимости для модели.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.02.2009 - 13:00
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(banga @ 26.02.2009 - 03:02) *
Спасибо вам огромное за ответ!
Тогда можно несколько уточняющих вопросов?
1. А как тогда рассматривать статистику Хи-квадрата и показатели классификационной таблицы? Поясню, почему интересуюсь. Когда я искала подходящий метод обработки данных и взяла книгу А.Наследова "SPSS: компьютерный анализ данных в психологии и социальных науках", я там вычитала вот что - цитирую: "Хи-квадрат... это критерии статистической значимости воздействия на зависимую переменную всех предикторов заданной модели, блока или шага". "-2 Log Likelihood - эта величина характеризует модель и показывает, насколько она хорошо соответствует исходным данным" (стр.359-360). Еще там же было про показатели Cox&Snell R Square и Nagelkerke R Square - "приближенные значения R в квадрате, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной" (они в моей "пробе пера" тоже получились "хорошие"). В других источниках я иной трактовки, вроде бы, не заметила. Это неправильно? А как тогда правильно? А если это все-таки правильно, то почему при хороших показателях оценки самой модели значения коэффициентов Вальда низкие?
2. Если дело в величине выборки, насколько корректно провести серию логистических регрессий - отдельно для каждой группы показателей (клинических, социодемографических, параклинических, анамнестических сведений и т.д.)? Или лучше проверить несколько моделей, куда включить показатели из разных групп? С учетом того, что на основании литературы и знания предметной области можно предположить множество различных моделей. Ну, допустим, составлю я список из альтернативных моделей, в каждой из которых буду учитывать 15 переменных. Ведь не факт, что я наилучшую из них предположу.

К сожалению, не видя данные и используемой программы (2LR может быть для модели в целом (см. мой комментарий), а может быть для разности нулевой модели (без предикторов) и модели с предикторами (о чем пишет, наверное, Наследов, хотя тогда так и надо писать, а не "величина, харатеризующая модель") трудно комменитровать, что у Вас получилось. Посмотрите внимательно распечатку, еще одной причиной высокого псевдо-R и отсутствия предикторов могут быть:
1) пропуски вместе с case-wise удалением наблюдений (т.е. в реальности расчеты ведутся по небольшому количеству наблюдений, а не 200)
2) Гипердисперсия (очень большие значения стандартной ошибки, тогда модель не адкеватна)
Насчет серии - не пойдет. Надо вначале выдвигать гипотезу, а потом смотреть, иначе, повторюсь, рыбалка и лучше уж сразу написать желаемый результат и не делать вид, чт проводился нализ. Повторю. При одиночном параметре вероятность справедливости нуевой гипотезы, если этот параметр не связан с исходо 5% (по определению). Соответственно, при 20 параметрах случайно окажется "связанным" 1 параметр, при 300 - около 15. Заметьте без разницы, исползуете Вы одну модель или десять.
Не можете найти 10-15 параметров, которые наиболее вероятные кандидаты - набирайте материал, когда превыите 3000 человек (это я предполагаю, что все параметры бинарные - закодированы 1 или 0) воспользуйтесь уровнем достоврности 0,0002 и отправляйтесь на рыбалку. Тогда, по крайней мере, то, что найдете, будет, скорее всего, предктором поведения.
Другого варианта нет - никакие backward stepwise не помогут, потому, что это основа статистического анализа - вначале планирование, потом оценка достоверности. Задумайтесь, у Вас около 200 человек и 300 параметров. Это означает, что любых двух людей можно разделить по этим параметрам (грубо говоря, возьмите дву людей, мужчину и женщину, и измерьте у них три параметра, точно найдет различия, например по цвету волос. Это означает, что женщин и мужчин можно различать поцвету волос?). Количество наблюдений всегда должно значительно превышать количество параметров (как минимум, 1:10).
Поэтому Вам надо не "список альтернативных моделей", а одну модель с 10-15 наиболее вероятными предикторами анализировать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
yulya
сообщение 3.09.2010 - 08:47
Сообщение #6





Группа: Пользователи
Сообщений: 8
Регистрация: 3.09.2010
Пользователь №: 22717



Здравствуйте! Пожалуйста, помогите разобраться в результатах логистической регрессии. Как их интерпретировать?
Я работаю в SPSS 17.0. У меня 1018 пациентов. Надо оценить влияние размера серда на летальность после операций на сердце.
В окне "логистическая регрессия" я ввела исход операции (умер - 1, выжил - 0) в качестве зависимой переменной, а индексированный конечно-диастолический объем левого желудочка (ИКДО, мл) в качестве коварианты.
Выводы следующие: выжило 948, умерло 70.
Переменные в уравнении:
Шаг 0 - Константа: В -2.606, станд.ошибка 0.124, Вальд 442,65, ст.св., знч.0,000, Ехр (В) 0.074.
Переменные, не включенные в уравнение:
Шаг 0 Переменные ИКДО: значение 0.331, ст.св.1, знч.0.565.
Блок 1: Метод=Принудительное включение.
Объединенные тесты для коэффициентов модели:
:
Шаг 1: ступенька (блок, модель то же самое): Хи-квадрат=0.339, ст.св.1, знч.=0.560.
Сводка для модели:
Ступелька 1 - -2 Log правдоподобие 509.527, R квадрат Кокса и Снелла 0.000, R квадрат Нейджелкерка 0.001
Переменные в уравнении:
Шаг 1: ИКДО: В -0.02, станд.ошибка 0.03, Вальд 0.330, ст.св.1, знч.0.556, ехр (В) 0.998
Константа: В -2.433, станд.ошибка 0.321, Вальд 57.338, ст.св.1, знч.0.556, ехр (В) 0.088

Какие из этих показателей определяют значимость моего фактора ИКДО?
Какие значения коэф-та Вальда (или др.показатели) говорят о значимости фактора?
Заранее спасибо))) Не смогла найти в нете конкретных примеров анализа, чтобы было понятно, при каких значениях каких коэффициентов фактор имеет значимое влияние на результат.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 3.09.2010 - 12:26
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(yulya @ 3.09.2010 - 09:47) *
Шаг 1: ИКДО: В -0.02, станд.ошибка 0.03, Вальд 0.330, ст.св.1, знч.0.556, ехр (В) 0.998
Константа: В -2.433, станд.ошибка 0.321, Вальд 57.338, ст.св.1, знч.0.556, ехр (В) 0.088

Какие из этих показателей определяют значимость моего фактора ИКДО?
Какие значения коэф-та Вальда (или др.показатели) говорят о значимости фактора?
Заранее спасибо))) Не смогла найти в нете конкретных примеров анализа, чтобы было понятно, при каких значениях каких коэффициентов фактор имеет значимое влияние на результат.


знч. 0.556

в том виде, как Вы привели, ИКДО не влияет на исход. А данные о том, кто когда умер есть? просто если есть, надо бы использовать анализ выживаемости (Кокса), кроме того, внимательно посмотреть на сырые данные по ИКДО - нет ли там вылетающих наблюдений (просто по логике, КДО должен влиять на выживаемость в неоткорретикрованной модели, либо, наоборот, у Вас пациенты разного возраста и разной тяжести и это маскирует связь)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 3.09.2010 - 15:48
Сообщение #8





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Yulia, вы работаете, очевдно, с русскоязычной версией Spss, скажите, пожалуйста, на каком языке у вас help для работы с R?

Сообщение отредактировал DrgLena - 3.09.2010 - 15:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 3.09.2010 - 19:26
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(DrgLena @ 3.09.2010 - 16:48) *
Yulia, вы работаете, очевдно, с русскоязычной версией Spss, скажите, пожалуйста, на каком языке у вас help для работы с R?

В русской версии тоже на английском - это же один внешний блок (проверял в русской 18 версии)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему