Интерпретация результатов логистической регрессии

Интерпретация результатов логистической регрессии

banga Просмотр профиля	25.02.2009 - 21:47 Сообщение #1
Группа: Пользователи Сообщений: 2 Регистрация: 25.02.2009 Пользователь №: 5858	Здравствуйте! Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии. Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека. У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум). 1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка) 2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое? 3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)? Заранее спасибо!

Ответов

плав Просмотр профиля	26.02.2009 - 00:35 Сообщение #2
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(banga @ 25.02.2009 - 21:47) Здравствуйте! Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии. Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека. У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум). 1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка) 2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое? 3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)? Заранее спасибо! Вначале надо сформулировать адекватную гипотезу. Изучение 300 переменных называется "рыбалкой", теоретически изучение такого количества предикоторов возможно лишь при размере выборки сильно превышающем 3000 человек и с пограничным уровнем достверности 0,0002. В Вашем случае ни одно из этих условий не соблюдается. То, что Log Likelihood "хороший" просто означает, что в модели есть постоянный член уравнения, а не то, что хоть один предиктор связан с исходом (т.е. шансы агрессивности не зависят от изученных Вами переменных). На самом деле Вам надо было проанализировать литературу, отобрать 10-15 наиболее вероятных предикторов и построить модель. Stepwise selection, как и все другие автоматические методы отбора моделе являются не вполне адекватными и не рекомендуются для использования. Правильный подход - построение модели исходя из знания предметной области, затем отбор переменных с р<0,25 и построение модли с включением только этих переменных. При большом количестве параметров их число можно снизить факторным анализом, но у Вас размер выборки для анализа 20 - максимум 40 переменных. И еще - по поводу последнего вопроса. Если Вы сделаете анализ правильно (как описано выше), а достоверных предикторов все равно нет, нельзя говорить, что анализ не удался - он удался. Просто предикторов агресивного поведения из числа изученных нет.

banga Просмотр профиля	26.02.2009 - 03:02 Сообщение #3
Группа: Пользователи Сообщений: 2 Регистрация: 25.02.2009 Пользователь №: 5858	Цитата(плав @ 26.02.2009 - 00:35) Вначале надо сформулировать адекватную гипотезу. Изучение 300 переменных называется "рыбалкой", теоретически изучение такого количества предикоторов возможно лишь при размере выборки сильно превышающем 3000 человек и с пограничным уровнем достверности 0,0002. В Вашем случае ни одно из этих условий не соблюдается. То, что Log Likelihood "хороший" просто означает, что в модели есть постоянный член уравнения, а не то, что хоть один предиктор связан с исходом (т.е. шансы агрессивности не зависят от изученных Вами переменных). На самом деле Вам надо было проанализировать литературу, отобрать 10-15 наиболее вероятных предикторов и построить модель. Stepwise selection, как и все другие автоматические методы отбора моделе являются не вполне адекватными и не рекомендуются для использования. Правильный подход - построение модели исходя из знания предметной области, затем отбор переменных с р<0,25 и построение модли с включением только этих переменных. При большом количестве параметров их число можно снизить факторным анализом, но у Вас размер выборки для анализа 20 - максимум 40 переменных. И еще - по поводу последнего вопроса. Если Вы сделаете анализ правильно (как описано выше), а достоверных предикторов все равно нет, нельзя говорить, что анализ не удался - он удался. Просто предикторов агресивного поведения из числа изученных нет. Спасибо вам огромное за ответ! Тогда можно несколько уточняющих вопросов? 1. А как тогда рассматривать статистику Хи-квадрата и показатели классификационной таблицы? Поясню, почему интересуюсь. Когда я искала подходящий метод обработки данных и взяла книгу А.Наследова "SPSS: компьютерный анализ данных в психологии и социальных науках", я там вычитала вот что - цитирую: "Хи-квадрат... это критерии статистической значимости воздействия на зависимую переменную всех предикторов заданной модели, блока или шага". "-2 Log Likelihood - эта величина характеризует модель и показывает, насколько она хорошо соответствует исходным данным" (стр.359-360). Еще там же было про показатели Cox&Snell R Square и Nagelkerke R Square - "приближенные значения R в квадрате, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной" (они в моей "пробе пера" тоже получились "хорошие"). В других источниках я иной трактовки, вроде бы, не заметила. Это неправильно? А как тогда правильно? А если это все-таки правильно, то почему при хороших показателях оценки самой модели значения коэффициентов Вальда низкие? 2. Если дело в величине выборки, насколько корректно провести серию логистических регрессий - отдельно для каждой группы показателей (клинических, социодемографических, параклинических, анамнестических сведений и т.д.)? Или лучше проверить несколько моделей, куда включить показатели из разных групп? С учетом того, что на основании литературы и знания предметной области можно предположить множество различных моделей. Ну, допустим, составлю я список из альтернативных моделей, в каждой из которых буду учитывать 15 переменных. Ведь не факт, что я наилучшую из них предположу.

Сообщений в этой теме

banga Интерпретация результатов логистической регрессии 25.02.2009 - 21:47

плав Цитата(banga @ 25.02.2009 - 21:47) З... 26.02.2009 - 00:35

banga Цитата(плав @ 26.02.2009 - 00:35) Вн... 26.02.2009 - 03:02

плав Цитата(banga @ 26.02.2009 - 03:02) С... 26.02.2009 - 13:00

DoctorStat Цитата(banga @ 25.02.2009 - 21:47) О... 26.02.2009 - 11:52

yulya Здравствуйте! Пожалуйста, помогите разобраться... 3.09.2010 - 08:47

плав Цитата(yulya @ 3.09.2010 - 09:47) Ша... 3.09.2010 - 12:26

DrgLena Yulia, вы работаете, очевдно, с русскоязычной верс... 3.09.2010 - 15:48

плав Цитата(DrgLena @ 3.09.2010 - 16:48) ... 3.09.2010 - 19:26

« Предыдущая тема · Медицинская статистика · Следующая тема »