Здравствуйте, гость ( Вход | Регистрация )
25.02.2009 - 21:47
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 2 Регистрация: 25.02.2009 Пользователь №: 5858 |
Здравствуйте!
Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии. Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека. У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум). 1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка) 2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое? 3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)? Заранее спасибо! |
|
|
![]() |
![]() |
![]() |
26.02.2009 - 00:35
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Здравствуйте! Хотелось бы получить совет/рекомендации относительно интерпретации результатов логистической регрессии. Короткая преамбула: само исследование направлено на изучение факторов риска агрессивных действий у людей с психическими заболеваниями. Независимых переменных фиксировалось много - порядка 300. В качестве зависимой переменной выступал факт реализации агрессивных действий. Для начала я сравнила группы по всем переменным и для логистического анализа взяла только те, по которым были выявлены значимые различия. Их оказалось около 100. И потом провела логист регрессию (метод stepwise forward:lr), в результате которой были выделены 15 "предикторов". Но значения коэффициентов Вальда для них оказались очень низкими, уровень значимости для них приближался чуть ли не к единице. При этом все остальные показатели модели были вполне себе хорошими (хи-квадрат для модели, -2 Log likelihood). Особенно порадовала статистика попадания в "нужную" группу, составившая 98,6%. Наверное, важно здесь указать размеры групп: в первую группу (агрессивных) вошло 106, во вторую - 104 человека. У меня, как человека, пытающегося самостоятельно разобраться со стат. методами, есть куча вопросов (в литературе не нашла на них ответа, поэтому обращаюсь на форум). 1. Что содержательно могут означать эти результаты: критерии для модели - хорошие, для предикторов - нет? (у меня есть идеи, как это можно было бы интерпретировать, но это всего лишь домыслы - хотелось бы знать наверняка) 2. С чем это м.б. связано - маленький объем выборки, слишком большое количество переменных или что-то другое? 3. Если статистика Вальда такая низкая - означает ли это, что анализ не удался? Тогда есть ли другой способ решить поставленную задачу (выявить предикторы совершения агрессивных действий)? Заранее спасибо! Вначале надо сформулировать адекватную гипотезу. Изучение 300 переменных называется "рыбалкой", теоретически изучение такого количества предикоторов возможно лишь при размере выборки сильно превышающем 3000 человек и с пограничным уровнем достверности 0,0002. В Вашем случае ни одно из этих условий не соблюдается. То, что Log Likelihood "хороший" просто означает, что в модели есть постоянный член уравнения, а не то, что хоть один предиктор связан с исходом (т.е. шансы агрессивности не зависят от изученных Вами переменных). На самом деле Вам надо было проанализировать литературу, отобрать 10-15 наиболее вероятных предикторов и построить модель. Stepwise selection, как и все другие автоматические методы отбора моделе являются не вполне адекватными и не рекомендуются для использования. Правильный подход - построение модели исходя из знания предметной области, затем отбор переменных с р<0,25 и построение модли с включением только этих переменных. При большом количестве параметров их число можно снизить факторным анализом, но у Вас размер выборки для анализа 20 - максимум 40 переменных. И еще - по поводу последнего вопроса. Если Вы сделаете анализ правильно (как описано выше), а достоверных предикторов все равно нет, нельзя говорить, что анализ не удался - он удался. Просто предикторов агресивного поведения из числа изученных нет. |
|
|
![]() |
![]() |
banga Интерпретация результатов логистической регрессии 25.02.2009 - 21:47
banga Цитата(плав @ 26.02.2009 - 00:35) Вн... 26.02.2009 - 03:02
плав Цитата(banga @ 26.02.2009 - 03:02) С... 26.02.2009 - 13:00
DoctorStat Цитата(banga @ 25.02.2009 - 21:47) О... 26.02.2009 - 11:52
yulya Здравствуйте! Пожалуйста, помогите разобраться... 3.09.2010 - 08:47
плав Цитата(yulya @ 3.09.2010 - 09:47) Ша... 3.09.2010 - 12:26
DrgLena Yulia, вы работаете, очевдно, с русскоязычной верс... 3.09.2010 - 15:48
плав Цитата(DrgLena @ 3.09.2010 - 16:48) ... 3.09.2010 - 19:26![]() ![]() |