Цитата(banga @ 26.02.2009 - 03:02)

Спасибо вам огромное за ответ!
Тогда можно несколько уточняющих вопросов?
1. А как тогда рассматривать статистику Хи-квадрата и показатели классификационной таблицы? Поясню, почему интересуюсь. Когда я искала подходящий метод обработки данных и взяла книгу А.Наследова "SPSS: компьютерный анализ данных в психологии и социальных науках", я там вычитала вот что - цитирую: "Хи-квадрат... это критерии статистической значимости воздействия на зависимую переменную всех предикторов заданной модели, блока или шага". "-2 Log Likelihood - эта величина характеризует модель и показывает, насколько она хорошо соответствует исходным данным" (стр.359-360). Еще там же было про показатели Cox&Snell R Square и Nagelkerke R Square - "приближенные значения R в квадрате, показывающие долю влияния всех предикторов модели на дисперсию зависимой переменной" (они в моей "пробе пера" тоже получились "хорошие"). В других источниках я иной трактовки, вроде бы, не заметила. Это неправильно? А как тогда правильно? А если это все-таки правильно, то почему при хороших показателях оценки самой модели значения коэффициентов Вальда низкие?
2. Если дело в величине выборки, насколько корректно провести серию логистических регрессий - отдельно для каждой группы показателей (клинических, социодемографических, параклинических, анамнестических сведений и т.д.)? Или лучше проверить несколько моделей, куда включить показатели из разных групп? С учетом того, что на основании литературы и знания предметной области можно предположить множество различных моделей. Ну, допустим, составлю я список из альтернативных моделей, в каждой из которых буду учитывать 15 переменных. Ведь не факт, что я наилучшую из них предположу.
К сожалению, не видя данные и используемой программы (2LR может быть для модели в целом (см. мой комментарий), а может быть для разности нулевой модели (без предикторов) и модели с предикторами (о чем пишет, наверное, Наследов, хотя тогда так и надо писать, а не "величина, харатеризующая модель") трудно комменитровать, что у Вас получилось. Посмотрите внимательно распечатку, еще одной причиной высокого псевдо-R и отсутствия предикторов могут быть:
1) пропуски вместе с case-wise удалением наблюдений (т.е. в реальности расчеты ведутся по небольшому количеству наблюдений, а не 200)
2) Гипердисперсия (очень большие значения стандартной ошибки, тогда модель не адкеватна)
Насчет серии - не пойдет. Надо вначале выдвигать гипотезу, а потом смотреть, иначе, повторюсь, рыбалка и лучше уж сразу написать желаемый результат и не делать вид, чт проводился нализ. Повторю. При одиночном параметре вероятность справедливости нуевой гипотезы, если этот параметр не связан с исходо 5% (по определению). Соответственно, при 20 параметрах случайно окажется "связанным" 1 параметр, при 300 - около 15. Заметьте без разницы, исползуете Вы одну модель или десять.
Не можете найти 10-15 параметров, которые наиболее вероятные кандидаты - набирайте материал, когда превыите 3000 человек (это я предполагаю, что все параметры бинарные - закодированы 1 или 0) воспользуйтесь уровнем достоврности 0,0002 и отправляйтесь на рыбалку. Тогда, по крайней мере, то, что найдете, будет, скорее всего, предктором поведения.
Другого варианта нет - никакие backward stepwise не помогут, потому, что это основа статистического анализа - вначале планирование, потом оценка достоверности. Задумайтесь, у Вас около 200 человек и 300 параметров. Это означает, что любых двух людей можно разделить по этим параметрам (грубо говоря, возьмите дву людей, мужчину и женщину, и измерьте у них три параметра, точно найдет различия, например по цвету волос. Это означает, что женщин и мужчин можно различать поцвету волос?). Количество наблюдений всегда должно значительно превышать количество параметров (как минимум, 1:10).
Поэтому Вам надо не "список альтернативных моделей", а одну модель с 10-15 наиболее вероятными предикторами анализировать.