![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели) б) Доверительная область для самих значений зависимой переменной YD(x) С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05). Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные. Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х. Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)). Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x. Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной. И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?); б) справедливо ли выражение , YD(x) = RD(x) + SD? в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Сообщение отредактировал stok1946 - 6.03.2013 - 13:08 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Судя по первому посту, Вы работаете в SPSS, а поэтому можете, в отличие от программы Statistica, выполнить лог регрессию с категориальной переменной, имеющей более 2-х значений. В опциях модуля для бинарной лог регрессии выбираете в качестве предиктора нужную переменную, и указываете ту категорию, которая будет референтной. Полученные значения OR для оставшихся категорий будут означать риск относительно этой категории (в итоговой таблице она будет отсутствовать). Поэтому , удобно выбрать категорию с меньшим влиянием на прогнозируемы плохой исход ( легче будет трактовать OR для остальных категорий). Когда вы получите значения OR для остальных категорий, вы сможете объединять некоторые из них для обоснованных выводов, что именно является фактором риска прогнозируемого состояния. 4 категории могут впоследствии быть редуцированы до двух и анализ может быть проведен для бинарной переменной. ДИ к OR обычно приводят в публикациях, вы просто отмечаете в опциях нужный выбор.
|
|
![]() |
![]() |
![]() ![]() |