![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели) б) Доверительная область для самих значений зависимой переменной YD(x) С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05). Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные. Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х. Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)). Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x. Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной. И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?); б) справедливо ли выражение , YD(x) = RD(x) + SD? в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Сообщение отредактировал stok1946 - 6.03.2013 - 13:08 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Мне все же кажется, что время приближенных (т.е. основанных на предположениях о распределениях) формул катастрофически уходит.
Нет никаких проблем посчитать доверительные интервалы для полиномиальной регрессии, сплайнов и проч. бутстреп-методом. Нужно только понять, что хочется считать. Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то за пределы "доверительной полосы" может выйти только alfa% таких линий (alfa = 5%). Из этих соображений легко выполнить расчет CI для регрессии: а) выделяем m = 100 или больше опорных значений, равномерно распределенных по шкале x, относительно которых будет рассчитываться величины доверительных интервалов; б) делаем случайную выборку с возвращениями из порядковых номеров строк исходной таблицы и по этой перевыборке рассчитываем нужную нам модель регрессии любой сложности; в) по модели п. б) выполняем расчет m опорных значений зависимой переменной; г) пункты б-в) повторяем В = 1000 или больше раз, после чего для каждой 100 опорных точек x вычисляем по 1000 расчетных значений ŷ , т.е. воспроизводим распределение прогноза отклика в этих точках; д) для каждой из опорных точек x находим значения квантилей при p = 1-alfa/2 и p = alfa/2 и вычисляем доверительные интервалы по любой из 3-4 формул (процентили, Халла-Луннеборга, стьюдентизированного типа, ВСа). Несложные скриптики приведены в "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". - разделы 3.4 и 7.1 и с картинками. Но вот что нужно ловить в в море бутстрепа, чтобы посчитать Prediction Intervals? Казалось бы нужно что-то добавлять/отнимать к ŷ (или к рассчитанным CI), но что именно - ничего на ум не приходит. Это потому, что я никак не пойму смысла PI, исходя из обычной статитической прелюдии: "Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то..." |
|
![]() |
![]() |
![]() ![]() |