![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели) б) Доверительная область для самих значений зависимой переменной YD(x) С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05). Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные. Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х. Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)). Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x. Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной. И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?); б) справедливо ли выражение , YD(x) = RD(x) + SD? в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Сообщение отредактировал stok1946 - 6.03.2013 - 13:08 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Мне все же кажется, что время приближенных (т.е. основанных на предположениях о распределениях) формул катастрофически уходит.
Нет никаких проблем посчитать доверительные интервалы для полиномиальной регрессии, сплайнов и проч. бутстреп-методом. Нужно только понять, что хочется считать. Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то за пределы "доверительной полосы" может выйти только alfa% таких линий (alfa = 5%). Из этих соображений легко выполнить расчет CI для регрессии: а) выделяем m = 100 или больше опорных значений, равномерно распределенных по шкале x, относительно которых будет рассчитываться величины доверительных интервалов; б) делаем случайную выборку с возвращениями из порядковых номеров строк исходной таблицы и по этой перевыборке рассчитываем нужную нам модель регрессии любой сложности; в) по модели п. б) выполняем расчет m опорных значений зависимой переменной; г) пункты б-в) повторяем В = 1000 или больше раз, после чего для каждой 100 опорных точек x вычисляем по 1000 расчетных значений ŷ , т.е. воспроизводим распределение прогноза отклика в этих точках; д) для каждой из опорных точек x находим значения квантилей при p = 1-alfa/2 и p = alfa/2 и вычисляем доверительные интервалы по любой из 3-4 формул (процентили, Халла-Луннеборга, стьюдентизированного типа, ВСа). Несложные скриптики приведены в "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". - разделы 3.4 и 7.1 и с картинками. Но вот что нужно ловить в в море бутстрепа, чтобы посчитать Prediction Intervals? Казалось бы нужно что-то добавлять/отнимать к ŷ (или к рассчитанным CI), но что именно - ничего на ум не приходит. Это потому, что я никак не пойму смысла PI, исходя из обычной статитической прелюдии: "Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то..." |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Но вот что нужно ловить в в море бутстрепа, чтобы посчитать Prediction Intervals? Казалось бы нужно что-то добавлять/отнимать к ŷ (или к рассчитанным CI), но что именно - ничего на ум не приходит. Это потому, что я никак не пойму смысла PI, исходя из обычной статитической прелюдии: "Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то..." Полностью согласен с высказыванием о методах ручного докомпьютерного счета. Все эти подходы в настоящее время имеют значение лишь для развития теории. На практике проще и надежнее проводить прямые измерения. Что касается основного вопроса: Цитата In statistical inference, specifically predictive inference, a prediction interval is an estimate of an interval in which future observations will fall, with a certain probability, given what has already been observed. Prediction intervals are often used in regression analysis. Prediction intervals are used in both frequentist statistics and Bayesian statistics: a prediction interval bears the same relationship to a future observation that a frequentist confidence interval or Bayesian credible interval bears to an unobservable population parameter: prediction intervals predict the distribution of individual future points, whereas confidence intervals and credible intervals of parameters predict the distribution of estimates of the true population mean or other quantity of interest that cannot be observed. Prediction intervals are also present in forecasts. Some experts have shown that it is difficult to estimate the prediction intervals of forecasts that have contrary series как я понимаю ключевое отличие это prediction intervals predict the distribution of individual future points, whereas confidence intervals and credible intervals of parameters predict the distribution of estimates of the true population mean or other quantity of interest that cannot be observed То что написано про вычисление --- все сводится к нормализации распределения выборки. в простейшем случае они вычитают матожидание и нормируют на среднеквадратичное (ну или делают что то более соответствующее параметру для которого строят этот интервал). Все значения преобразуют в z-значения, и эта преобразованная выборка дает предсказание для интервала в который попадет следующее измерение. Все это для регрессии сводится к определению остатков и изучение их распределения. Сводящееся в свою очередь к построению доверительного интервала который плюсминусуется от прогнозного значения модели на данном наборе значений независимых переменных ![]() Поскольку остатки могут обладать весьма специфическим распределением, то для бутстрепа по моему открывается масса возможностей в построении интервалов. Особенно когда остатки "плохие". В этом случае надо построить интервал который зависит от состояния независимых переменных регрессионной модели. Конечно надо подумать насколько такая процедура геометрически эквивалентна прямому построению доверительного интервала бутстрепом. Очень все какую то инкридибел машину напоминает. ![]() ![]() |
|
![]() |
![]() |
![]() ![]() |