![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели) б) Доверительная область для самих значений зависимой переменной YD(x) С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05). Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные. Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х. Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)). Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x. Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной. И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?); б) справедливо ли выражение , YD(x) = RD(x) + SD? в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Сообщение отредактировал stok1946 - 6.03.2013 - 13:08 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Насколько я помню из теории, различают два вида доверительных областей: а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для предикторов модели) б) Доверительная область для самих значений зависимой переменной YD(x) И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это как раз и есть предикторы модели?); "оценки" - это не только точечные оценки предикторов модели, а все совокупности оценок. Т.е. все комбинации, включая как точечные "оценки", так и доверительные интервалы. в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Нет, не мерещится. Так и должно быть. Криволинейные области получаются как результат одновременного изменения величина свободного члена (колебания линии регрессии вверх-вниз), так и значений коэффициентов регрессии (угол наклона линии регрессии). В итоге и получаются криволинейные области. Рекомендую почитать хорошие книги по регрессии, которых немало. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
||
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748 ![]() |
Цитата Рекомендую почитать хорошие книги по регрессии, которых немало. Буду очень признателен, если Вы мне порекомендуете конкретный источник, где приводилась бы схема расчета предикторных интервалов для полиномиальной регрессии (и вообще, для общего нелинейного случая). Для простой линейной регрессии формулы есть на каждом шагу... А точнее, вот код R: CODE # Определение векторов с активностями ферментов x <- c(19.1, 22.4, 21.7, 20.2, 25.1, 18.6, 15.6, 17.6, 13.5, 22.4, 14.2, 13.3, 17.9, 24.6, 25.8, 16.1, 16.6, 31.2, 15.8, 11.4, 20.3, 6.2, 8.9, 9.4, 6.4, 9.21, 2.6, 8.2) y <- c(24.5, 19.6, 22.2, 24.3, 25.5, 25.5, 25.2, 23.9, 26.1, 25.3, 21.9, 20.6, 27.1, 43.2, 25.6, 24.9, 25.8, 23.8, 23.5, 21.1, 23.8, 0.8, 15.5, 2.6, 2.8, 0.9, 5.7, 1.4) xy <- data.frame(x,y) model1 <- lm(y ~ x) # Линейная model2 <- lm( y ~ x + I(x*x)) # Полином 2 степени sr <- 1.96*summary(model2)$sigma ; x.order <- order(x) par(mfrow = c(1,2)) plot(x, y, pch=16, main="95% CI и PI линейной модели") lines(x, model1$fitted, lwd=2) model1.pred <- predict(model1, level=0.95, interval="conf") lines(x[x.order],model1.pred[,2][x.order], col="red") lines(x[x.order],model1.pred[,3][x.order], col="red") model1.pred2 <- predict(model1, level=0.95, interval="pred") lines(x[x.order],model1.pred2[,2][x.order], col="blue") lines(x[x.order],model1.pred2[,3][x.order], col="blue") plot(x, y, pch=16, main="95% CI и PI полиномиальной модели") lines(x[x.order], model2$fitted[x.order], lwd=2) model2.pred <- predict(model2, level=0.95, interval="conf") # Доверительные интервалы lines(x[x.order],model2.pred[,2][x.order], col="red") lines(x[x.order],model2.pred[,3][x.order], col="red") model2.pred2 <- predict(model2, level=0.95, interval="pred") # Предикторные интервалы lines(x[x.order],model2.pred2[,2][x.order], col="blue") lines(x[x.order],model2.pred2[,3][x.order], col="blue") lines(x[x.order],model2$fitted[x.order]+sr, col="green") # Версия Гайдышева lines(x[x.order],model2$fitted[x.order]-sr, col="green") Получаем картинку с ДИ и ПИ для линейной и полиномиальной модели. Файл с картинкой приложил к сообщению Зелененьким показаны "доверительные интервалы оценки модели" по Гайдышеву, постоянные на всем диапазоне Х-в, которые находятся как-то посередине между ПИ и ДИ. А ведь есть еще и толерантные интервалы регрессии - см. стр. 665. - Прикладная математическая статистика. Кобзарь А.И. А правда где, брат? ![]() Сообщение отредактировал stok1946 - 6.03.2013 - 13:11 |
|
|
![]() |
![]() |
![]() ![]() |