Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Регрессия: доверительный интервал?
stok1946
сообщение 15.02.2013 - 20:56
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели)
б) Доверительная область для самих значений зависимой переменной YD(x)

С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05).
Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные.

Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х.
Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)).
Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x.
Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной.
И тут такие вопросы:
а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD?
Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?);
б) справедливо ли выражение , YD(x) = RD(x) + SD?
в) почему на картинке к
http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29
95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) .
Или мне это мерещится?

Сообщение отредактировал stok1946 - 6.03.2013 - 13:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
stok1946
сообщение 21.03.2013 - 20:19
Сообщение #2





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Мне все же кажется, что время приближенных (т.е. основанных на предположениях о распределениях) формул катастрофически уходит.
Нет никаких проблем посчитать доверительные интервалы для полиномиальной регрессии, сплайнов и проч. бутстреп-методом. Нужно только понять, что хочется считать.
Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то за пределы "доверительной полосы" может выйти только alfa% таких линий (alfa = 5%).
Из этих соображений легко выполнить расчет CI для регрессии:
а) выделяем m = 100 или больше опорных значений, равномерно распределенных по шкале x, относительно которых будет рассчитываться величины доверительных интервалов;
б) делаем случайную выборку с возвращениями из порядковых номеров строк исходной таблицы и по этой перевыборке рассчитываем нужную нам модель регрессии любой сложности;
в) по модели п. б) выполняем расчет m опорных значений зависимой переменной;
г) пункты б-в) повторяем В = 1000 или больше раз, после чего для каждой 100 опорных точек x вычисляем по 1000 расчетных значений ŷ , т.е. воспроизводим распределение прогноза отклика в этих точках;
д) для каждой из опорных точек x находим значения квантилей при p = 1-alfa/2 и p = alfa/2 и вычисляем доверительные интервалы по любой из 3-4 формул (процентили, Халла-Луннеборга, стьюдентизированного типа, ВСа).
Несложные скриптики приведены в "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". - разделы 3.4 и 7.1 и с картинками.

Но вот что нужно ловить в в море бутстрепа, чтобы посчитать Prediction Intervals? Казалось бы нужно что-то добавлять/отнимать к ŷ (или к рассчитанным CI), но что именно - ничего на ум не приходит.
Это потому, что я никак не пойму смысла PI, исходя из обычной статитической прелюдии: "Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то..."
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.03.2013 - 13:06
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(stok1946 @ 21.03.2013 - 20:19) *
Но вот что нужно ловить в в море бутстрепа, чтобы посчитать Prediction Intervals? Казалось бы нужно что-то добавлять/отнимать к ŷ (или к рассчитанным CI), но что именно - ничего на ум не приходит.
Это потому, что я никак не пойму смысла PI, исходя из обычной статитической прелюдии: "Если многократно извлекать из генеральной совокупности наблюдений различные выборки из n пар (x, y) значений и строить по ним модели регрессии, то..."


Полностью согласен с высказыванием о методах ручного докомпьютерного счета. Все эти подходы в настоящее время имеют значение лишь для развития теории. На практике проще и надежнее проводить прямые измерения.

Что касается основного вопроса:

Цитата
In statistical inference, specifically predictive inference, a prediction interval is an estimate of an interval in which future observations will fall, with a certain probability, given what has already been observed. Prediction intervals are often used in regression analysis.

Prediction intervals are used in both frequentist statistics and Bayesian statistics: a prediction interval bears the same relationship to a future observation that a frequentist confidence interval or Bayesian credible interval bears to an unobservable population parameter: prediction intervals predict the distribution of individual future points, whereas confidence intervals and credible intervals of parameters predict the distribution of estimates of the true population mean or other quantity of interest that cannot be observed. Prediction intervals are also present in forecasts. Some experts have shown that it is difficult to estimate the prediction intervals of forecasts that have contrary series


как я понимаю ключевое отличие это prediction intervals predict the distribution of individual future points, whereas confidence intervals and credible intervals of parameters predict the distribution of estimates of the true population mean or other quantity of interest that cannot be observed

То что написано про вычисление --- все сводится к нормализации распределения выборки. в простейшем случае они вычитают матожидание и нормируют на среднеквадратичное (ну или делают что то более соответствующее параметру для которого строят этот интервал). Все значения преобразуют в z-значения, и эта преобразованная выборка дает предсказание для интервала в который попадет следующее измерение.

Все это для регрессии сводится к определению остатков и изучение их распределения. Сводящееся в свою очередь к построению доверительного интервала который плюсминусуется от прогнозного значения модели на данном наборе значений независимых переменных smile.gif (естественно это все когда модель хорошая и остатки независимы от параметров регрессии)

Поскольку остатки могут обладать весьма специфическим распределением, то для бутстрепа по моему открывается масса возможностей в построении интервалов. Особенно когда остатки "плохие". В этом случае надо построить интервал который зависит от состояния независимых переменных регрессионной модели.

Конечно надо подумать насколько такая процедура геометрически эквивалентна прямому построению доверительного интервала бутстрепом. Очень все какую то инкридибел машину напоминает. smile.gif



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- stok1946   Регрессия: доверительный интервал?   15.02.2013 - 20:56
- - nokh   Цитата(stok1946 @ 15.02.2013 - 23:56...   16.02.2013 - 14:20
|- - stok1946   Цитата(nokh @ 16.02.2013 - 15:20) Мн...   17.02.2013 - 10:58
- - Larina Tatjana   Цитата(stok1946 @ 16.02.2013 - 03:26...   21.02.2013 - 12:07
|- - stok1946   ЦитатаРекомендую почитать хорошие книги по регресс...   21.02.2013 - 22:25
- - nokh   Проблема с нелинейной регрессией оказалась куда сл...   25.02.2013 - 09:29
|- - 100$   Цитата(nokh @ 25.02.2013 - 09:29) Пр...   25.02.2013 - 18:42
|- - nokh   Цитата(100$ @ 25.02.2013 - 21:4...   26.02.2013 - 22:15
|- - 100$   Цитата(nokh @ 26.02.2013 - 22:15) Дл...   27.02.2013 - 10:40
|- - nokh   Цитата(100$ @ 27.02.2013 - 13:4...   11.03.2013 - 22:04
|- - 100$   Цитата(nokh @ 11.03.2013 - 22:04) Ка...   13.03.2013 - 20:37
- - stok1946   Мне все же кажется, что время приближенных (т.е. о...   21.03.2013 - 20:19
|- - p2004r   Цитата(stok1946 @ 21.03.2013 - 20:19...   23.03.2013 - 13:06
- - Енот   Задам вопрос в этой теме, чтобы не открывать новую...   1.07.2013 - 15:44
|- - TheThing   Цитата(Енот @ 1.07.2013 - 15:44) Зад...   1.07.2013 - 16:15
- - Енот   Ссылку на статью не могу - она не опубликована, во...   1.07.2013 - 19:26
|- - TheThing   Цитата(Енот @ 1.07.2013 - 19:26) Ссы...   1.07.2013 - 20:46
- - Liz   <The Thing: Посмотрите например эту статью......   1.07.2013 - 23:01
- - Енот   Большое спасибо!   2.07.2013 - 07:11
- - Енот   Нужно провести анализ методом логистической регрес...   3.07.2013 - 10:27
- - DrgLena   Судя по первому посту, Вы работаете в SPSS, а поэт...   3.07.2013 - 11:26
- - Енот   'DrgLena' Большое спасибо! ЦитатаСудя...   3.07.2013 - 12:20
- - DrgLena   Да, в Statictica не предусмотрена работа с категор...   3.07.2013 - 12:27
- - DrgLena   В программе Statistica возможна работа с количеств...   3.07.2013 - 12:31
- - Енот   Цитата(DrgLena @ 3.07.2013 - 13:31) ...   3.07.2013 - 14:40
- - DrgLena   У вас примерно все так, как в прикрепленном файле ...   3.07.2013 - 15:29
- - Енот   Большое спасибо! Это многое прояснило! у ...   3.07.2013 - 16:15
- - Енот   Работаю над иностранной статьей, там речь идет о ...   5.02.2014 - 20:35
|- - 100$   Цитата(Енот @ 5.02.2014 - 21:35) Под...   6.02.2014 - 08:33
|- - nokh   Цитата(Енот @ 5.02.2014 - 23:35) Под...   6.02.2014 - 13:06
- - Енот   Нашла, что GMR в данной статье есть geometric mean...   6.02.2014 - 17:04
- - Енот   Помогите, пожалуйста разобраться с таким вопросом....   9.03.2014 - 12:57
|- - 100$   Цитата(Енот @ 9.03.2014 - 13:57) Пом...   9.03.2014 - 14:01
- - Енот   Это единственно возможная причина? Ведь принципе ...   9.03.2014 - 14:26
- - 100$   Цитата(Енот @ 9.03.2014 - 15:26) Это...   13.03.2014 - 15:41


Добавить ответ в эту темуОткрыть тему