Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Регрессия: доверительный интервал?
stok1946
сообщение 15.02.2013 - 20:56
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели)
б) Доверительная область для самих значений зависимой переменной YD(x)

С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05).
Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные.

Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х.
Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)).
Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x.
Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной.
И тут такие вопросы:
а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD?
Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?);
б) справедливо ли выражение , YD(x) = RD(x) + SD?
в) почему на картинке к
http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29
95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) .
Или мне это мерещится?

Сообщение отредактировал stok1946 - 6.03.2013 - 13:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 16.02.2013 - 14:20
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(stok1946 @ 15.02.2013 - 23:56) *
Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для предикторов модели)
б) Доверительная область для самих значений зависимой переменной YD(x)
...
И тут такие вопросы:
а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD?
Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это как раз и есть предикторы модели?);
б) справедливо ли выражение , YD(x) = RD(x) + SD?
в) почему на картинке к
http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29
95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) .
Или мне это мерещится?

Мне представляется более удачным рассматривать (а) ДИ для регрессии и (б) ДИ для прогноза (так короче и часто в литературе речь и идёт о prediction). Первые указывают границы для среднего значения y при данном х, вторые - для отдельного значения у при данном х. Бегло посмотрел Гланца и Sokal & Rohlf (http://yadi.sk/d/j-B_6FDx2dp6y )- вроде всё понятно и об одном и том же.
Вопросы.
(a) Разные пакеты под одним и тем же термином могут понимать разные вещи. Я с ужасом это обнаружил когда разбирался с выбросами и влияющими наблюдениями в регрессии ( http://forum.disser.ru/index.php?showtopic=2434&st=71 , сообщение #72). В принципе, в Statistica - неплохая помощь, но тогда пришлось просто просчитывать пример руками и в пакетах, чтобы понять что где выдаётся. В данном случае про ДИ всё написано. Если в Help в Указателе набить "Confidence Interval vs. Prediction Interval" и в нижней части открывшейся страницы уйти по ссылке "Multiple Regression Results - Residuals/Assumptions/Prediction Tab" то можно увидеть формулы по которым считает пакет и ссылку на Neter, Wasserman, & Kutner, 1985. Учитывая что программисты чётко различают между Confidence Interval и Prediction Interval, есть основания полагать, что в качестве ДИ для регрессии выдаётся именно Confidence Interval. Но лучшая проверка - сверка с ручным расчётом или примером из книги.
(б) не знаю, формулы везде разные; чтобы привести их к единообразнию нужно поработать.
(в) и ДИ для регрессии, и ДИ для прогноза должны быть криволинейными, демонстрирующими нарастание ошибки от центра системы к периферии. В примере Википедии степень кривизны красных линий мала, но она есть - прикладывал линейку. Выходит - мерещится smile.gif.

Сообщение отредактировал nokh - 16.02.2013 - 14:28
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
stok1946
сообщение 17.02.2013 - 10:58
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Цитата(nokh @ 16.02.2013 - 15:20) *
Мне представляется более удачным рассматривать (а) ДИ для регрессии и (б) ДИ для прогноза (так короче и часто в литературе речь и идёт о prediction). Учитывая что программисты чётко различают между Confidence Interval и Prediction Interval,
(б) не знаю, формулы везде разные; чтобы привести их к единообразнию нужно поработать.

Большое спасибо за разъяснение. Я никогда толком не понимал, что такое ?предиктор?, но стеснялся спросить. И был категорически не прав weep.gif :
Predictor or predictor variable - In a regression analysis, the variable that serves as the basis for prediction is called the predictor variable. It is also called the independent or explanatory variable. It is always plotted as the x variable in a scatter diagram. ( Предикторная переменная ? в регрессионном анализе независимая переменная, появляющиеся на правой стороне уравнений. Соответствует переменной x на диаграммах рассеяния).
Predicted variable - In regression analysis, the variable that is being regressed is called the dependent or predicted variable. It is always plotted as the y variable in a scatter diagram (Предсказываемая переменная - в регрессионном анализе зависимая переменная или отклик. Соответствует переменной y на диаграммах рассеяния).
Prediction interval - In a regression analysis, a confidence interval within which a future observation of the dependent variable, for a given value of the independent variable,lies with a given probability. Compare confidence band. (Определяет доверительные границы, в которых будут находиться с заданной вероятностью будущие значения прогноза зависимой переменной для данного значения независимой переменной).
Но почему тогда термин "предикторные" интервалы относят не к предикторам, а к зависимой переменной?

б) В каждой формуле всегда изначально заложена ошибка. smile.gif Нет ничего практичнее хорошей теории. Для простой линейной регрессии формулы для рrediction interval и confidence band известны. Но я не нашел таковых в случае, например, полинома.
Тогда как, исходя из общих теоретических соображений оценить рrediction interval, если известны confidence band и standard error of predicted means на исходной выборке?

Сообщение отредактировал stok1946 - 6.03.2013 - 13:11
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- stok1946   Регрессия: доверительный интервал?   15.02.2013 - 20:56
- - nokh   Цитата(stok1946 @ 15.02.2013 - 23:56...   16.02.2013 - 14:20
|- - stok1946   Цитата(nokh @ 16.02.2013 - 15:20) Мн...   17.02.2013 - 10:58
- - Larina Tatjana   Цитата(stok1946 @ 16.02.2013 - 03:26...   21.02.2013 - 12:07
|- - stok1946   ЦитатаРекомендую почитать хорошие книги по регресс...   21.02.2013 - 22:25
- - nokh   Проблема с нелинейной регрессией оказалась куда сл...   25.02.2013 - 09:29
|- - 100$   Цитата(nokh @ 25.02.2013 - 09:29) Пр...   25.02.2013 - 18:42
|- - nokh   Цитата(100$ @ 25.02.2013 - 21:4...   26.02.2013 - 22:15
|- - 100$   Цитата(nokh @ 26.02.2013 - 22:15) Дл...   27.02.2013 - 10:40
|- - nokh   Цитата(100$ @ 27.02.2013 - 13:4...   11.03.2013 - 22:04
|- - 100$   Цитата(nokh @ 11.03.2013 - 22:04) Ка...   13.03.2013 - 20:37
- - stok1946   Мне все же кажется, что время приближенных (т.е. о...   21.03.2013 - 20:19
|- - p2004r   Цитата(stok1946 @ 21.03.2013 - 20:19...   23.03.2013 - 13:06
- - Енот   Задам вопрос в этой теме, чтобы не открывать новую...   1.07.2013 - 15:44
|- - TheThing   Цитата(Енот @ 1.07.2013 - 15:44) Зад...   1.07.2013 - 16:15
- - Енот   Ссылку на статью не могу - она не опубликована, во...   1.07.2013 - 19:26
|- - TheThing   Цитата(Енот @ 1.07.2013 - 19:26) Ссы...   1.07.2013 - 20:46
- - Liz   <The Thing: Посмотрите например эту статью......   1.07.2013 - 23:01
- - Енот   Большое спасибо!   2.07.2013 - 07:11
- - Енот   Нужно провести анализ методом логистической регрес...   3.07.2013 - 10:27
- - DrgLena   Судя по первому посту, Вы работаете в SPSS, а поэт...   3.07.2013 - 11:26
- - Енот   'DrgLena' Большое спасибо! ЦитатаСудя...   3.07.2013 - 12:20
- - DrgLena   Да, в Statictica не предусмотрена работа с категор...   3.07.2013 - 12:27
- - DrgLena   В программе Statistica возможна работа с количеств...   3.07.2013 - 12:31
- - Енот   Цитата(DrgLena @ 3.07.2013 - 13:31) ...   3.07.2013 - 14:40
- - DrgLena   У вас примерно все так, как в прикрепленном файле ...   3.07.2013 - 15:29
- - Енот   Большое спасибо! Это многое прояснило! у ...   3.07.2013 - 16:15
- - Енот   Работаю над иностранной статьей, там речь идет о ...   5.02.2014 - 20:35
|- - 100$   Цитата(Енот @ 5.02.2014 - 21:35) Под...   6.02.2014 - 08:33
|- - nokh   Цитата(Енот @ 5.02.2014 - 23:35) Под...   6.02.2014 - 13:06
- - Енот   Нашла, что GMR в данной статье есть geometric mean...   6.02.2014 - 17:04
- - Енот   Помогите, пожалуйста разобраться с таким вопросом....   9.03.2014 - 12:57
|- - 100$   Цитата(Енот @ 9.03.2014 - 13:57) Пом...   9.03.2014 - 14:01
- - Енот   Это единственно возможная причина? Ведь принципе ...   9.03.2014 - 14:26
- - 100$   Цитата(Енот @ 9.03.2014 - 15:26) Это...   13.03.2014 - 15:41


Добавить ответ в эту темуОткрыть тему