Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Регрессия: доверительный интервал?
stok1946
сообщение 15.02.2013 - 20:56
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 10.05.2012
Пользователь №: 23748



Насколько я помню из теории, различают два вида доверительных областей:
а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели)
б) Доверительная область для самих значений зависимой переменной YD(x)

С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05).
Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные.

Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х.
Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)).
Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy|x.
Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной.
И тут такие вопросы:
а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD?
Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?);
б) справедливо ли выражение , YD(x) = RD(x) + SD?
в) почему на картинке к
http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29
95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) .
Или мне это мерещится?

Сообщение отредактировал stok1946 - 6.03.2013 - 13:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 25.02.2013 - 09:29
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Проблема с нелинейной регрессией оказалась куда сложнее, чем я думал. Пусть не сразу, но формулы и для доверительного, и для прогнозного интервалов я нашёл. Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать. Точнее написано, но с использованием матричной формы записи + насколько я понял этот расчёт проводится итерационно. Также найденные формулы - это аппроксимации, а в ряде источников убедительно показано, что они могут быть весьма далеки от реальности. Вот ссылка на хорошую книгу по нелинейной регрессии в биологии: http://yadi.sk/d/esAZDJ2b2rXZe . Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.02.2013 - 18:42
Сообщение #3





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 25.02.2013 - 09:29) *
Проблема с нелинейной регрессией оказалась куда сложнее, чем я думал. Пусть не сразу, но формулы и для доверительного, и для прогнозного интервалов я нашёл. Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать. Точнее написано, но с использованием матричной формы записи + насколько я понял этот расчёт проводится итерационно. Также найденные формулы - это аппроксимации, а в ряде источников убедительно показано, что они могут быть весьма далеки от реальности. Вот ссылка на хорошую книгу по нелинейной регрессии в биологии: http://yadi.sk/d/esAZDJ2b2rXZe . Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям.



Цитата
Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать.


Гессиан - это матрица вторых производных оцениваемой модели (по параметрам). Для конкретной функции ее может вывести ( в аналитическом виде) даже среднестатистический троечник технического вуза (тяжелые случаи не рассматриваем). В статпакетах оценивается масса функций (стат. моделей), поэтому численные методы аппроксимации гессиана универсальнее. Вот только возникает гессиан лишь при оценивании методом макс. правдоподобия. При методе наименьших квадратов он и не понадобится.


Цитата
Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям.


Оно и неудивительно: способ получения стандартных ошибок оцениваемых параметров модели зависит от применяемого метода оценивания. Н-р, оцениваем модель (скажем, пресловутый полином)
а) методом наименьших квадратов
б) методом макс. правдоподобия
в) (обобщенным) методом моментов
вот вам и три варианта стандартных ошибок.

P.S. Кстати, о полиномах. Полиномы хорошо подгоняют данные (н-р, сплайны, представляющие собой, чаще всего, кубические полиномы) на основе широко известного факта, что через n точек проходит полином n-1 порядка. Но вот прогнозные войства полиномов - отвратительные.
Кроме того, полиномы являются линейной (по параметрам) моделью, в связи с чем ее оценивание вообще не представляет сложностей.
Наконец, многое нелинейные модели после логарифмирования становятся линейными и оцениваются на ура.

Сообщение отредактировал 100$ - 25.02.2013 - 18:48
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.02.2013 - 22:15
Сообщение #4





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 25.02.2013 - 21:42) *
Гессиан - это матрица вторых производных оцениваемой модели (по параметрам). Для конкретной функции ее может вывести ( в аналитическом виде) даже среднестатистический троечник технического вуза (тяжелые случаи не рассматриваем). В статпакетах оценивается масса функций (стат. моделей), поэтому численные методы аппроксимации гессиана универсальнее. Вот только возникает гессиан лишь при оценивании методом макс. правдоподобия. При методе наименьших квадратов он и не понадобится.

Для не слишком сложной функции я смогу найти частные производные и составить систему уравнений для оценки параметров методом наименьших квадратов (МНК), но и это - самообразование. А, к сожалению, в векторной алгебре не понимаю даже на уровне троечника frown.gif Буду очень признателен если Вы объясните чем заменить гессиан, если мы будем действовать в рамках именно МНК.
Цитата(100$ @ 25.02.2013 - 21:42) *
Наконец, многое нелинейные модели после логарифмирования становятся линейными и оцениваются на ура.

С этим есть известные проблемы смещения оценок. Всё зависит от того что в действительности должно быть распределено нормально: ошибка исходной нелинейной функции или ошибка линеаризованной преобразованием функции. Допустим, что нормально распределена ошибка именно исходной функции. Тогда если подгонять модель путём предварительного преобразование к линейному виду, то после ретрансформации ошибка будет распределена ненормально: например, в случае предварительного логарифмирования - логнормально; при этом оценки самих параметров окажутся немного смещены. Поэтому если раньше (до прихода ЭВМ) "на ура" действовали через преобразования шкал, то сейчас обычная практика - подгонка исходных нелинейных моделей по итерационным алгоритмам (хотя я думаю, что для ряда зависимостей естественней было бы работать "по старинке", исходя именно из природы данных). Если бы не было этой проблемы смещения, то через преобразование оси х по Боксу-Коксу можно было бы оптимально линеаризировать огромную массу нелинейных зависимостей самого распространённого степенного семейства.

Сообщение отредактировал nokh - 26.02.2013 - 22:31
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- stok1946   Регрессия: доверительный интервал?   15.02.2013 - 20:56
- - nokh   Цитата(stok1946 @ 15.02.2013 - 23:56...   16.02.2013 - 14:20
|- - stok1946   Цитата(nokh @ 16.02.2013 - 15:20) Мн...   17.02.2013 - 10:58
- - Larina Tatjana   Цитата(stok1946 @ 16.02.2013 - 03:26...   21.02.2013 - 12:07
|- - stok1946   ЦитатаРекомендую почитать хорошие книги по регресс...   21.02.2013 - 22:25
- - nokh   Проблема с нелинейной регрессией оказалась куда сл...   25.02.2013 - 09:29
|- - 100$   Цитата(nokh @ 25.02.2013 - 09:29) Пр...   25.02.2013 - 18:42
|- - nokh   Цитата(100$ @ 25.02.2013 - 21:4...   26.02.2013 - 22:15
|- - 100$   Цитата(nokh @ 26.02.2013 - 22:15) Дл...   27.02.2013 - 10:40
|- - nokh   Цитата(100$ @ 27.02.2013 - 13:4...   11.03.2013 - 22:04
|- - 100$   Цитата(nokh @ 11.03.2013 - 22:04) Ка...   13.03.2013 - 20:37
- - stok1946   Мне все же кажется, что время приближенных (т.е. о...   21.03.2013 - 20:19
|- - p2004r   Цитата(stok1946 @ 21.03.2013 - 20:19...   23.03.2013 - 13:06
- - Енот   Задам вопрос в этой теме, чтобы не открывать новую...   1.07.2013 - 15:44
|- - TheThing   Цитата(Енот @ 1.07.2013 - 15:44) Зад...   1.07.2013 - 16:15
- - Енот   Ссылку на статью не могу - она не опубликована, во...   1.07.2013 - 19:26
|- - TheThing   Цитата(Енот @ 1.07.2013 - 19:26) Ссы...   1.07.2013 - 20:46
- - Liz   <The Thing: Посмотрите например эту статью......   1.07.2013 - 23:01
- - Енот   Большое спасибо!   2.07.2013 - 07:11
- - Енот   Нужно провести анализ методом логистической регрес...   3.07.2013 - 10:27
- - DrgLena   Судя по первому посту, Вы работаете в SPSS, а поэт...   3.07.2013 - 11:26
- - Енот   'DrgLena' Большое спасибо! ЦитатаСудя...   3.07.2013 - 12:20
- - DrgLena   Да, в Statictica не предусмотрена работа с категор...   3.07.2013 - 12:27
- - DrgLena   В программе Statistica возможна работа с количеств...   3.07.2013 - 12:31
- - Енот   Цитата(DrgLena @ 3.07.2013 - 13:31) ...   3.07.2013 - 14:40
- - DrgLena   У вас примерно все так, как в прикрепленном файле ...   3.07.2013 - 15:29
- - Енот   Большое спасибо! Это многое прояснило! у ...   3.07.2013 - 16:15
- - Енот   Работаю над иностранной статьей, там речь идет о ...   5.02.2014 - 20:35
|- - 100$   Цитата(Енот @ 5.02.2014 - 21:35) Под...   6.02.2014 - 08:33
|- - nokh   Цитата(Енот @ 5.02.2014 - 23:35) Под...   6.02.2014 - 13:06
- - Енот   Нашла, что GMR в данной статье есть geometric mean...   6.02.2014 - 17:04
- - Енот   Помогите, пожалуйста разобраться с таким вопросом....   9.03.2014 - 12:57
|- - 100$   Цитата(Енот @ 9.03.2014 - 13:57) Пом...   9.03.2014 - 14:01
- - Енот   Это единственно возможная причина? Ведь принципе ...   9.03.2014 - 14:26
- - 100$   Цитата(Енот @ 9.03.2014 - 15:26) Это...   13.03.2014 - 15:41


Добавить ответ в эту темуОткрыть тему