Регрессия: доверительный интервал? - Форум врачей-аспирантов

Регрессия: доверительный интервал?

stok1946 Просмотр профиля	15.02.2013 - 20:56 Сообщение #1
Группа: Пользователи Сообщений: 27 Регистрация: 10.05.2012 Пользователь №: 23748	Насколько я помню из теории, различают два вида доверительных областей: а) Доверительная область для линии регрессии RD(x), (т.е. точнее, для прогнозов модели) б) Доверительная область для самих значений зависимой переменной YD(x) С понятием а) все понятно: если многократно извлекать из генеральной совокупности различные выборки из N пар (x,y) значений и строить по ним модели регрессии, то за пределами "доверительной трубы" окажется 100alfa% таких линий (alfa, например, равно 0.05). Назовем эту "трубу" RD(x), поскольку она зависит от текущего значения х. Эту самую RD(x) можно лихо и точно просчитать бутстрепом для самых различных функций, включая сплайны и ядерные. Теперь относительно ДИ под буковкой б). Это - интервал, определяющий границы, за пределами которых могут оказаться не более 100alfa% экспериментальных точек наблюдений при Х = х. Он, вообще говоря (как пишет, в частности Гланц на стр. 243), складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии (второе мы уже посчитали как RD(x)). Характеристикой разброса значений y вокруг линии регрессии является только остаточное стандартное отклонение sy\|x. Я могу ширину этой части доверительного интервала оценить только по эмпирической выборке SD = t(1-alfa/2, N-2) * sqr(RSS/(N - K)), где RSS - сумма квадратов остатков. И это - постоянная величина на всем интервале определения независимой переменной. И тут такие вопросы: а) когда в STATISTICA и др. прикладных программах считают доверительные интервалы, то что имеют в виду RD(x), YD(x) или SD? Например, Гайдышев в Approximations (APX) AtteStat выводит SD и называет это "Доверительные интервалы оценок модели" (но ведь "оценки" - это и есть прогнозы модели?); б) справедливо ли выражение , YD(x) = RD(x) + SD? в) почему на картинке к http://ru.wikipedia.org/wiki/%D0%A0%D0%B5%...%D0%BA%D0%B0%29 95%-е доверительные области для линии регрессии RD(x) показаны криволинейными, и для значений YD(x) - прямыми красненькими линиями, хотя, согласно там же приведенных формул, YD(x) включает RD(x) . Или мне это мерещится? Сообщение отредактировал stok1946 - 6.03.2013 - 13:08

Ответов

nokh Просмотр профиля	25.02.2013 - 09:29 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Проблема с нелинейной регрессией оказалась куда сложнее, чем я думал. Пусть не сразу, но формулы и для доверительного, и для прогнозного интервалов я нашёл. Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать. Точнее написано, но с использованием матричной формы записи + насколько я понял этот расчёт проводится итерационно. Также найденные формулы - это аппроксимации, а в ряде источников убедительно показано, что они могут быть весьма далеки от реальности. Вот ссылка на хорошую книгу по нелинейной регрессии в биологии: http://yadi.sk/d/esAZDJ2b2rXZe . Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям.

100$ Просмотр профиля	25.02.2013 - 18:42 Сообщение #3
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nokh @ 25.02.2013 - 09:29) Проблема с нелинейной регрессией оказалась куда сложнее, чем я думал. Пусть не сразу, но формулы и для доверительного, и для прогнозного интервалов я нашёл. Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать. Точнее написано, но с использованием матричной формы записи + насколько я понял этот расчёт проводится итерационно. Также найденные формулы - это аппроксимации, а в ряде источников убедительно показано, что они могут быть весьма далеки от реальности. Вот ссылка на хорошую книгу по нелинейной регрессии в биологии: http://yadi.sk/d/esAZDJ2b2rXZe . Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям. Цитата Но дело осложняется тем, что в эти формулы входит гессиан используемой нелинейной функции, а почти нигде не написано, как его рассчитать. Гессиан - это матрица вторых производных оцениваемой модели (по параметрам). Для конкретной функции ее может вывести ( в аналитическом виде) даже среднестатистический троечник технического вуза (тяжелые случаи не рассматриваем). В статпакетах оценивается масса функций (стат. моделей), поэтому численные методы аппроксимации гессиана универсальнее. Вот только возникает гессиан лишь при оценивании методом макс. правдоподобия. При методе наименьших квадратов он и не понадобится. Цитата Хотя здесь не показано построение ДИ для всей регрессии, но зато показано построение ДИ для параметров нелинейной функции аж тремя способами, приводящими к разным значениям. Оно и неудивительно: способ получения стандартных ошибок оцениваемых параметров модели зависит от применяемого метода оценивания. Н-р, оцениваем модель (скажем, пресловутый полином) а) методом наименьших квадратов б) методом макс. правдоподобия в) (обобщенным) методом моментов вот вам и три варианта стандартных ошибок. P.S. Кстати, о полиномах. Полиномы хорошо подгоняют данные (н-р, сплайны, представляющие собой, чаще всего, кубические полиномы) на основе широко известного факта, что через n точек проходит полином n-1 порядка. Но вот прогнозные войства полиномов - отвратительные. Кроме того, полиномы являются линейной (по параметрам) моделью, в связи с чем ее оценивание вообще не представляет сложностей. Наконец, многое нелинейные модели после логарифмирования становятся линейными и оцениваются на ура. Сообщение отредактировал 100$ - 25.02.2013 - 18:48

nokh Просмотр профиля	26.02.2013 - 22:15 Сообщение #4
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(100$ @ 25.02.2013 - 21:42) Гессиан - это матрица вторых производных оцениваемой модели (по параметрам). Для конкретной функции ее может вывести ( в аналитическом виде) даже среднестатистический троечник технического вуза (тяжелые случаи не рассматриваем). В статпакетах оценивается масса функций (стат. моделей), поэтому численные методы аппроксимации гессиана универсальнее. Вот только возникает гессиан лишь при оценивании методом макс. правдоподобия. При методе наименьших квадратов он и не понадобится. Для не слишком сложной функции я смогу найти частные производные и составить систему уравнений для оценки параметров методом наименьших квадратов (МНК), но и это - самообразование. А, к сожалению, в векторной алгебре не понимаю даже на уровне троечника Буду очень признателен если Вы объясните чем заменить гессиан, если мы будем действовать в рамках именно МНК. Цитата(100$ @ 25.02.2013 - 21:42) Наконец, многое нелинейные модели после логарифмирования становятся линейными и оцениваются на ура. С этим есть известные проблемы смещения оценок. Всё зависит от того что в действительности должно быть распределено нормально: ошибка исходной нелинейной функции или ошибка линеаризованной преобразованием функции. Допустим, что нормально распределена ошибка именно исходной функции. Тогда если подгонять модель путём предварительного преобразование к линейному виду, то после ретрансформации ошибка будет распределена ненормально: например, в случае предварительного логарифмирования - логнормально; при этом оценки самих параметров окажутся немного смещены. Поэтому если раньше (до прихода ЭВМ) "на ура" действовали через преобразования шкал, то сейчас обычная практика - подгонка исходных нелинейных моделей по итерационным алгоритмам (хотя я думаю, что для ряда зависимостей естественней было бы работать "по старинке", исходя именно из природы данных). Если бы не было этой проблемы смещения, то через преобразование оси х по Боксу-Коксу можно было бы оптимально линеаризировать огромную массу нелинейных зависимостей самого распространённого степенного семейства. Сообщение отредактировал nokh - 26.02.2013 - 22:31

100$ Просмотр профиля	27.02.2013 - 10:40 Сообщение #5
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nokh @ 26.02.2013 - 22:15) Для не слишком сложной функции я смогу найти частные производные и составить систему уравнений для оценки параметров методом наименьших квадратов (МНК), но и это - самообразование. А, к сожалению, в векторной алгебре не понимаю даже на уровне троечника Буду очень признателен если Вы объясните чем заменить гессиан, если мы будем действовать в рамках именно МНК. Если удалось составить систему нормальных уравнений МНК (т.е. найдя первые производные по параметрам, приравнять их к 0), то она (теоретически) решается с помощью обратной матрицы. Однако, в общем случае проблема нелинейного МНК не решена, и оный МНК сводится к методу макс. правдоподобия. (что забавно: в линейном случае-метод МП сводится к МНК, в нелинейном - МНК ->МП). А аппроксимации (обратного) гессиана для каждого метода оптимизации свои: у Левенберга-Марквардта(L-M)-одна, у Дэвидона-Флетчера-Пауэлла (DFP)-другая, у Бройдена-Флетчера-Гольдфарба-Шенно-третья(BFGS), у Берндта-Холла-Холла-Хаусмана(BHHH)- четвертая. Кто во что горазд. Сообщение отредактировал 100$ - 27.02.2013 - 11:04

nokh Просмотр профиля	11.03.2013 - 22:04 Сообщение #6
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(100$ @ 27.02.2013 - 13:40) Если удалось составить систему нормальных уравнений МНК (т.е. найдя первые производные по параметрам, приравнять их к 0), то она (теоретически) решается с помощью обратной матрицы. Однако, в общем случае проблема нелинейного МНК не решена, и оный МНК сводится к методу макс. правдоподобия. (что забавно: в линейном случае-метод МП сводится к МНК, в нелинейном - МНК ->МП). А аппроксимации (обратного) гессиана для каждого метода оптимизации свои: у Левенберга-Марквардта(L-M)-одна, у Дэвидона-Флетчера-Пауэлла (DFP)-другая, у Бройдена-Флетчера-Гольдфарба-Шенно-третья(BFGS), у Берндта-Холла-Холла-Хаусмана(BHHH)- четвертая. Кто во что горазд. Как всё непросто . "Добить" бы тему ветки хоть для случая параболы - я и для параболы формул ДИ не встречал! Сообщение отредактировал nokh - 11.03.2013 - 22:06

100$ Просмотр профиля	13.03.2013 - 20:37 Сообщение #7
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(nokh @ 11.03.2013 - 22:04) Как всё непросто . "Добить" бы тему ветки хоть для случая параболы - я и для параболы формул ДИ не встречал! Я тоже. Возможно, по причине того, что полиномы по оцениваемым параметрам линейны, для них сгодятся те же ф-лы, что и для парной линейной регрессии.

Сообщений в этой теме

stok1946 Регрессия: доверительный интервал? 15.02.2013 - 20:56

nokh Цитата(stok1946 @ 15.02.2013 - 23:56... 16.02.2013 - 14:20

stok1946 Цитата(nokh @ 16.02.2013 - 15:20) Мн... 17.02.2013 - 10:58

Larina Tatjana Цитата(stok1946 @ 16.02.2013 - 03:26... 21.02.2013 - 12:07

stok1946 ЦитатаРекомендую почитать хорошие книги по регресс... 21.02.2013 - 22:25

nokh Проблема с нелинейной регрессией оказалась куда сл... 25.02.2013 - 09:29

100$ Цитата(nokh @ 25.02.2013 - 09:29) Пр... 25.02.2013 - 18:42

nokh Цитата(100$ @ 25.02.2013 - 21:4... 26.02.2013 - 22:15

100$ Цитата(nokh @ 26.02.2013 - 22:15) Дл... 27.02.2013 - 10:40

nokh Цитата(100$ @ 27.02.2013 - 13:4... 11.03.2013 - 22:04

100$ Цитата(nokh @ 11.03.2013 - 22:04) Ка... 13.03.2013 - 20:37

stok1946 Мне все же кажется, что время приближенных (т.е. о... 21.03.2013 - 20:19

p2004r Цитата(stok1946 @ 21.03.2013 - 20:19... 23.03.2013 - 13:06

Енот Задам вопрос в этой теме, чтобы не открывать новую... 1.07.2013 - 15:44

TheThing Цитата(Енот @ 1.07.2013 - 15:44) Зад... 1.07.2013 - 16:15

Енот Ссылку на статью не могу - она не опубликована, во... 1.07.2013 - 19:26

TheThing Цитата(Енот @ 1.07.2013 - 19:26) Ссы... 1.07.2013 - 20:46

Liz <The Thing: Посмотрите например эту статью...... 1.07.2013 - 23:01

Енот Большое спасибо! 2.07.2013 - 07:11

Енот Нужно провести анализ методом логистической регрес... 3.07.2013 - 10:27

DrgLena Судя по первому посту, Вы работаете в SPSS, а поэт... 3.07.2013 - 11:26

Енот 'DrgLena' Большое спасибо! ЦитатаСудя... 3.07.2013 - 12:20

DrgLena Да, в Statictica не предусмотрена работа с категор... 3.07.2013 - 12:27

DrgLena В программе Statistica возможна работа с количеств... 3.07.2013 - 12:31

Енот Цитата(DrgLena @ 3.07.2013 - 13:31) ... 3.07.2013 - 14:40

DrgLena У вас примерно все так, как в прикрепленном файле ... 3.07.2013 - 15:29

Енот Большое спасибо! Это многое прояснило! у ... 3.07.2013 - 16:15

Енот Работаю над иностранной статьей, там речь идет о ... 5.02.2014 - 20:35

100$ Цитата(Енот @ 5.02.2014 - 21:35) Под... 6.02.2014 - 08:33

nokh Цитата(Енот @ 5.02.2014 - 23:35) Под... 6.02.2014 - 13:06

Енот Нашла, что GMR в данной статье есть geometric mean... 6.02.2014 - 17:04

Енот Помогите, пожалуйста разобраться с таким вопросом.... 9.03.2014 - 12:57

100$ Цитата(Енот @ 9.03.2014 - 13:57) Пом... 9.03.2014 - 14:01

Енот Это единственно возможная причина? Ведь принципе ... 9.03.2014 - 14:26

100$ Цитата(Енот @ 9.03.2014 - 15:26) Это... 13.03.2014 - 15:41

« Предыдущая тема · Медицинская статистика · Следующая тема »