Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Критические значения для стандартной ошибки оценки регрессии (Std. Error of estimate)
Pinus
сообщение 30.11.2009 - 16:30
Сообщение #1





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Стандартная ошибка оценки регрессии (Std. Error of estimate) ? является показателем качества аппроксимации результатов наблюдений. Ее квадрат интерпретируется как дисперсия остатков, представляющая ошибку измерения, с которой любое измеренное значение Y предсказывается для данного значения X по известному уравнению (если уравнение регрессии оценивается из неопределенно большого числа наблюдений). При поиске лучшей модели стоит минимизировать Std. Error of estimate.
Вопрос: существуют ли какие-либо придержки удовлетворительных значений или критические точки для стандартной ошибки оценки регрессии? Как оценить полученное значение, много или мало?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 30.11.2009 - 17:23
Сообщение #2





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Аппроксимация результатов наблюдений может идти по разным моделям. Например: экспоненциальная, показательная, линейная.

Далее логика просит сравнить их.

По-видимому, наилучшей аппроксимацией является та, в которой минимально отклонение между моделью и реальными данными. Это в относительных значениях.

Для оценки качества модели и полноты набора объяснительных факторов обычно используют коэффициент детерминированности R^2. Его еще называют величиной достоверности аппроксимации, или уровнем надежности. Коэффициент детерминированности R^2 - это отношения дисперсии, которая поясняется регрессионным анализом, к общей дисперсии.

Он обычно исчисляется по формуле

R^2 = SSрег/(SSрег + SSост.) ,

где SSрег. = S (Y(Xi) - Yср.)^2- сумма квадратов отклонений уровней исходного ряда данных от его среднего значения;

SSост. - сумма квадратов уровней остаточной компоненты.

Коэффициент детерминации дает количественную оценку меры анализируемой связи. Он показывает часть вариации результативного признака, который находится под влиянием факторов, которые изучаются, то есть определяет, какая частица вариации признака Y учитывается в модели и обусловлена влиянием на нее независимых факторов.

Чем ближе R^2 к 1, тем в большей степени уравнения регрессии объясняет фактор, который изучается (при функциональной связи R2 равняется 1, а из-за отсутствия связи -0).

Если, например, R^2 равняется 0,9, то можно считать, что 90 % изменений (вариаций) в отклике обуславливается вариациями в учтенных факторах и лишь 10 % ? за счет влияния других факторов.


Ну вот как-то так...

=========
Std. Error of estimate - это в общем ошибка точечного оценивания параметров, а не регресии ( имхо).

Сообщение отредактировал Green - 30.11.2009 - 17:58


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 30.11.2009 - 18:30
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Green @ 30.11.2009 - 19:23) *
...По-видимому, наилучшей аппроксимацией является та, в которой минимально отклонение между моделью и реальными данными. Это в относительных значениях...

Правильнее сказать между моделью и данными в генеральной совокупности. А т.к. они неизвестнтны - имеем главную задачу мат. статистики - охарактеризовать генеральную совокупность по выборке реальных данных. И здесь начинаются трудности. Вот что написано в: Хальд А. Математическая статистика с техническими приложениями. М.: Изд-во иностр. лит., 1956. 664 с.
"Кажется заманчивым использовать F-критерий для расположения гипотез в порядке их "доброкачественности", причём гипотеза приводящая к наименьшему значению F для отклонений от регрессии считалась бы "наилучшей". Однако это никоим образом не является правильным, т.к. значение F, соответствующее "верной" гипотезе есть случайная величина, вполне могущая принимать сравнительно большое значение при имеющихся данных".
Т.о. может быть такая ситуация, когда, например, зависимость в популяции степенная, но в выборке большую стат. значимость демонстрирует линейная. Поэтому будьте осторожны! При выборе форм зависимости опираться следует в первую очередь на теоретический анализ явления, предел мечтаний - вывести формулу из дифференциальных уравнений. К сожалению некоторые эконометристы-практики настолько заигрались с моделями, что рекомендуют прямо противоположное Хальду: сталкивался с такими высказываниями и даже экзаменационной задачей.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 1.12.2009 - 00:55
Сообщение #4





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Это все так, конечно. Понятно, что для выбора модели прежде всего следует опираться на теоретический анализ изучаемого явления. Однако часто бывает, что нами изучается какой-то небольшой интервал процесса, и при наличии хотя бы условно большой выборки мы можем выбирать модель для аппроксимации, опираясь, скажем на диаграмму рассеяния. Понятно, что могут быть огрехи, но надо смотреть здраво и понимать, что сделанные выводы ? это только неотвергнутые с заданной вероятностью гипотезы. А ?заиграться? можно не только с регрессией, но и со статистикой вообще и с дифурами тоже.
Вопрос не в этом. Есть стандартные процедуры регрессионного анализа и определенный набор параметров и методов. Да, коэффициент детерминации ? важный показатель, но это еще не весь регрессионный анализ (если, конечно, не делать его на уровне Микрософт Эксэль). Ну, объяснили мы предикторами 80% дисперсии отклика ? это хорошо. А какая она эта дисперсия вообще? Может быть она огромная, очень большой разброс, или маленькая ? есть ведь разница?
Всегда также рассчитывают стандартную ошибку оценки регрессии (Std. Error of estimate). Думаю, что для чего-то этот показатель нужен и вероятно он чем-то отличается и что-то отражает, раз его везде приводят при оценке точности регрессии. Что он отражает (если я ошибся в своих оценках) и как им практически воспользоваться? Судя по расчетам, Std. Error of estimate может принимать совершенно различные значения: от долей единицы до десятков, и вероятно зависит от единиц измерения изучаемой величины. Что в таком случае делать с этим показателем?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 1.12.2009 - 05:35
Сообщение #5





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Стандартная ошибка оценки регрессии (Std. Error of estimate или Residual Standard Error).
Мы уже обсуждали тему остатков линейной регрессии и рассматривали их как вертикальные дистанции между наблюдениями и регрессионной прямой. Если возвести все эти дистанции в квадрат, суммировать, разделить на степень свободы и потом взять квадратный корень, то получится стандартная ошибка оценки регрессии. Очевидно, что при измерении размеров слона, эти дистанции будут намного больше, чем при измерении мухи, поэтому Residual Standard Error зависит от шкалы.
Зачем нужны оценки ошибки регрессии?
Подбор адекватной модели регрессии это процесс динамический, пошаговый. Очень важно знать к чему приводит каждый такой шаг (например, если выбросить из модели один из предикторов, добавить взаимодействие и т.д.). Для этого и служат такие меры как Std. Error of estimate, коэффициент детерминации, Ср, А?К, predictive error и многие другие. Использование того или иного критерия для подгонки регрессионной модели зависит от каждого специалиста.
Таким образом, не существует универсальных значений стандартной ошибки оценки регрессии. При подборе модели нужно стремится к ее минимизации.


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 1.12.2009 - 10:49
Сообщение #6





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Для выбора лучшей модели из нескольких [параметрических] моделей можно применять критерий Акаике (AIC).


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 2.12.2009 - 00:14
Сообщение #7





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(avorotniak @ 1.12.2009 - 12:35) *
Подбор адекватной модели регрессии это процесс динамический, пошаговый. Очень важно знать к чему приводит каждый такой шаг (например, если выбросить из модели один из предикторов, добавить взаимодействие и т.д.). Для этого и служат такие меры как Std. Error of estimate, коэффициент детерминации, Ср, А?К, predictive error и многие другие. Использование того или иного критерия для подгонки регрессионной модели зависит от каждого специалиста.
Таким образом, не существует универсальных значений стандартной ошибки оценки регрессии. При подборе модели нужно стремится к ее минимизации.

Андрей, т.е. если пошаговый метод не используется (один предиктор), то каким-то образом использовать Std. Error of estimate нельзя? Вы не встречали нигде, нельзя ли ее превратить в какую-нибудь относительную величину, или блин стьюдентизировать..?
Если нельзя, то судя по определению, Std. Error of estimate для остатков это примерно как стандартная ошибка для вариационного ряда, только для регрессии.

Сообщение отредактировал Pinus - 2.12.2009 - 00:15
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 2.12.2009 - 03:39
Сообщение #8





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Думаю, что в Вашем случае все равно нужно указать стандартную ошибку, однако она не сможет определить качество модели.
Для определения качества подбора модели я бы посоветовал Вам использовать, с одной стороны, коэффициент детерминации, который описала Green в посте от 30 ноября, а с другой, показать графически более-менее адекватное облакообразное распределение остатков.
Удачи!


Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 7.12.2009 - 13:14
Сообщение #9





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Нашел вот один подход к оценке величины стандартной ошибки ? делят ее на среднюю величину отклика и выражают в процентах. Получается что-то типа коэффициента вариации. Хотя это не критическое значение, но по подобию с коэффициентом вариации, на основе опытного знания о значениях такой величины для исследуемого параметра, можно полагать много, мало или нормально.
Кто что думает об этом?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 7.12.2009 - 14:38
Сообщение #10





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Только мнение
Подход похож на расчет относительной погрешности прибора измерения.

Аналогия такая- регрессия - "прибор" для определения зависимости. Погрешность измерений у него абсолютная - Std. Error of estimate. Относительная - как Вы описали.






Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему