Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Какие остатки считать приемлемыми
kont
сообщение 1.12.2018 - 14:08
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 1.12.2018 - 14:14
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 103
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(kont @ 1.12.2018 - 14:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

hi.gif, kont

Все расхождения допустимы. Однако желательны минимальные. Оцените адекватность уравнения, проверив вид распределения остатков,
а также проверьте чему равен коэффициент детерминации R-квадрат. Также оптимально использовать не один вид уравнения, например,
линейный, а также и набор разных видов уравнений. Например, нелинейных, с разными степенями и произведениями предикторов, и т. д.

Успеха!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.12.2018 - 15:26
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 1052
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(kont @ 1.12.2018 - 14:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)


Крутизна модели определятся минимумом информационного критерия (одного из). Он собственно и помогает принять решение на какой "крутизне" модели разумно остановиться.

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%...%B8%D0%BA%D0%B5


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 1.12.2018 - 19:50
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1081
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(kont @ 1.12.2018 - 16:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)

В вашем вопросе - несколько вопросов, имеющих разные ответы, поэтому вам ответили кто что считал важнее.

1) Вопрос о статистической значимости модели. Модели подгоняются таким образом, чтобы минимизировать остатки. В классическом варианте (метод наименьших квадратов) минимизируется сумма квадратов остатков. В этом смысле отдельные остатки, действительно, не имеют значения: важно чтобы дисперсия (средний квадрат - MS) регрессии была значимо больше дисперсии остатков. Эти две дисперсии сравниваются F-критерием (Снедекора - Фишера). Если Р-значение для F-критерия оказывается мало (например, меньше или равно 0,05), то модель следует считать статистически значимой и в этом смысле она - "крута". Рекомендации использовать коэффициент детерминации R2 распространены в литературе, сложно сказать откуда это пошло, но это идеологически неверно. Коэффициент детерминации позволяет оценить тесноту связи, корреляции - это мера общей дисперсии для Х и Y (в простейшем случае). Она одинакова для регрессии Y по Х и для регрессии X по Y, хотя уравнения этих зависимостей разные, их статистическая значимость - разная. И хотя для более сильной модели R2 действительно будет больше, но как-то нехорошо оценивать силу зависимости по силе связи - только как быстрый ориентир, эмпирика.

2) Качество модели. Если для одних и тех же данных можно предложить разные модели, то возможны варианты. Качественная модель модель должна быть не только статистически значимой, но и хорошо работать на других выборках. Построив более сложную модель мы добьёмся высокой статистической значимости для описания нашей конкретной выборки. Но где гарантии, что она так же хорошо опишет следующие выборки, т.е. подходит для всей генеральной совокупности? Практика показывает, что более универсальны не сложные модели с частностями и малыми остатками, а более простые модели. Баланс между сложностью и простотой находится с помощью информационных критериев и перекрёстной проверки (кросс-проверки). В этом смысле самая "крутая модель" - наиболее универсальная, воспроизводимая на других данных или хотя-бы - на части этих же данных.

3) Качество данных для построения зависимости и дополнительный контроль правильности выбора модели. Если мы более-менее определились с моделью - имеет смысл провести углублённый анализ остатков. Он покажет насколько хорошо отдельные наблюдения вписываются в модель, какие наблюдения наиболее сильно влияют на форму зависимости, и насколько эта форма была выбрана правильно. В этом смысле наиболее "крутая" модель - та, которая не содержит выбросов (outliers), применительно к моделям регрессии - статистически значимых внешних (удалённых) стьюдентизированных остатков. Именно такие остатки считаются "неприемлемыми". В своё время я сводил эту информацию воедино, поэтому прочитайте этот материал: http://forum.disser.ru/index.php?act=attac...post&id=284
Он для линейной регрессии, но для множественной меры те же. Также там есть информация по влиятельным наблюдениям.

Можно ещё упомянуть о методах и критериях анализа остатков, типа автокорреляции и однородности дисперсий, про это кратко есть в моём пособии: https://yadi.sk/d/g50i73pt3J6pAa

PS Посмотрел нашу дискуссию по выбросам, куда выкладывал материал. Она была ровно 9 лет назад. Это - ужасно mega_shok.gif

Сообщение отредактировал nokh - 2.12.2018 - 14:15
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему