Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Выбросы и влияющие наблюдения
Pinus
сообщение 11.11.2009 - 02:55
Сообщение #1





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Народ, где можно найти толковое описание процедуры проверки данных на выбросы (статистика Кука и расстояние Махаланобиса) и влияющие наблюдения?

Сообщение отредактировал Pinus - 11.11.2009 - 02:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Pinus
сообщение 13.11.2009 - 14:24
Сообщение #2





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Avorotniak, большое спасибо за ответ!
Если не затруднит, посоветуйте:
1. Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.
2. Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?
3. Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
avorotniak
сообщение 13.11.2009 - 17:37
Сообщение #3





Группа: Пользователи
Сообщений: 23
Регистрация: 24.07.2009
Пользователь №: 6183



Вопрос:
Регрессия простая нелинейная (полином 2-го порядка).
Можно ли использовать для проверки на выбросы графический анализ (в Statistica 6 нет приведенного Вами графика Residuals vs. Fitted values, можно ли использовать Predicted vs. Residual Scores: по сути, наверно, то же самое, только оси наоборот)? Вообще, если я правильно понимаю, то суть такого графического метода заключается в нахождении данных с резко отличающимися остатками. Тогда можно использовать обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии: смотрим значения с сильно большими остатками ? расстояние от линии регрессии до значения переменной по оси Y. Тогда почему нельзя также сделать в отношении простой нелинейной регрессии (один влияющий фактор)? Когда два и более факторов, то понятно ? пространство.

Ответ
Очень важный момент: линейность регрессии определяется ее параметрами (коэффициентами), а не переменными. Поэтому, полиномиальная регрессия все же остается линейной, со всеми вытекающими последствиями. Упомянутый Вами график Predicted vs. Residual Scores, по-видимому, является графиком стандартизированных остатков (разделенных на свое стандартное отклонение). В принципе, нет проблем, даже лучше для детекции выбросов.
Обычный график зависимой и независимой переменных с облаком рассеяния и линией регрессии дает лишь приблизительное представление, так как, остатки ? это разница между наблюдением и ?рredicted? в квадрате:
квадрат (y ? y fit);

Вопрос:
Если графическим путем установлено нормальное распределение остатков, можно ли для полинома использовать статистику Кука (полином ? функция линеаризуемая)? Или только для простых линейных регрессий?

Ответ:
Полиномиальная регрессия - это линейная регрессия, поэтому можете использовать статистику Кука. Кстати, для детекции влияющих наблюдений, также можете использовать DF FIT, DF BETA ? поищите в своей программе.
На графике остатков основное внимание обращается на гомогенность облака, эта гомогенность свидетельствует об однородности дисперсий остатков (что тесно связано с нормальностью). Проверка на нормальность обычно проводится с помощью QQ plot.

Вопрос:
Из сказанного Вами по поводу влияющих наблюдений, можно заключить следующее: если облако рассеяния однородное (пусть даже вытянутое, но с более или менее равномерным распределением значений влияющего фактора, особенно по краям), и крайних значений не одно, а несколько, и их остатки невелики, то беспокоится о проверке влияющих наблюдений не стоит и, в принципе, графического анализа и в этом случае будет достаточно. Правильно?

Ответ:
В принципе, правильно. Однако, учитывая, что все более менее нормальные статистические программы без труда проводят регрессионную диагностику (графики остатков, определение влияющих наблюдений и многое другое), думаю, что стоит, на всякий случай, убедится или глаз нас не обманывает.
Важное замечание: для оценки коэфициентов регрессии (если модель используется для предсказания) распределение остатков не очень важно, так как при разработке теории для такой оценки не используется предположение о нормальном распределении ошибок. Однако, если Вы хотите провести инференцию (найти доверительные интервалы для коэфициентов), тогда важно убедится в том, что остатки не сильно отклоняются от нормального распределения (оценка такого отклонения довольно субъективна, так как, понятие нормальности используется для разработки теорий, на практике она не существует).




Signature
Андрей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Pinus   Выбросы и влияющие наблюдения   11.11.2009 - 02:55
- - DrgLena   Я использую статистику критерия Граббса, если про...   11.11.2009 - 14:58
- - Pinus   Мне для регрессии. В Statistica предлагается два к...   12.11.2009 - 02:14
- - avorotniak   Выброс (outlier) определяется отдаленностью отдель...   12.11.2009 - 05:46
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 13...   14.11.2009 - 08:10
|- - Pinus   Цитата(avorotniak @ 12.11.2009 - 12...   16.11.2009 - 15:58
|- - avorotniak   Цитата(Pinus @ 16.11.2009 - 15:58) А...   16.11.2009 - 22:06
- - nokh   > Pinus. Посмотрел в нескольких русскоязычных к...   12.11.2009 - 17:28
- - avorotniak   Сразу хотелось бы уточнить, что дистанция Махалано...   12.11.2009 - 21:50
- - nokh   Большое спасибо, посмотрю. Кому нужно: http://phot...   12.11.2009 - 22:24
- - Pinus   Avorotniak, большое спасибо за ответ! Если не ...   13.11.2009 - 14:24
|- - avorotniak   Вопрос: Регрессия простая нелинейная (полином 2-го...   13.11.2009 - 17:37
- - Pinus   nokh, не встречали ли где про Кука? При каких усло...   13.11.2009 - 14:42
- - avorotniak   Извините, небольшая поправка к следующей фразе: О...   13.11.2009 - 18:16
- - DrgLena   Цитата(Pinus @ 14.11.2009 - 08:10) Н...   14.11.2009 - 14:24
- - avorotniak   Правильно по поводу перцентиля 50, однако поищите ...   14.11.2009 - 14:28
- - Pinus   DrgLena, спасибо! Андрей, тоже спасибо! Ск...   15.11.2009 - 02:30
- - Pinus   Андрей, получается, что статистика Кука и для выбр...   15.11.2009 - 14:04
- - Pinus   Кто может подсказать, как правильно перевести Lint...   15.11.2009 - 16:55
- - avorotniak   Интересный и глубокий вопрос. Хотелось бы еще раз ...   15.11.2009 - 17:10
|- - Pinus   Цитата(avorotniak @ 16.11.2009 - 00...   16.11.2009 - 05:44
- - avorotniak   Абсолютно согласен. Извините за дезинформацию.   16.11.2009 - 07:34
- - Pinus   Вообще книги на русском, в которых в той или иной ...   16.11.2009 - 15:53
- - Pinus   Как понять Deleted Residual (удаленные остатки)? Э...   17.11.2009 - 17:09
|- - nokh   Цитата(Pinus @ 17.11.2009 - 20:09) К...   18.11.2009 - 18:15
|- - avorotniak   [quote name='nokh' date='18.11.2009 - ...   18.11.2009 - 22:18
|- - Игорь   Цитата(nokh @ 18.11.2009 - 19:15) Лу...   30.11.2009 - 10:13
|- - Pinus   Цитата(Игорь @ 30.11.2009 - 17:13) С...   30.11.2009 - 16:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 12:13) Н...   30.11.2009 - 19:11
|- - Игорь   Цитата(nokh @ 30.11.2009 - 20:11) ст...   30.11.2009 - 20:58
|- - nokh   Цитата(Игорь @ 30.11.2009 - 22:58) М...   30.11.2009 - 21:43
- - nokh   Сегодня исправил описку в своём предыдущем посте -...   19.11.2009 - 15:06
|- - Pinus   Цитата(nokh @ 19.11.2009 - 22:06) В ...   23.11.2009 - 12:48
|- - nokh   Цитата(Pinus @ 23.11.2009 - 15:48) П...   25.11.2009 - 05:45
- - Green   Leverage - видела перевод как "воздействие...   19.11.2009 - 15:20
|- - DoctorStat   Я не специалист по выбросам, но с точки зрения ста...   19.11.2009 - 16:16
- - avorotniak   Пересчитал вручную стандартизированые остатки. Сог...   19.11.2009 - 16:50
- - avorotniak   DoctorStat затронул очень интересную тему. Обрати...   19.11.2009 - 17:19
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 00...   19.11.2009 - 17:55
|- - avorotniak   Цитата(Pinus @ 19.11.2009 - 17:55) Я...   19.11.2009 - 19:05
|- - Pinus   Цитата(avorotniak @ 20.11.2009 - 02...   22.01.2010 - 05:43
- - Pinus   Позвольте внести мой скромный вклад. Вчера тоже ра...   19.11.2009 - 17:36
- - Pinus   nokh, развейте мои дилетантские соображения. Не по...   20.11.2009 - 13:58
- - nokh   Пока не готов ответить, ещё почитаю.   20.11.2009 - 15:50
- - nokh   Вот что по этому поводу есть в википедии: ".....   23.11.2009 - 08:08
|- - Pinus   Цитата(nokh @ 23.11.2009 - 15:08) Т....   23.11.2009 - 12:44
- - Pinus   Спасибо!   25.11.2009 - 13:14
- - Игорь   По рассматриваемой теме очень рекомендую источник:...   29.11.2009 - 19:50
- - Игорь   1. В книге Дэйвида "Порядковые статистики...   1.12.2009 - 08:55
|- - Pinus   Цитата(Игорь @ 1.12.2009 - 15:55) Ка...   3.12.2009 - 07:57
||- - Игорь   Цитата(Pinus @ 3.12.2009 - 07:57) Иг...   3.12.2009 - 08:02
|- - Pinus   Игорь, я просчитал. С Вашим примером сошлось. Но п...   5.12.2009 - 01:36
|- - Игорь   Цитата(Pinus @ 5.12.2009 - 01:36) Иг...   5.12.2009 - 12:36
- - DrgLena   Цитата(Игорь @ 1.12.2009 - 09:55) а ...   1.12.2009 - 12:29
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   1.12.2009 - 12:55
|- - Pinus   Цитата(DrgLena @ 1.12.2009 - 19:29) ...   3.12.2009 - 08:50
|- - Игорь   Цитата(DrgLena @ 1.12.2009 - 13:29) ...   3.12.2009 - 10:48
- - DrgLena   Игорь, за AtteStat ВАМ не просто большое спасибо, ...   1.12.2009 - 13:34
- - Pinus   Игорь, спасибо за ссылки!   3.12.2009 - 12:21
- - Pinus   Игорь, что-то совсем другие цифры у меня получаютс...   3.12.2009 - 14:35
|- - Игорь   Цитата(Pinus @ 3.12.2009 - 15:35) Иг...   3.12.2009 - 18:44
|- - Pinus   Цитата(Игорь @ 4.12.2009 - 01:44) Ко...   4.12.2009 - 12:01
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 13:01) В ...   4.12.2009 - 13:27
- - DrgLena   Игорь, если готовите дополнение к AtteStat, посмо...   3.12.2009 - 15:37
- - nokh   Рассмотрение классического примера об ирисах Фишер...   3.12.2009 - 20:05
- - Pinus   Игорь, если не трудно дайте ссылку откуда вы брали...   4.12.2009 - 14:47
|- - Игорь   Цитата(Pinus @ 4.12.2009 - 15:47) Иг...   4.12.2009 - 21:02
- - Pinus   Nokh, попробуйте на своем софте (в программах, кот...   5.12.2009 - 02:06
- - nokh   Ирисы считать не хочу: поскольку использовать OLS-...   5.12.2009 - 02:44
- - DrgLena   Задачка имеет два решения относительно анализа ост...   5.12.2009 - 17:29
|- - Игорь   Цитата(DrgLena @ 5.12.2009 - 17:29) ...   5.12.2009 - 21:11
|- - Pinus   Цитата(DrgLena @ 6.12.2009 - 00:29) ...   6.12.2009 - 00:32
- - nokh   Закончил вчерне свой труд, конструктивная критика ...   6.12.2009 - 11:31
- - DrgLena   Nokh, спасибо большое, хорошая работа, многое стан...   7.12.2009 - 04:05
|- - Игорь   Цитата(nokh @ 6.12.2009 - 11:31) Зак...   7.12.2009 - 08:03
|- - nokh   Как показал анализ, необходимых и достаточных мер ...   7.12.2009 - 08:34
|- - Игорь   Цитата(nokh @ 7.12.2009 - 08:34) Все...   7.12.2009 - 08:45
- - nokh   Цитата(Игорь @ 7.12.2009 - 10:45) Не...   7.12.2009 - 09:03
|- - Игорь   Мне очень понравились формулы nokh. Если считать п...   7.12.2009 - 18:33
|- - Игорь   Цитата(Игорь @ 7.12.2009 - 18:33) Вы...   8.12.2009 - 12:52
- - DrgLena   Цитата(Игорь @ 7.12.2009 - 08:03) Уж...   7.12.2009 - 12:41
- - DrgLena   Отличная работа, как говорят математики, что и сле...   7.12.2009 - 19:49
- - Pinus   Не берусь утверждать, но может быть, когда берется...   8.12.2009 - 15:33
- - nokh   >Игорь. Не знаю можно ли эти меры считать эквив...   8.12.2009 - 16:09
- - avorotniak   Думаю, что одной из причин различий в формулах рас...   8.12.2009 - 19:57
- - DrgLena   Мне удалось найти один из двух источников на котор...   8.12.2009 - 21:50
|- - Игорь   Цитата(DrgLena @ 8.12.2009 - 22:50) ...   9.12.2009 - 07:32
- - DrgLena   Речь шла о диагностике, обязательно ли для получен...   9.12.2009 - 13:31
|- - avorotniak   [quote name='DrgLena' date='9.12.2009 ...   10.12.2009 - 02:20
- - Игорь   Только факты. 1. Chattejee, Hadi, 1988. С. 117, ф...   10.12.2009 - 07:22
- - Pinus   Возникла такая проблема. Простая линейная регресси...   2.02.2010 - 10:37
|- - Игорь   Цитата(Pinus @ 2.02.2010 - 11:37) Во...   2.02.2010 - 17:02
||- - Pinus   Цитата(Игорь @ 3.02.2010 - 00:02) А ...   3.02.2010 - 03:06
|- - nokh   Цитата(Pinus @ 2.02.2010 - 12:37) Во...   2.02.2010 - 18:17
- - Pinus   Я вот вчера размышлял, по всей видимости тут в дру...   3.02.2010 - 03:11
|- - Игорь   Цитата(Pinus @ 3.02.2010 - 04:11) Ес...   3.02.2010 - 12:12
|- - nokh   Цитата(Pinus @ 3.02.2010 - 05:11) Мы...   3.02.2010 - 20:28
|- - Pinus   Цитата(nokh @ 4.02.2010 - 03:28) А з...   4.02.2010 - 01:59
- - Pinus   Nokh, в Вашем конспекте по выбросам и влияющим наб...   4.03.2010 - 01:38
- - nokh   В конспекте все основные ссылки были. Пока нет вре...   6.03.2010 - 19:49
2 страниц V   1 2 >


Добавить ответ в эту темуОткрыть тему