![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Одним из условий применения регрессионного анализа являются точные данные значений факторов (предикторов). Если точность данных вызывает сомнения, то регрессионная задача может усложниться ввиду невозможности применения МНК.
Дрейпер и Смит в кн. Прикладной регрессионный анализ (т.1, с.161-162) пишут, что использование МНК и обычной регрессионной модели в таких случаях приемлемо, когда отношение дисперсии ошибок в предикторах к дисперсии истинных значений предикторов является малой величиной. Практически это означает, что разброс истинных величин предикторов должен существенно превышать разброс ошибок в предикторах. В этом случае ошибками в предикторах можно пренебречь и применять обычный МНК. Что в данном контексте означает (малой величиной) и (существенно превышать)? Существуют какие-либо численные придержки на этот счет, чтобы можно было сослаться? |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Одним из условий применения регрессионного анализа являются точные данные значений факторов (предикторов). Если точность данных вызывает сомнения, то регрессионная задача может усложниться ввиду невозможности применения МНК. Дрейпер и Смит в кн. Прикладной регрессионный анализ (т.1, с.161-162) пишут, что использование МНК и обычной регрессионной модели в таких случаях приемлемо, когда отношение дисперсии ошибок в предикторах к дисперсии истинных значений предикторов является малой величиной. Практически это означает, что разброс истинных величин предикторов должен существенно превышать разброс ошибок в предикторах. В этом случае ошибками в предикторах можно пренебречь и применять обычный МНК. Что в данном контексте означает (малой величиной) и (существенно превышать)? Существуют какие-либо численные придержки на этот счет, чтобы можно было сослаться? Вряд ли кто-то приведёт численные "придержки" - больше в 20 раз в малой выборке может быть незначимым, а больше в 1,2 раза в большой выборке - значимым. Если бы ошибки предикторов были известны, можно было бы в ходе обычного однофакторного дисперсионного анализа посмотреть насколько они велики относительно величин предикторов и оценить стат. значимость. Но вся проблема в том и состоит, что ошибки предикторов обычно никто не смотрит. При этом руководствуются тем, что если значения независимой переменной находятся под контролем экспериментатора, то её ошибками можно пренебречь (к сожалению, ссылку сейчас не дам). Например, прошедшей ночью один человек умер в 23:59 - "вчера", а его ровесник в 0:01 - "сегодня". Но при этом второй родился на 2 минуты раньше первого в 23:59 и его записали предыдущим днём, а первого - следующим. В анализе выживаемости продолжительность жизни этих людей пойдёт с разницей в двое суток, тогда как реально разница составляет 4 минуты. Тем не менее эта погрешность считается небольшой a priori, и ей пренебрегают. Хотя встречал формулу расчёта регрессии при известной ошибке предиктора. Ещё проще если мы сами задаём значение предиктора, например исследуем зависимость ч/л от концентрации - неточностями концентрации которые хоть как будут (отмерять по молекулам человек только учится) также пренебрегают. Если ошибка предиктора "относительно велика" и ей пренебречь нельзя - расчёт ведётся методом максимального правдоподобия и получаем конфлюэнтный анализ. Судя по отсутствию внятных источников, хорошую книгу по этому анализу кому-то ещё предстоит написать. К конфлюэнтному анализу, похоже, относят и принципиально другой класс задач - когда ошибка предиктора не только велика, но и не может быть оценена. Это тот случай, когда зависимость строится по данным, где и предиктор и отклик взяты из популяции и содержат ошибки. Например, мы берём несколько проб из водоёма, измеряем в них температуру и концентрацию фитопланктона. Строить зависимость концентрации от температуры будет некорректно, т.к. мы температуру не контролируем. А вдруг температура изменятся под влиянием холодных ключей, а планктон такую воду не любит по независящим от температуры причинам? Такие натурные данные нужно обрабатывать не обчным МНК; по терминологии Sokal & Rohlf (Biometry) это - модель II регресии, которая обсчитывается иначе - техниками более близкими к корреляционному анализу, чем к классической регрессии. Сообщение отредактировал nokh - 25.11.2009 - 12:00 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Положим, есть некий параметр (он будет предиктором), который экспериментатор не может изменять, но который стабилен на период проведения эксперимента и не может изменяться под влиянием сторонних факторов. Этот параметр в данных условиях существующими приборами можно измерить лишь со значительной ошибкой. Если мы знаем точность метода измерения, то может ли это служить оценкой ошибок в предикторах? Тогда, как Вы пишите, мы могли бы с помощью ANOVA оценить их значимость.
Если, положим, ошибки значимы, может ли быть выходом из положения (для применения МНК), если мы будем строить регрессию с большими единицами измерения предиктора, которые будут перекрывать ошибку измерения? Вообще в этом случае стоит ли говорить об ошибках в предикторе, если речь о точности измерения. Или ошибки в предикторах ? это только некие ?подводные ключи?, о количестве и величине которых мы не можем судить? |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
1)...Если, положим, ошибки значимы, может ли быть выходом из положения (для применения МНК), если мы будем строить регрессию с большими единицами измерения предиктора, которые будут перекрывать ошибку измерения? 2).Вообще в этом случае стоит ли говорить об ошибках в предикторе, если речь о точности измерения. Или ошибки в предикторах ? это только некие ?подводные ключи?, о количестве и величине которых мы не можем судить? Ответа на первый вопрос не знаю. На второй - об ошибках в оценке предиктора говорить стоит, и эту информацию как-то можно учесть в ходе анализа чтобы устранить смещение оценок параметров регрессии, привносимое этой ошибкой. Знаю только, что это - конфлюэнтный анализ. Формулы и софт не известен. Это был бы самый правильный подход. Если найдёте толковый источник по которому это можно освоить - заранее прошу поделиться. Если не найдёте такого решения - можно использовать стандартные главные оси (reduced major axis = standard major axis = geometric mean regression). Так тоже считают, хотя концептуально они здесь менее уместны, т.к. используются для выражения линией корреляции, т.е. для модели II регрессии. Для неё знаю формулы и софт: http://www.bio.sdsu.edu/pub/andy/RMA.html Сообщение отредактировал nokh - 25.11.2009 - 15:20 |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Nokh, я вот о чем думаю. Любое измерение ошибочно. Если мы начинаем измерять на уровне молекул, значит остаются ошибки на уровне атомов, если измеряем на уровне атомов ? значит ошибаемся на уровне элементарных частиц и т.д. Все дело в значимости ошибок, в их соотношении со значениями, которые принимает измеряемая величина. А также в требуемом уровне точности. И наверно именно с этой позиции надо рассматривать понятие ?точное измерение предиктора?. Если иначе, тогда МНК вообще нигде неприменим, т.к. даже если мы утверждаем, что контролируем эксперимент и значения предиктора, то все равно в этом всегда будут свои ошибки. И контролировать значение параметра ? это часто гораздо труднее и менее точно, чем просто измерить стабильную величину. Поэтому, я думаю (но не утверждаю), что когда речь идет об ошибках в предикторах, то подразумеваются нестабильные на период эксперимента параметры, когда эту нестабильность нельзя обнаружить и учесть.
По поводу конфлюэнтного анализа тоже встречал только общие фразы. Если попадется что толковое, обязательно поделюсь, но я в своем случае думаю покопать скорее не здесь, а в метрологии. У них там тоже есть свои приложения статистики, и как раз в части ошибок измерений. Сообщение отредактировал Pinus - 25.11.2009 - 16:18 |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Одним из условий применения регрессионного анализа являются точные данные значений факторов (предикторов). Если точность данных вызывает сомнения, то регрессионная задача может усложниться ввиду невозможности применения МНК. Дрейпер и Смит в кн. Прикладной регрессионный анализ (т.1, с.161-162) пишут, что использование МНК и обычной регрессионной модели в таких случаях приемлемо, когда отношение дисперсии ошибок в предикторах ... В первом предложении безапелляционно постулируется неверная информация. Во втором она опровергается, причем автор поста полагает, что второе предложение как раз подтверждает высказанное им неверное утверждение. А вот не являются. И МНК вы можете формально применить в любом случае. Ибо ошибки присутствуют всегда. Т.о. само название темы - это "масло масляное". Проблема при больших ошибках или большом разбросе, или неадекватной модели начинается дальше, когда модель будет проверяться на адекватность. Сообщение отредактировал Игорь - 2.12.2009 - 10:16 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
В первом предложении безапелляционно постулируется неверная информация. Во втором она опровергается, причем автор поста полагает, что второе предложение как раз подтверждает высказанное им неверное утверждение. А вот не являются. И МНК вы можете формально применить в любом случае. Ибо ошибки присутствуют всегда. Т.о. само название темы - это "масло масляное". Ну, Вы это напрасно, Игорь. Я здесь (на этом форуме) вообще ничего не утверждаю, не по плечу мне пока. Вопросы задаю, да иногда пытаюсь обсуждать ту или иную проблему. Написанное мной ? это изложение прочитанного, и ссылка на источник приводится. п. 2.14 в 1-м томе Дрейпера, Смита (с. 159-162) имеет название: Некоторые замечания относительно ошибок в предикторах (одновременно с ошибками в откликах). Вот фраза из вводного абзаца данного пункта: (В таких случаях предполагается, что отклик Y содержит ошибку, тогда как X нет. А что если переменная X также подвержена ошибке?). Весь текст из-за обилия формул нет смысла приводить. Игорь, я с Вами не могу спорить, т.к. мы в разных весовых категориях, но я не вижу расхождения с тем, что я написал, и текстом данного пункта в книге. |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Выкладываю в тему отсканированную сегодня по этому случаю статью. В ней обобщены разные виды линейных регрессий. Обычная регрессия, стандартные главные оси и др. получаются как частные случаи в зависимости от наличия/отсутствия информации об ошибках в независимой переменной и способа получения даннх. В части выбора вида зависимости на эту работу ссылается один из двух авторитетнейших в мире учебников по биостатистике (Sokal & Rohlf, Biomerty). Сам в своё время не сумел адаптировать формул до практического использования, а потом угас интерес. Может заинтересует Игоря и др. участников форума.
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 ![]() |
Есть еще некоторая информация в этой книге:
Вучков И., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ. М.: Финансы и статистка, 1987. (начиная со стр. 181). Книга есть в инете. |
|
![]() |
![]() |
![]() ![]() |