Цитата(Pinus @ 24.11.2009 - 11:49)

Одним из условий применения регрессионного анализа являются точные данные значений факторов (предикторов). Если точность данных вызывает сомнения, то регрессионная задача может усложниться ввиду невозможности применения МНК.
Дрейпер и Смит в кн. Прикладной регрессионный анализ (т.1, с.161-162) пишут, что использование МНК и обычной регрессионной модели в таких случаях приемлемо, когда отношение дисперсии ошибок в предикторах к дисперсии истинных значений предикторов является малой величиной. Практически это означает, что разброс истинных величин предикторов должен существенно превышать разброс ошибок в предикторах. В этом случае ошибками в предикторах можно пренебречь и применять обычный МНК.
Что в данном контексте означает (малой величиной) и (существенно превышать)? Существуют какие-либо численные придержки на этот счет, чтобы можно было сослаться?
Вряд ли кто-то приведёт численные "придержки" - больше в 20 раз в малой выборке может быть незначимым, а больше в 1,2 раза в большой выборке - значимым. Если бы ошибки предикторов были известны, можно было бы в ходе обычного однофакторного дисперсионного анализа посмотреть насколько они велики относительно величин предикторов и оценить стат. значимость. Но вся проблема в том и состоит, что ошибки предикторов обычно никто не смотрит. При этом руководствуются тем, что если значения независимой переменной находятся под контролем экспериментатора, то её ошибками можно пренебречь (к сожалению, ссылку сейчас не дам). Например, прошедшей ночью один человек умер в 23:59 - "вчера", а его ровесник в 0:01 - "сегодня". Но при этом второй родился на 2 минуты раньше первого в 23:59 и его записали предыдущим днём, а первого - следующим. В анализе выживаемости продолжительность жизни этих людей пойдёт с разницей в двое суток, тогда как реально разница составляет 4 минуты. Тем не менее эта погрешность считается небольшой a priori, и ей пренебрегают. Хотя встречал формулу расчёта регрессии при известной ошибке предиктора. Ещё проще если мы сами задаём значение предиктора, например исследуем зависимость ч/л от концентрации - неточностями концентрации которые хоть как будут (отмерять по молекулам человек только учится) также пренебрегают. Если ошибка предиктора "относительно велика" и ей пренебречь нельзя - расчёт ведётся методом максимального правдоподобия и получаем конфлюэнтный анализ. Судя по отсутствию внятных источников, хорошую книгу по этому анализу кому-то ещё предстоит написать. К конфлюэнтному анализу, похоже, относят и принципиально другой класс задач - когда ошибка предиктора не только велика, но и не может быть оценена. Это тот случай, когда зависимость строится по данным, где и предиктор и отклик взяты из популяции и содержат ошибки. Например, мы берём несколько проб из водоёма, измеряем в них температуру и концентрацию фитопланктона. Строить зависимость концентрации от температуры будет некорректно, т.к. мы температуру не контролируем. А вдруг температура изменятся под влиянием холодных ключей, а планктон такую воду не любит по независящим от температуры причинам? Такие натурные данные нужно обрабатывать не обчным МНК; по терминологии Sokal & Rohlf (Biometry) это - модель II регресии, которая обсчитывается иначе - техниками более близкими к корреляционному анализу, чем к классической регрессии.