Цитата(Statisticafil @ 2.07.2007 - 01:36) [snapback]3025[/snapback]
Если проводить аналогию с медициной, то я бы немного переформулировал ваш пример. Он совершенно верен в случае, например, диагностики состояния пациента - определяем пульс, давление, что-то ещё, оцениваем в баллах, суммируем, на этой основе принимаем решение о тяжести состояния или делаем прогноз развития. Если пропущен какой-то из параметров невозможно принять корректное решение.
Мой случай похож скорее на то, как если мы оцениваем некого пациента по наличию в истории болезни (? анамнезе) различных заболеваний - например - был инфаркт миокарда - 6 баллов, был инсульт ГМ - 6 баллов ... вполне логично что тому, кому посчастливилось перенести и инфаркт и инсульт приписать 12 баллов, только инфарктнику - 6 ... Ну и приплюсовать сюда мелочь, вроде - поллиноз - 0.2, хр.бронхит - 0.3 и т.д.
Да, но это в том случае, если известно, переносил ли человек инфаркт миокарда или нет, т.е. пропущенной информации нет, а есть информация об отсутствии фактора. В случае географически распределенных показателей ситуация ухудшается еще больше - представьте себе, что два соседних региона имеют повышенный уровень чего-то, а чем дальше, тем ниже уровень этого чего-то (ну, как выброс диоксина в Севезо). А теперь данных по региону, следующему за самым зараженным нет, а мы его игнорируем. Получается провал. Соответственно, надо не просто выбрасывать данные а интерполировать, например. Кстати, экологические исследования обычно требуют для себя немного иных методов обработки (т.н. геостатистика), поскольку наблюдения в реальности не независимые (как пациенты - зная АД у одного про АД у другого ничего сказать нельзя), а зависимые (если в регионе Х большие выбросы, то в соседнем регионе Y значения должны быть ближе к X, чем к отдаленному Z).