Цитата(nastushka @ 25.08.2015 - 22:37)

Даже не знаю как вопрос сформулировать:) Есть такие критерии, как Шапиро-Уилка, Колмогорова-Смирнова ,но они смотрят отличается ли распределение выборки по переменной от теоретического. А как мне посмотреть принадлежность человека к выборке? Т.е. допустим есть 200 человек в наборе данных и каждый из них может относится как бы к отдельной выборке. Т.е. из 200 человек можно выделить 3 выборки (или сколько там) и это важно учитывать при построении модели т.к, если в модель брать все подряд можно получить некачественные или некорректные модели. В модель нужно брать только однородные наблюдения. Но как определить какие наблюдения(люди) относятся к одной выборке. Думаю кластерный анализ тут будет упрощенным методом. Может есть что-то более стоящее.
Надеюсь мой вопрос понятен:)))
Понятно не всё. Варианты:
1). Показатель для выделения однородных групп один. Тогда нужно строить распределение и в случае гетерогенности материала проводить разделение смеси распределений. Типа как в сообщении #5 отсюда:
http://forum.disser.ru/index.php?showtopic=33762) Если нужно выделить однородные группы по совокупности показателей, то методов больше. Есть аналогичные 1) подходы: типа ссылки p2004r; делал нечто похожее здесь:
http://molbiol.ru/forums/index.php?showtop...t&p=1526151. Можно и кластерный анализ - он здесь вполне уместен, тонкости только в том
а) что использовать в качестве расстояния между объектами и
б) работать ли с исходными показателями или с факторными метками, полученными после редукции данных с обобщением (чтобы нивелировать влияние на результаты кластеризации коррелированность некоторых покзателей между собой).