![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Даже не знаю как вопрос сформулировать:) Есть такие критерии, как Шапиро-Уилка, Колмогорова-Смирнова, но они смотрят отличается ли распределение выборки по переменной от теоретического.
А как мне посмотреть принадлежность человека к выборке? Т.е., допустим есть 200 человек в наборе данных и каждый из них может относится как бы к отдельной выборке. Т.е. из 200 человек можно выделить 3 выборки (или сколько там) и это важно учитывать при построении модели т.к., если в модель брать все подряд можно получить некачественные или некорректные модели. В модель нужно брать только однородные наблюдения. Но как определить какие наблюдения (люди) относятся к одной выборке. Думаю кластерный анализ тут будет упрощенным методом. Может есть что-то более стоящее. Надеюсь мой вопрос понятен:))) |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 ![]() |
Для выполнения группировки можно использовать особые методы, которые часто дают более хорошие результаты (по сравнению с традиционным кластерным анализом):
ЕМ- кластеризацию и самоорганизующиеся карты Кохонена с интерактивной визуализацией (!) групп. Для создания качественной выборки можно использовать сэмплинг и др. По этим методам имеется отечественный программный продукт высокого качества (есть демоверсия). Я бы начал с более простого - двухэтапного кластерного анализа для автоматического определения числа кластеров и качества кластеризации, создания кластерных профилей и др. . Сообщение отредактировал anserovtv - 29.08.2015 - 15:59 |
|
![]() |
![]() |
![]() ![]() |