Как определить принадлежность к выборке |
Здравствуйте, гость ( Вход | Регистрация )
Как определить принадлежность к выборке |
25.08.2015 - 20:37
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 |
Даже не знаю как вопрос сформулировать:) Есть такие критерии, как Шапиро-Уилка, Колмогорова-Смирнова, но они смотрят отличается ли распределение выборки по переменной от теоретического.
А как мне посмотреть принадлежность человека к выборке? Т.е., допустим есть 200 человек в наборе данных и каждый из них может относится как бы к отдельной выборке. Т.е. из 200 человек можно выделить 3 выборки (или сколько там) и это важно учитывать при построении модели т.к., если в модель брать все подряд можно получить некачественные или некорректные модели. В модель нужно брать только однородные наблюдения. Но как определить какие наблюдения (люди) относятся к одной выборке. Думаю кластерный анализ тут будет упрощенным методом. Может есть что-то более стоящее. Надеюсь мой вопрос понятен:))) |
|
25.08.2015 - 22:33
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
|
|
26.08.2015 - 11:01
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 |
тут только картинки:) Буду Вам признательна, если пару слов обозначите о методе) Я предпочитаю почитать описание))) Но судя по названию возможно ручь идет о смешанных моделях)
|
|
26.08.2015 - 18:55
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Даже не знаю как вопрос сформулировать:) Есть такие критерии, как Шапиро-Уилка, Колмогорова-Смирнова ,но они смотрят отличается ли распределение выборки по переменной от теоретического. А как мне посмотреть принадлежность человека к выборке? Т.е. допустим есть 200 человек в наборе данных и каждый из них может относится как бы к отдельной выборке. Т.е. из 200 человек можно выделить 3 выборки (или сколько там) и это важно учитывать при построении модели т.к, если в модель брать все подряд можно получить некачественные или некорректные модели. В модель нужно брать только однородные наблюдения. Но как определить какие наблюдения(люди) относятся к одной выборке. Думаю кластерный анализ тут будет упрощенным методом. Может есть что-то более стоящее. Надеюсь мой вопрос понятен:))) Понятно не всё. Варианты: 1). Показатель для выделения однородных групп один. Тогда нужно строить распределение и в случае гетерогенности материала проводить разделение смеси распределений. Типа как в сообщении #5 отсюда: http://forum.disser.ru/index.php?showtopic=3376 2) Если нужно выделить однородные группы по совокупности показателей, то методов больше. Есть аналогичные 1) подходы: типа ссылки p2004r; делал нечто похожее здесь: http://molbiol.ru/forums/index.php?showtop...t&p=1526151. Можно и кластерный анализ - он здесь вполне уместен, тонкости только в том а) что использовать в качестве расстояния между объектами и б) работать ли с исходными показателями или с факторными метками, полученными после редукции данных с обобщением (чтобы нивелировать влияние на результаты кластеризации коррелированность некоторых покзателей между собой). |
|
26.08.2015 - 21:57
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
тут только картинки:) Буду Вам признательна, если пару слов обозначите о методе) Я предпочитаю почитать описание))) Но судя по названию возможно ручь идет о смешанных моделях) прямо в меню сайта по ссылке есть вот такой pdf http://www.mixmod.org/IMG/pdf/statdoc_2014.pdf |
|
29.08.2015 - 12:19
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Для выполнения группировки можно использовать особые методы, которые часто дают более хорошие результаты (по сравнению с традиционным кластерным анализом):
ЕМ- кластеризацию и самоорганизующиеся карты Кохонена с интерактивной визуализацией (!) групп. Для создания качественной выборки можно использовать сэмплинг и др. По этим методам имеется отечественный программный продукт высокого качества (есть демоверсия). Я бы начал с более простого - двухэтапного кластерного анализа для автоматического определения числа кластеров и качества кластеризации, создания кластерных профилей и др. . Сообщение отредактировал anserovtv - 29.08.2015 - 15:59 |
|
1.09.2015 - 12:22
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 |
Всех благодарю за ответы.
А можно узнать что за продукт? |
|
1.09.2015 - 12:46
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Вот этот продукт http://basegroup.ru/deductor/description
|
|