![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 76 Регистрация: 27.04.2014 Пользователь №: 26375 ![]() |
Подскажите, как можно решить такую задачу
1. есть данные, в них 20 переменных 2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных 3.затем найти людей, которые "кучкуются" у каждого класса переменных. Например мы нашли 4 класса переменных абв, где, ежз, икл. наблюдения 1-30 кучкуются у класса к примеру ежз. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
1. есть данные, в них 20 переменных 2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных 3.затем найти людей, которые "кучкуются" у каждого класса переменных. Задачу лучше решать ординационными (проекционными), а не кластерными техниками. Повторяю это из поста в пост, т.к. в учебниках проблема прописана плохо. Ваши 20 переменных могут образовать, скажем 3 паттерна, за каждым из которых стоит отдельный процесс, причём 15 переменных изменяются согласованно, т.к. обусловлены одним процессом, 4 - другим процессом, 1 переменная отражает третий процесс. Если пытаться кластеризовать 20 переменных, то ведущий процесс подавит при кластеризации более слабые. Или неудачный выбор переменных выведет на первое место второстепенный процесс. Психологи это знают и при разработке тестов (тестология) стараются нагрузить разные предварительно выявленные процессы примерно равным числом показателей. Иначе вы будете думать, что провели кластеризацию по всем 20 переменным, тогда как на дендрограмме будет отражено сходство только по 15. Кластерный анализ - хорошая эксплораторная техника, но её лучше проводить не на исходных данных, а на метках (scores) латентных обобщающих переменных, выделенных с помощью ординационных техник типа главных компонент, главных координат, факторного анализа. А ординационные техники позволят выйти на число таких кластерообразующих процессов. В ходе их применения возможно построение двойных графиков (biplot) - биплотов, которые в пространстве выбранных осей отобразят векторами сами переменные, а точками - объекты. Таким образом из анализа полученной ординационной дендрограммы становится понятным: (1) какие переменные и с каким знаком "участвуют" в латентной переменной, (2) какие объекты имеют большие значения по этим переменным и, собственно, обусловливают формирование наблюдаемых патттернов показателей. Часто точки объектов образуют на таких графиках скопления, т.е. собственно кластеры. В зависимости от объёмов выборок номера таких объектов можно либо просто выписать вручную, а можно применить к рассчитанным для кажого объекта значениям обобщающих шкал (меткам) кластеризацию методом к-средних, введя в качестве числа кластеров то число, которое подсказали ординационные диаграммы. |
|
![]() |
![]() |
![]() ![]() |