Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Кластерный анализ переменных, с указанием групп
nastushka
сообщение 22.02.2018 - 15:04
Сообщение #1





Группа: Пользователи
Сообщений: 76
Регистрация: 27.04.2014
Пользователь №: 26375



Подскажите, как можно решить такую задачу
1. есть данные, в них 20 переменных
2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных
3.затем найти людей, которые "кучкуются" у каждого класса переменных.
Например мы нашли 4 класса переменных абв, где, ежз, икл. наблюдения 1-30 кучкуются у класса к примеру ежз.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 22.02.2018 - 23:07
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(nastushka @ 22.02.2018 - 17:04) *
1. есть данные, в них 20 переменных
2. нужно кластеризовать эти 20 переменных, т.е. выделить классы схожим переменных
3.затем найти людей, которые "кучкуются" у каждого класса переменных.

Задачу лучше решать ординационными (проекционными), а не кластерными техниками. Повторяю это из поста в пост, т.к. в учебниках проблема прописана плохо. Ваши 20 переменных могут образовать, скажем 3 паттерна, за каждым из которых стоит отдельный процесс, причём 15 переменных изменяются согласованно, т.к. обусловлены одним процессом, 4 - другим процессом, 1 переменная отражает третий процесс. Если пытаться кластеризовать 20 переменных, то ведущий процесс подавит при кластеризации более слабые. Или неудачный выбор переменных выведет на первое место второстепенный процесс. Психологи это знают и при разработке тестов (тестология) стараются нагрузить разные предварительно выявленные процессы примерно равным числом показателей. Иначе вы будете думать, что провели кластеризацию по всем 20 переменным, тогда как на дендрограмме будет отражено сходство только по 15. Кластерный анализ - хорошая эксплораторная техника, но её лучше проводить не на исходных данных, а на метках (scores) латентных обобщающих переменных, выделенных с помощью ординационных техник типа главных компонент, главных координат, факторного анализа. А ординационные техники позволят выйти на число таких кластерообразующих процессов. В ходе их применения возможно построение двойных графиков (biplot) - биплотов, которые в пространстве выбранных осей отобразят векторами сами переменные, а точками - объекты. Таким образом из анализа полученной ординационной дендрограммы становится понятным: (1) какие переменные и с каким знаком "участвуют" в латентной переменной, (2) какие объекты имеют большие значения по этим переменным и, собственно, обусловливают формирование наблюдаемых патттернов показателей. Часто точки объектов образуют на таких графиках скопления, т.е. собственно кластеры. В зависимости от объёмов выборок номера таких объектов можно либо просто выписать вручную, а можно применить к рассчитанным для кажого объекта значениям обобщающих шкал (меткам) кластеризацию методом к-средних, введя в качестве числа кластеров то число, которое подсказали ординационные диаграммы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему