![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 11 Регистрация: 2.06.2014 Пользователь №: 26440 ![]() |
Нужно проверсти кластерный анализ. У меня 20 наблюдений, но каждое из них делится на 2. То есть
наблюдение 1 a=0,8765 b=0,645 наблюдение 2 a=0,297 b=0,397 Итак далее. эти a и b не отделимы, их в одном наблюдении надо учитывать. Но программа не может так работать. Она их воспринимает как разные наблюдения. Как же мне провести кластерный анализ по 20 наблюдениям не разделяя поднаблюдения? У меня было предположение для каждого наблюдения вывести среднее, но я не знаю насколько это будет точно. Просто не вдаваясь в подробности, 0,87 консистенция раствора. 0,6 и выше это хорошо. ниже плохо. Может быть у одного под 0,9, а у второго раствора 0,3. Среднее тут некорретно. Тут как бы вещество и ко-вещество. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 11 Регистрация: 2.06.2014 Пользователь №: 26440 ![]() |
nokh, лучший способ оисать структуру данных, это её показать их.
тут пример в экселе
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
nokh, лучший способ оисать структуру данных, это её показать их. тут пример в экселе Плохо что цель не написали, возможно вам и не кластерный анализ нужен... Но если исходить из того, что нужно найти наиболее похожие объекты из 20 и/или определделиться с числом групп (кластеров), то у меня 2 варианта. 1) Механистический. Раз нельзя усреднить сами данные по а и б, то нужно усреднить расстояния. Т.е. рассчитать расстояния между 20 объектами отдельно по а, и отдельно по б. Затем эти расстояния усреднить и по усреднённым расстояниям построить дендрограмму. 2) Редукция данных с обобщением. Организовать данные иначе: только 20 строк, а в колонках - 1) а, 2) б, 3) v1, 4) v2 и т.д. Далее эту матрицу обработать каким нибудь неограниченным (unconstrained) многомерным методом (главные компоненты или или факторный анализ) или, если предполагается не корреляция, а зависимость (например, v1, v2 и т.д. от а и б) - лучше ограниченным (PLS или анализ избыточности RDA). Выделить и интерпретировать по-существу процессов новые оси. Далее рассчитать значения по этим осям (типа факторные метки) для 20 объектов и провести кластеризацию по ним. Выгода здесь двойная. Во-первых, происходит обобщение данных и лучше понимается суть стоящих за ними процессов. Во-вторых, снижается влияние случайности выбора показателей для кластеризации на результат. Т.е. может оказаться что 3 показателя скоррелированы и отражают один процесс, а четвёрный - другой. При кластеризации исходных данных этот четвёртый будет заглушен тремя. Т.е. вы будете думать, что провели кластеризацию по всем данным, а реально - только по показателям, "работавшим" скоррелированно на какой-то один фактор. В случае кластеризации на факторных метках три скоррелированных показателя войдут в один фактор, а четвёртый даст второй и не потеряется. Метод лучше брать Уорда, а с расстояними возможны варианты в зависимости от того что более желательно вычленить. |
|
![]() |
![]() |
![]() ![]() |