Здравствуйте, гость ( Вход | Регистрация )
12.03.2015 - 16:01
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 11 Регистрация: 2.06.2014 Пользователь №: 26440 |
Нужно проверсти кластерный анализ. У меня 20 наблюдений, но каждое из них делится на 2. То есть
наблюдение 1 a=0,8765 b=0,645 наблюдение 2 a=0,297 b=0,397 Итак далее. эти a и b не отделимы, их в одном наблюдении надо учитывать. Но программа не может так работать. Она их воспринимает как разные наблюдения. Как же мне провести кластерный анализ по 20 наблюдениям не разделяя поднаблюдения? У меня было предположение для каждого наблюдения вывести среднее, но я не знаю насколько это будет точно. Просто не вдаваясь в подробности, 0,87 консистенция раствора. 0,6 и выше это хорошо. ниже плохо. Может быть у одного под 0,9, а у второго раствора 0,3. Среднее тут некорретно. Тут как бы вещество и ко-вещество. |
|
|
![]() |
![]() |
![]() |
12.03.2015 - 18:39
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 11 Регистрация: 2.06.2014 Пользователь №: 26440 |
nokh, лучший способ оисать структуру данных, это её показать их.
тут пример в экселе
Прикрепленные файлы
|
|
|
![]() |
![]() |
13.03.2015 - 11:55
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
nokh, лучший способ оисать структуру данных, это её показать их. тут пример в экселе Плохо что цель не написали, возможно вам и не кластерный анализ нужен... Но если исходить из того, что нужно найти наиболее похожие объекты из 20 и/или определделиться с числом групп (кластеров), то у меня 2 варианта. 1) Механистический. Раз нельзя усреднить сами данные по а и б, то нужно усреднить расстояния. Т.е. рассчитать расстояния между 20 объектами отдельно по а, и отдельно по б. Затем эти расстояния усреднить и по усреднённым расстояниям построить дендрограмму. 2) Редукция данных с обобщением. Организовать данные иначе: только 20 строк, а в колонках - 1) а, 2) б, 3) v1, 4) v2 и т.д. Далее эту матрицу обработать каким нибудь неограниченным (unconstrained) многомерным методом (главные компоненты или или факторный анализ) или, если предполагается не корреляция, а зависимость (например, v1, v2 и т.д. от а и б) - лучше ограниченным (PLS или анализ избыточности RDA). Выделить и интерпретировать по-существу процессов новые оси. Далее рассчитать значения по этим осям (типа факторные метки) для 20 объектов и провести кластеризацию по ним. Выгода здесь двойная. Во-первых, происходит обобщение данных и лучше понимается суть стоящих за ними процессов. Во-вторых, снижается влияние случайности выбора показателей для кластеризации на результат. Т.е. может оказаться что 3 показателя скоррелированы и отражают один процесс, а четвёрный - другой. При кластеризации исходных данных этот четвёртый будет заглушен тремя. Т.е. вы будете думать, что провели кластеризацию по всем данным, а реально - только по показателям, "работавшим" скоррелированно на какой-то один фактор. В случае кластеризации на факторных метках три скоррелированных показателя войдут в один фактор, а четвёртый даст второй и не потеряется. Метод лучше брать Уорда, а с расстояними возможны варианты в зависимости от того что более желательно вычленить. |
|
|
![]() |
![]() |
drZub группировка наблюдений 12.03.2015 - 16:01
nokh Цитата(drZub @ 12.03.2015 - 18:01) Н... 12.03.2015 - 17:49
anserovtv Мне также Ваша задача кажется странной: для класте... 13.03.2015 - 14:42
drZub Спасибо за Ваши подробные ответы. А как мне прави... 13.03.2015 - 18:40
nokh Цитата(drZub @ 13.03.2015 - 20:40) А... 13.03.2015 - 19:52
anserovtv Двухэтапный кластерный анализ есть в SPSS.
КА п... 13.03.2015 - 19:23
p2004r Цитата(drZub @ 12.03.2015 - 16:01) Н... 16.03.2015 - 11:28
anserovtv Кластерный анализ последовательностей Sequence ... 17.03.2015 - 17:39
p2004r Цитата(anserovtv @ 17.03.2015 - 17:3... 17.03.2015 - 20:55
anserovtv Цитата(p2004r @ 17.03.2015 - 20:55) ... 17.03.2015 - 21:30
p2004r Здесь нет никакой последовательности (а есть два з... 17.03.2015 - 21:47
anserovtv Определение последовательности на стр. 374.
В мат... 18.03.2015 - 07:08
p2004r Цитата(anserovtv @ 18.03.2015 - 07:0... 18.03.2015 - 12:42
anserovtv Если я правильно понимаю структуру этих данных, то... 18.03.2015 - 13:02
p2004r Цитата(anserovtv @ 18.03.2015 - 13:0... 18.03.2015 - 19:25
anserovtv Нет , не шучу. Возможно, это просто многозначность... 18.03.2015 - 19:46
p2004r Цитата(anserovtv @ 18.03.2015 - 19:4... 18.03.2015 - 22:18
anserovtv Да, возможно и так. Данные я видел. Полагаю. что м... 18.03.2015 - 22:45
100$ Если принять, что в двумерном (R2) пространстве Фа... 18.03.2015 - 23:10![]() ![]() |