Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> группировка наблюдений
drZub
сообщение 12.03.2015 - 16:01
Сообщение #1





Группа: Пользователи
Сообщений: 11
Регистрация: 2.06.2014
Пользователь №: 26440



Нужно проверсти кластерный анализ. У меня 20 наблюдений, но каждое из них делится на 2. То есть
наблюдение 1
a=0,8765
b=0,645

наблюдение 2
a=0,297
b=0,397

Итак далее. эти a и b не отделимы, их в одном наблюдении надо учитывать.

Но программа не может так работать. Она их воспринимает как разные наблюдения. Как же мне провести кластерный анализ по 20 наблюдениям не разделяя поднаблюдения?

У меня было предположение для каждого наблюдения вывести среднее, но я не знаю насколько это будет точно. Просто не вдаваясь в подробности, 0,87 консистенция раствора. 0,6 и выше это хорошо. ниже плохо. Может быть у одного под 0,9, а у второго раствора 0,3. Среднее тут некорретно.
Тут как бы вещество и ко-вещество.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
drZub
сообщение 12.03.2015 - 18:39
Сообщение #2





Группа: Пользователи
Сообщений: 11
Регистрация: 2.06.2014
Пользователь №: 26440



nokh, лучший способ оисать структуру данных, это её показать их.
тут пример в экселе
Прикрепленные файлы
Прикрепленный файл  Book1.zip ( 9,26 килобайт ) Кол-во скачиваний: 251
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 13.03.2015 - 11:55
Сообщение #3





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(drZub @ 12.03.2015 - 20:39) *
nokh, лучший способ оисать структуру данных, это её показать их.
тут пример в экселе

Плохо что цель не написали, возможно вам и не кластерный анализ нужен...
Но если исходить из того, что нужно найти наиболее похожие объекты из 20 и/или определделиться с числом групп (кластеров), то у меня 2 варианта.

1) Механистический. Раз нельзя усреднить сами данные по а и б, то нужно усреднить расстояния. Т.е. рассчитать расстояния между 20 объектами отдельно по а, и отдельно по б. Затем эти расстояния усреднить и по усреднённым расстояниям построить дендрограмму.

2) Редукция данных с обобщением. Организовать данные иначе: только 20 строк, а в колонках - 1) а, 2) б, 3) v1, 4) v2 и т.д. Далее эту матрицу обработать каким нибудь неограниченным (unconstrained) многомерным методом (главные компоненты или или факторный анализ) или, если предполагается не корреляция, а зависимость (например, v1, v2 и т.д. от а и б) - лучше ограниченным (PLS или анализ избыточности RDA). Выделить и интерпретировать по-существу процессов новые оси. Далее рассчитать значения по этим осям (типа факторные метки) для 20 объектов и провести кластеризацию по ним. Выгода здесь двойная. Во-первых, происходит обобщение данных и лучше понимается суть стоящих за ними процессов. Во-вторых, снижается влияние случайности выбора показателей для кластеризации на результат. Т.е. может оказаться что 3 показателя скоррелированы и отражают один процесс, а четвёрный - другой. При кластеризации исходных данных этот четвёртый будет заглушен тремя. Т.е. вы будете думать, что провели кластеризацию по всем данным, а реально - только по показателям, "работавшим" скоррелированно на какой-то один фактор. В случае кластеризации на факторных метках три скоррелированных показателя войдут в один фактор, а четвёртый даст второй и не потеряется.

Метод лучше брать Уорда, а с расстояними возможны варианты в зависимости от того что более желательно вычленить.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- drZub   группировка наблюдений   12.03.2015 - 16:01
- - nokh   Цитата(drZub @ 12.03.2015 - 18:01) Н...   12.03.2015 - 17:49
- - drZub   nokh, лучший способ оисать структуру данных, это е...   12.03.2015 - 18:39
|- - nokh   Цитата(drZub @ 12.03.2015 - 20:39) n...   13.03.2015 - 11:55
- - anserovtv   Мне также Ваша задача кажется странной: для класте...   13.03.2015 - 14:42
- - drZub   Спасибо за Ваши подробные ответы. А как мне прави...   13.03.2015 - 18:40
|- - nokh   Цитата(drZub @ 13.03.2015 - 20:40) А...   13.03.2015 - 19:52
- - anserovtv   Двухэтапный кластерный анализ есть в SPSS. КА п...   13.03.2015 - 19:23
- - p2004r   Цитата(drZub @ 12.03.2015 - 16:01) Н...   16.03.2015 - 11:28
- - anserovtv   Кластерный анализ последовательностей Sequence ...   17.03.2015 - 17:39
|- - p2004r   Цитата(anserovtv @ 17.03.2015 - 17:3...   17.03.2015 - 20:55
- - anserovtv   Цитата(p2004r @ 17.03.2015 - 20:55) ...   17.03.2015 - 21:30
|- - p2004r   Здесь нет никакой последовательности (а есть два з...   17.03.2015 - 21:47
|- - anserovtv   Определение последовательности на стр. 374. В мат...   18.03.2015 - 07:08
|- - p2004r   Цитата(anserovtv @ 18.03.2015 - 07:0...   18.03.2015 - 12:42
- - anserovtv   Если я правильно понимаю структуру этих данных, то...   18.03.2015 - 13:02
|- - p2004r   Цитата(anserovtv @ 18.03.2015 - 13:0...   18.03.2015 - 19:25
- - anserovtv   Нет , не шучу. Возможно, это просто многозначность...   18.03.2015 - 19:46
|- - p2004r   Цитата(anserovtv @ 18.03.2015 - 19:4...   18.03.2015 - 22:18
- - anserovtv   Да, возможно и так. Данные я видел. Полагаю. что м...   18.03.2015 - 22:45
- - 100$   Если принять, что в двумерном (R2) пространстве Фа...   18.03.2015 - 23:10


Добавить ответ в эту темуОткрыть тему