![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Не в порядке обсуждения, но если оно случится, буду рад.
При реализации классического метода k-средних были замечены интересные вычислительные эффекты. Если указать алгоритму некоторое количество кластеров, на которые будут разбиты объекты, то происходит следующее: 1. Количество [непустых] кластеров не может превысить определенное значение. Если в тестах задать, к примеру, число кластеров, равное числу объектов либо большее реально существующему, то выделено будет определенное количество кластеров. Остальные кластеры будут пустыми с нулевыми центрами. 2. Кластеризация не зависит от начального, например, случайного, разбиения. Из любой начальной конфигурации процесс итерационно сходится к тому же самому разбиению, что и из любой другой начальной конфигурации. Предполагаем, что: 1. Метод устанавливает истинное распределение объектов по кластерам (конечно, в смысле используемой метрики). 2. Если стоит задача установления истинной конфигурации объектов, количество кластеров для данного метода можно вообще не задавать по той же причине. В результате расчета количество кластеров, объективно существующих в заданном массиве данных, будет равно количеству непустых кластеров. Из минусов метода: придется нарисовать специфический график с облаками объектов в кластерах (на самом деле не сильно сложно). Из плюсов: для агломеративного метода график можно вообще не рисовать. ![]() Сообщение отредактировал Игорь - 9.03.2023 - 13:54 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128 ![]() |
Цитата F и всякие там SS - это из ANOVA/MANOVA, т. е. требует соблюдения кучи допущений. Может быть... Но как мера сходства (или различия) объектов, объединяемых в кластеры, вполне может (именно может, а не обязан) использоваться, наверное. Цитата надо только правильно подобрать расстояние, смещающее фокус именно на тот аспект объекта исследования, который интересует исследователя. Весьма любопытно! И как это (правильно) сделать? И, простите, а что такое смещение фокуса? Это можно ведь и понять как (перефразируя расхожее выражение) статистика что дышло - как обсчитал (сместил фокус), то и вышло... По-моему (если брать именно кластерный анализ) следует выявлять (подходящими и обоснованными способами) действительно присутствующие в имеющихся данных кластеры. Присутствующие объективно, а не созданные несколько искусственно, допустим, некими предположениями о структуре исходных данных или смещением фокусов на аспекты (параметры что-ли?) объектов исследования... Прошу прощения, конечно. |
|
![]() |
![]() |
![]() ![]() |