![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Не в порядке обсуждения, но если оно случится, буду рад.
При реализации классического метода k-средних были замечены интересные вычислительные эффекты. Если указать алгоритму некоторое количество кластеров, на которые будут разбиты объекты, то происходит следующее: 1. Количество [непустых] кластеров не может превысить определенное значение. Если в тестах задать, к примеру, число кластеров, равное числу объектов либо большее реально существующему, то выделено будет определенное количество кластеров. Остальные кластеры будут пустыми с нулевыми центрами. 2. Кластеризация не зависит от начального, например, случайного, разбиения. Из любой начальной конфигурации процесс итерационно сходится к тому же самому разбиению, что и из любой другой начальной конфигурации. Предполагаем, что: 1. Метод устанавливает истинное распределение объектов по кластерам (конечно, в смысле используемой метрики). 2. Если стоит задача установления истинной конфигурации объектов, количество кластеров для данного метода можно вообще не задавать по той же причине. В результате расчета количество кластеров, объективно существующих в заданном массиве данных, будет равно количеству непустых кластеров. Из минусов метода: придется нарисовать специфический график с облаками объектов в кластерах (на самом деле не сильно сложно). Из плюсов: для агломеративного метода график можно вообще не рисовать. ![]() Сообщение отредактировал Игорь - 9.03.2023 - 13:54 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() |
![]() ![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128 ![]() |
В порядке обсуждения, как дилетант-любитель, вставлю свои 5 копеек:
1) относительно правильности-неправильности (иначе оптимальности-неоптимальности) кластеризации: чем меньше значение внутригрупповой дисперсии (within SS) и больше значение межгрупповой дисперсии (between SS), тем лучше признак-параметр (характеризуемый по результатам кластерного анализа) определяет принадлежность объектов (или наблюдений) к тому или иному кластеру. Тоже относится к параметрам F и p. Т.е. чем меньше within SS (и чем больше between SS), а также чем меньше р (и чем больше F), тем оптимальнее (ну или качественнее) кластеризация. Самой оптимальной кластеризации соответствуют самые минимальные значения within SS и p, с одной стороны, и самые максимальные значения between SS и F, с другой. В идеале - для всех признаков-параметров кластеризуемых объектов (наблюдений). Between SS, within SS, p, F - терминология из пакета STATISTICA (но в других пакетах, наверное, примерно также эти параметры обозначаются). Исходя из вышеизложенного как (на практике) достичь оптимальной кластеризации? - выполняя последовательное разбиение исходной выборки объектов (наблюдений) на различное число кластеров (2, 3, 4 и далее) и сравнивая качество получаемых решений (характеризуемых, помимо прочего такими параметрами как Between SS, within SS, p, F). 2) c моей точки зрения любые исходные предположения о числе кластеров в анализируемой (кластеризуемой) выборке - это, своего рода, читерство. Ну или подгонка получаемых результатов под желаемые (ожидаемые) результаты. Да, безусловно, предположения о кластерной структуре анализируемой выборки могут быть и вполне себе обоснованными. Но, если про анализируемую выборку что-то известно заранее, то - возможно - она уже и не нуждается в каком-либо анализе? Все-таки должны быть более-менее объективные критерии (или подходы) кластеризации, исходящие из математических закономерностей что-ли? Из своего (да, небогатого) опыта кластерного анализа могу сказать, что качество кластеризации увеличивается до определённого числа кластеров, а затем (буквально при превышении оптимального числа кластеров даже на единицу) резко падает. Да, так, конечно, можно и упороться до того, что число кластеров будет равно числу кластеризуемых объектов. Но подобное, по-моему, возможно только в случае наличия в исходной выборке уж слишком непохожих объектов (каждый из которых будет отдельным - одиночным - кластером в итоге). А объединять в одну выборку столь непохожие объекты, наверное, бессмысленно изначально. Не знаю прав я или нет, но это (на какое количество кластеров разбивать выборку объектов или наблюдений?) - общая и до сих пор нерешённая проблема кластерного анализа, предполагающая некое шаманство с кластеризацией. Сообщение отредактировал Blaid - 20.05.2023 - 20:45 |
|
![]() |
![]() |
![]() ![]() |