![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Не в порядке обсуждения, но если оно случится, буду рад.
При реализации классического метода k-средних были замечены интересные вычислительные эффекты. Если указать алгоритму некоторое количество кластеров, на которые будут разбиты объекты, то происходит следующее: 1. Количество [непустых] кластеров не может превысить определенное значение. Если в тестах задать, к примеру, число кластеров, равное числу объектов либо большее реально существующему, то выделено будет определенное количество кластеров. Остальные кластеры будут пустыми с нулевыми центрами. 2. Кластеризация не зависит от начального, например, случайного, разбиения. Из любой начальной конфигурации процесс итерационно сходится к тому же самому разбиению, что и из любой другой начальной конфигурации. Предполагаем, что: 1. Метод устанавливает истинное распределение объектов по кластерам (конечно, в смысле используемой метрики). 2. Если стоит задача установления истинной конфигурации объектов, количество кластеров для данного метода можно вообще не задавать по той же причине. В результате расчета количество кластеров, объективно существующих в заданном массиве данных, будет равно количеству непустых кластеров. Из минусов метода: придется нарисовать специфический график с облаками объектов в кластерах (на самом деле не сильно сложно). Из плюсов: для агломеративного метода график можно вообще не рисовать. ![]() Сообщение отредактировал Игорь - 9.03.2023 - 13:54 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Считаю, что если целью работы [и нашего форума] является не создание и развитие новых методов анализа (наверное, это проблемы других хороших форумов), а их практическое применение для реальных задач, не нужно выбирать какие-то экзотические источники или исследовательские статьи. Есть же монографии - классические и современные, многократно проверенные, с расчетными формулами и примерами. Особенно если имеются переводы, что ценно как для ссылок, так и для понимания. По теме из свежих, например, Hastie T., Tibshirani R., Friedman J. The elements of statistical learning ... В разделе 14.3.6. русского издания 2020 года как раз упоминается рассматриваемая выше проблема, в разделе 14.3.10. - слабая устойчивость к выбросам. Как вывод из данных соображений - исходные данные могут нуждаться в предварительной подготовке - взвешивании и исключении выбросов. Еще думаю, что в рассматриваемом методе не обязательно должно использоваться Евклидово расстояние. Можно попробовать любую другую метрику. Например, данные могут быть дихотомическими, смешанными или вообще экспертными оценками. Для всех данных предложены соответствующие расстояния.
Сообщение отредактировал Игорь - 24.05.2023 - 12:05 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() ![]() |