![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Не в порядке обсуждения, но если оно случится, буду рад.
При реализации классического метода k-средних были замечены интересные вычислительные эффекты. Если указать алгоритму некоторое количество кластеров, на которые будут разбиты объекты, то происходит следующее: 1. Количество [непустых] кластеров не может превысить определенное значение. Если в тестах задать, к примеру, число кластеров, равное числу объектов либо большее реально существующему, то выделено будет определенное количество кластеров. Остальные кластеры будут пустыми с нулевыми центрами. 2. Кластеризация не зависит от начального, например, случайного, разбиения. Из любой начальной конфигурации процесс итерационно сходится к тому же самому разбиению, что и из любой другой начальной конфигурации. Предполагаем, что: 1. Метод устанавливает истинное распределение объектов по кластерам (конечно, в смысле используемой метрики). 2. Если стоит задача установления истинной конфигурации объектов, количество кластеров для данного метода можно вообще не задавать по той же причине. В результате расчета количество кластеров, объективно существующих в заданном массиве данных, будет равно количеству непустых кластеров. Из минусов метода: придется нарисовать специфический график с облаками объектов в кластерах (на самом деле не сильно сложно). Из плюсов: для агломеративного метода график можно вообще не рисовать. ![]() Сообщение отредактировал Игорь - 9.03.2023 - 13:54 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В порядке обсуждения:) Как ни странно, вообще не нашёл полезным для практики метод k-средних. Иерархический анализ хотя и плоховат теоретически, но очень нагляден и в некоторых областях почти незаменим. Особенно это касается двойной кластеризации в сочетании с построением кластерной тепловой карты (cluster heatmap) для однородных наборов признаков. Последнее время очень полюбил эту технику: позволяет увидеть всё и сразу + под разные задачи можно выбирать разные меры расстояний между объектами. Под "плоховат" я имею в виду по-сути взвешивание решения в зависимости от набора признаков: паттерн нескольких коррелирующих показателей перевесит вклад остальных и в дендрограмме мы увидим ветвления лишь по этому паттерну. Поэтому если использую иерархический КА, то уже после редукции данных - обычно на факторных метках нелинейного анализа главных компонент. Это снимает и проблему взвешивания, и проблему одновременного анализа количественных и порядковых (ранговых и номинальных) признаков. Кластерная ТК позволяет интерпретировать кластеры сразу, однако если сильно нужно - можно провести сравнения мер положения показателей в полученных кластерах. Отличная индуктивная техника для генерации гипотез.
Практическая польза метода к-средних туманна. Предположим, с помощью иерархического КА я определился с числом кластеров, а теперь задаю его в методе к-средних и получаю какое-то решение. Возможно оно будет очень близким к исходному, а что дальше? Дальше я вынужден сравнивать исходное и конечное решение, частично заново интерпретировать результаты и только потому, что обычно программы удобно реализуют сравнения выделенных кластеров по набору показателей. Но по-сути это двойная работа с отсутствием необходимости второго этапа. Теперь предположим, что мы заранее знаем число кластеров. Например, больные и здоровые, 3-4 вида операции и т.п. Нет никаких гарантий, что метод к-средних сформирует именно эти кластеры, да и вообще для такого дедуктивного подхода существуют замечательные ограниченные ординационные техники (constrained ordination): канононический анализ соответствий (ССА) и анализ избыточности (RDA) с различными модификациями. Они "достанут" именно ту часть изменчивости, которая задаётся болезнью, полом, видами операций и т.д. Сюда же можно отнести "between group PCA", а также варианты дискриминантного анализа, позволяющего строить модель для отнесения объекта к группе или PLS-регрессию, позволяющую строить модель зависимости набора откликов от набора предикторов. А сколько всего сейчас появляется нового, интересного и всегда хоть в чём-то лучше предшественников... достаточно погулять по ссылкам к описанию каких-нибудь новых или адаптации старых техник для машинного обучения, распознавания образов, молекулярно-генетических задач. И вот не вижу здесь места методу k-средних. Сообщение отредактировал nokh - 10.05.2023 - 21:31 |
|
![]() |
![]() |
![]() ![]() |