Здравствуйте, гость ( Вход | Регистрация )
9.03.2023 - 13:01
Сообщение
#1
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
Не в порядке обсуждения, но если оно случится, буду рад.
При реализации классического метода k-средних были замечены интересные вычислительные эффекты. Если указать алгоритму некоторое количество кластеров, на которые будут разбиты объекты, то происходит следующее: 1. Количество [непустых] кластеров не может превысить определенное значение. Если в тестах задать, к примеру, число кластеров, равное числу объектов либо большее реально существующему, то выделено будет определенное количество кластеров. Остальные кластеры будут пустыми с нулевыми центрами. 2. Кластеризация не зависит от начального, например, случайного, разбиения. Из любой начальной конфигурации процесс итерационно сходится к тому же самому разбиению, что и из любой другой начальной конфигурации. Предполагаем, что: 1. Метод устанавливает истинное распределение объектов по кластерам (конечно, в смысле используемой метрики). 2. Если стоит задача установления истинной конфигурации объектов, количество кластеров для данного метода можно вообще не задавать по той же причине. В результате расчета количество кластеров, объективно существующих в заданном массиве данных, будет равно количеству непустых кластеров. Из минусов метода: придется нарисовать специфический график с облаками объектов в кластерах (на самом деле не сильно сложно). Из плюсов: для агломеративного метода график можно вообще не рисовать. Сообщение отредактировал Игорь - 9.03.2023 - 13:54 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
![]() |
21.05.2023 - 19:01
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Что может быть непонятного в термине фокус исследования? Он не статистический, а общеметодологический. В объекте исследования заключен его предмет, и именно на него должен быть направлен фокус. К сожалению, нередки случаи когда то-ли из-за плохого владения методикой, то-ли по банальной невнимательности исследователь выбирает такой метод, который направлен не предмет исследования, а на какой-то иной аспект объекта, и в результате получает хрень. Особенно часто такое случается именно при использовании инструментов статистического анализа неспециалистами, по каким-то причинам не утруждающим себя познанием сути этих инструментов, а только лишь жмущих на всякие-разные кнопки. Это не следует воспринимать как призыв оставить статанализ на откуп "профессиональных аналитиков" навязчиво рекламирующих себя, в том числе на данном форуме (не буду называть имен). Тем более, что и у них, как оказалось, с уровнем знаний тоже не все гладко (вплоть до того, что порою корреляция роста и веса тела выходит линейной). Просто надо не лениться глубоко изучать статметоды, которые собираешься применять. Лучше пусть у тебя выйдет меньше статей, зато с меньшим количеством грубых ошибок в каждой.
Теперь о кластерах. КА, как правило, используется для многомерных данных, структура которых может быть довольно сложной (в случае одномерных и двумерных данных, структура которых проста, он нафиг не нужен). Так вот, такого рода данные являются обширным объектом исследования, внутри которых модно выбрать различные предметы исследования в зависимости от его целей и соответственно расположить фокус различным образом. И на выходе получаем разные кластеризации, каждая из которых правильна в контексте какого-то определенного исследования. Естественно, цели и методы выбираем заранее, а не занимаемся дата дреджингом. |
|
|
![]() |
![]() |
Игорь Кластерный анализ 9.03.2023 - 13:01
Leonov В разделе "Кластерный анализ, реализации и эф... 9.03.2023 - 19:44
Игорь Спасибо за информацию. 10.03.2023 - 12:23
Игорь Ну вот. Попалось подтверждение представленным выше... 7.05.2023 - 08:14
nokh В порядке обсуждения:) Как ни странно, вообще не н... 10.05.2023 - 21:23
100$ Даёшь вместо метода к - средних статистику Гопкинс... 11.05.2023 - 16:22
ИНО Цитата(100$ @ 11.05.2023 - 16:2... 12.05.2023 - 01:56
Игорь Цитата(ИНО @ 12.05.2023 - 02:56) ...... 12.05.2023 - 10:09
ИНО ИМХО, задача метода k-средних довольно специфическ... 12.05.2023 - 01:05
passant .... 12.05.2023 - 09:39
ИНО Игорь, спасибо за полезную ссылку. Однако там пред... 12.05.2023 - 16:06
Игорь Цитата(ИНО @ 12.05.2023 - 16:06) Как... 13.05.2023 - 07:46
ИНО Там страниц много и ссылок на разные методы и обла... 13.05.2023 - 13:47
Blaid В порядке обсуждения, как дилетант-любитель, встав... 20.05.2023 - 20:38
ИНО F и всякие там SS - это из ANOVA/MANOVA, т. е. тре... 20.05.2023 - 21:25
Blaid ЦитатаF и всякие там SS - это из ANOVA/MANOVA, т. ... 21.05.2023 - 09:56
Игорь Считаю, что если целью работы [и нашего форума] яв... 24.05.2023 - 10:07
ИНО Это действительно хорошая книга, написанная доступ... 24.05.2023 - 14:23![]() ![]() |