![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.
Сообщение отредактировал nokh - 1.02.2016 - 10:43 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 ![]() |
Вот еще пара идей.
1. Можно попытаться построить график в пространстве двух (а лучше трех) главных компонент, чтобы увидеть, а формируют ли наблюдения вообще какие-то группы. Но если первые компоненты не объясняют значительную долю разброса данных, тогда это бесполезно. 2. Сделайте серию кластеризаций методом К-средних для набора разумных на ваш взгляд значений числа кластеров (возможно, исходя из уже выполненного анализа). Причем для каждого количества кластеров сделайте много бутстреп-повторностей. Если используете R, то функция kmeans() сама по себе позволяет задать количество попыток для одного и того же количества кластеров, но с разными начальными координатами центров. То есть таким образом можно получить довольно много информации об устойчивости тех или иных вариантов разбиения. Сообщение отредактировал ogurtsov - 1.02.2016 - 19:25 ![]() |
|
![]() |
![]() |
![]() ![]() |