![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.
Сообщение отредактировал nokh - 1.02.2016 - 10:43 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки. Вот это https://cran.r-project.org/web/packages/den...tend/index.html рисует вот это https://cran.r-project.org/web/packages/pvclust/index.html . вот примеры как рисует (в том числе "значимые" ) https://cran.r-project.org/web/packages/den...troduction.html ну и пишет на страничке автор много про оценку насколько можно доверять результату http://www.sigmath.es.osaka-u.ac.jp/shimo-lab/prog/pvclust/ Сообщение отредактировал p2004r - 1.02.2016 - 13:57 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки. Подумался еще такой вариант: найденное разбиение на кластеры которое хочется проверить оформить как переменную в номинальной шкале и попробовать в любом методе "с учителем" построить модель её выделяющую. Качество модели проверить кроссвалидацией. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 ![]() |
Вот еще пара идей.
1. Можно попытаться построить график в пространстве двух (а лучше трех) главных компонент, чтобы увидеть, а формируют ли наблюдения вообще какие-то группы. Но если первые компоненты не объясняют значительную долю разброса данных, тогда это бесполезно. 2. Сделайте серию кластеризаций методом К-средних для набора разумных на ваш взгляд значений числа кластеров (возможно, исходя из уже выполненного анализа). Причем для каждого количества кластеров сделайте много бутстреп-повторностей. Если используете R, то функция kmeans() сама по себе позволяет задать количество попыток для одного и того же количества кластеров, но с разными начальными координатами центров. То есть таким образом можно получить довольно много информации об устойчивости тех или иных вариантов разбиения. Сообщение отредактировал ogurtsov - 1.02.2016 - 19:25 ![]() |
|
![]() |
![]() |
![]() ![]() |