Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Кластерный анализ с бутстрепом
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
nokh
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.
p2004r
Цитата(nokh @ 1.02.2016 - 10:42) *
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.


Вот это https://cran.r-project.org/web/packages/den...tend/index.html рисует вот это https://cran.r-project.org/web/packages/pvclust/index.html .

вот примеры как рисует (в том числе "значимые" ) https://cran.r-project.org/web/packages/den...troduction.html

ну и пишет на страничке автор много про оценку насколько можно доверять результату http://www.sigmath.es.osaka-u.ac.jp/shimo-lab/prog/pvclust/
p2004r
Цитата(nokh @ 1.02.2016 - 10:42) *
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.



Подумался еще такой вариант: найденное разбиение на кластеры которое хочется проверить оформить как переменную в номинальной шкале и попробовать в любом методе "с учителем" построить модель её выделяющую. Качество модели проверить кроссвалидацией.

ogurtsov
Вот еще пара идей.

1. Можно попытаться построить график в пространстве двух (а лучше трех) главных компонент, чтобы увидеть, а формируют ли наблюдения вообще какие-то группы. Но если первые компоненты не объясняют значительную долю разброса данных, тогда это бесполезно.

2. Сделайте серию кластеризаций методом К-средних для набора разумных на ваш взгляд значений числа кластеров (возможно, исходя из уже выполненного анализа). Причем для каждого количества кластеров сделайте много бутстреп-повторностей. Если используете R, то функция kmeans() сама по себе позволяет задать количество попыток для одного и того же количества кластеров, но с разными начальными координатами центров. То есть таким образом можно получить довольно много информации об устойчивости тех или иных вариантов разбиения.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.