Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Кластерный анализ с бутстрепом, (интерпретация цифр на ветвлениях)
nokh
сообщение 1.02.2016 - 10:42
Сообщение #1





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.

Сообщение отредактировал nokh - 1.02.2016 - 10:43
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.02.2016 - 12:24
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 1.02.2016 - 10:42) *
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.


Вот это https://cran.r-project.org/web/packages/den...tend/index.html рисует вот это https://cran.r-project.org/web/packages/pvclust/index.html .

вот примеры как рисует (в том числе "значимые" ) https://cran.r-project.org/web/packages/den...troduction.html

ну и пишет на страничке автор много про оценку насколько можно доверять результату http://www.sigmath.es.osaka-u.ac.jp/shimo-lab/prog/pvclust/

Сообщение отредактировал p2004r - 1.02.2016 - 13:57
Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 1.02.2016 - 14:37
Сообщение #3





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 1.02.2016 - 10:42) *
В кластерном анализе применяются специальные критерии и индексы для определения оптимального числа кластеров, типа: Calinski-Harabasz, Davies-Bouldin, AIC, BIC и др. Однако на практике обычно с индексами не возятся, а применяют бутстреп. В результате на ветвлениях дендрограмм отображается число решений из заданного числа бутстреп-реплик, поддерживающих его. В моей практике эти числа b всегда небольшие, т.е. обратить их в подобие p, равное 1-b смысла нет - всё будет незначимым. Есть ли какие-то простые, грубые ориентиры для практиков, типа: более 0,5 - имеет смысл обсуждать, более 0,75 - ...., более 0,9 - ... Может кто встречал что-то подобное? Буду очень признателен за ссылки.



Подумался еще такой вариант: найденное разбиение на кластеры которое хочется проверить оформить как переменную в номинальной шкале и попробовать в любом методе "с учителем" построить модель её выделяющую. Качество модели проверить кроссвалидацией.



Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 1.02.2016 - 19:24
Сообщение #4





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Вот еще пара идей.

1. Можно попытаться построить график в пространстве двух (а лучше трех) главных компонент, чтобы увидеть, а формируют ли наблюдения вообще какие-то группы. Но если первые компоненты не объясняют значительную долю разброса данных, тогда это бесполезно.

2. Сделайте серию кластеризаций методом К-средних для набора разумных на ваш взгляд значений числа кластеров (возможно, исходя из уже выполненного анализа). Причем для каждого количества кластеров сделайте много бутстреп-повторностей. Если используете R, то функция kmeans() сама по себе позволяет задать количество попыток для одного и того же количества кластеров, но с разными начальными координатами центров. То есть таким образом можно получить довольно много информации об устойчивости тех или иных вариантов разбиения.

Сообщение отредактировал ogurtsov - 1.02.2016 - 19:25


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему