Кластерный анализ, реализации и эффекты |
Здравствуйте, гость ( Вход | Регистрация )
Кластерный анализ, реализации и эффекты |
21.05.2023 - 09:56
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128 |
Цитата F и всякие там SS - это из ANOVA/MANOVA, т. е. требует соблюдения кучи допущений. Может быть... Но как мера сходства (или различия) объектов, объединяемых в кластеры, вполне может (именно может, а не обязан) использоваться, наверное. Цитата надо только правильно подобрать расстояние, смещающее фокус именно на тот аспект объекта исследования, который интересует исследователя. Весьма любопытно! И как это (правильно) сделать? И, простите, а что такое смещение фокуса? Это можно ведь и понять как (перефразируя расхожее выражение) статистика что дышло - как обсчитал (сместил фокус), то и вышло... По-моему (если брать именно кластерный анализ) следует выявлять (подходящими и обоснованными способами) действительно присутствующие в имеющихся данных кластеры. Присутствующие объективно, а не созданные несколько искусственно, допустим, некими предположениями о структуре исходных данных или смещением фокусов на аспекты (параметры что-ли?) объектов исследования... Прошу прощения, конечно. |
|
21.05.2023 - 19:01
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Что может быть непонятного в термине фокус исследования? Он не статистический, а общеметодологический. В объекте исследования заключен его предмет, и именно на него должен быть направлен фокус. К сожалению, нередки случаи когда то-ли из-за плохого владения методикой, то-ли по банальной невнимательности исследователь выбирает такой метод, который направлен не предмет исследования, а на какой-то иной аспект объекта, и в результате получает хрень. Особенно часто такое случается именно при использовании инструментов статистического анализа неспециалистами, по каким-то причинам не утруждающим себя познанием сути этих инструментов, а только лишь жмущих на всякие-разные кнопки. Это не следует воспринимать как призыв оставить статанализ на откуп "профессиональных аналитиков" навязчиво рекламирующих себя, в том числе на данном форуме (не буду называть имен). Тем более, что и у них, как оказалось, с уровнем знаний тоже не все гладко (вплоть до того, что порою корреляция роста и веса тела выходит линейной). Просто надо не лениться глубоко изучать статметоды, которые собираешься применять. Лучше пусть у тебя выйдет меньше статей, зато с меньшим количеством грубых ошибок в каждой.
Теперь о кластерах. КА, как правило, используется для многомерных данных, структура которых может быть довольно сложной (в случае одномерных и двумерных данных, структура которых проста, он нафиг не нужен). Так вот, такого рода данные являются обширным объектом исследования, внутри которых модно выбрать различные предметы исследования в зависимости от его целей и соответственно расположить фокус различным образом. И на выходе получаем разные кластеризации, каждая из которых правильна в контексте какого-то определенного исследования. Естественно, цели и методы выбираем заранее, а не занимаемся дата дреджингом. |
|
24.05.2023 - 10:07
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Считаю, что если целью работы [и нашего форума] является не создание и развитие новых методов анализа (наверное, это проблемы других хороших форумов), а их практическое применение для реальных задач, не нужно выбирать какие-то экзотические источники или исследовательские статьи. Есть же монографии - классические и современные, многократно проверенные, с расчетными формулами и примерами. Особенно если имеются переводы, что ценно как для ссылок, так и для понимания. По теме из свежих, например, Hastie T., Tibshirani R., Friedman J. The elements of statistical learning ... В разделе 14.3.6. русского издания 2020 года как раз упоминается рассматриваемая выше проблема, в разделе 14.3.10. - слабая устойчивость к выбросам. Как вывод из данных соображений - исходные данные могут нуждаться в предварительной подготовке - взвешивании и исключении выбросов. Еще думаю, что в рассматриваемом методе не обязательно должно использоваться Евклидово расстояние. Можно попробовать любую другую метрику. Например, данные могут быть дихотомическими, смешанными или вообще экспертными оценками. Для всех данных предложены соответствующие расстояния.
Сообщение отредактировал Игорь - 24.05.2023 - 12:05 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
24.05.2023 - 14:23
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Это действительно хорошая книга, написанная доступным языком, но конкретно по КА там информации очень мало. Больше про регрессию / методы обучения с учителем.
|
|