Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Кластерный анализ, реализации и эффекты
Blaid
сообщение 21.05.2023 - 09:56
Сообщение #16





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Цитата
F и всякие там SS - это из ANOVA/MANOVA, т. е. требует соблюдения кучи допущений.


Может быть... Но как мера сходства (или различия) объектов, объединяемых в кластеры, вполне может (именно может, а не обязан) использоваться, наверное.

Цитата
надо только правильно подобрать расстояние, смещающее фокус именно на тот аспект объекта исследования, который интересует исследователя.


Весьма любопытно! И как это (правильно) сделать?

И, простите, а что такое смещение фокуса?

Это можно ведь и понять как (перефразируя расхожее выражение) статистика что дышло - как обсчитал (сместил фокус), то и вышло...

По-моему (если брать именно кластерный анализ) следует выявлять (подходящими и обоснованными способами) действительно присутствующие в имеющихся данных кластеры. Присутствующие объективно, а не созданные несколько искусственно, допустим, некими предположениями о структуре исходных данных или смещением фокусов на аспекты (параметры что-ли?) объектов исследования... Прошу прощения, конечно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 21.05.2023 - 19:01
Сообщение #17





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Что может быть непонятного в термине фокус исследования? Он не статистический, а общеметодологический. В объекте исследования заключен его предмет, и именно на него должен быть направлен фокус. К сожалению, нередки случаи когда то-ли из-за плохого владения методикой, то-ли по банальной невнимательности исследователь выбирает такой метод, который направлен не предмет исследования, а на какой-то иной аспект объекта, и в результате получает хрень. Особенно часто такое случается именно при использовании инструментов статистического анализа неспециалистами, по каким-то причинам не утруждающим себя познанием сути этих инструментов, а только лишь жмущих на всякие-разные кнопки. Это не следует воспринимать как призыв оставить статанализ на откуп "профессиональных аналитиков" навязчиво рекламирующих себя, в том числе на данном форуме (не буду называть имен). Тем более, что и у них, как оказалось, с уровнем знаний тоже не все гладко (вплоть до того, что порою корреляция роста и веса тела выходит линейной). Просто надо не лениться глубоко изучать статметоды, которые собираешься применять. Лучше пусть у тебя выйдет меньше статей, зато с меньшим количеством грубых ошибок в каждой.

Теперь о кластерах. КА, как правило, используется для многомерных данных, структура которых может быть довольно сложной (в случае одномерных и двумерных данных, структура которых проста, он нафиг не нужен). Так вот, такого рода данные являются обширным объектом исследования, внутри которых модно выбрать различные предметы исследования в зависимости от его целей и соответственно расположить фокус различным образом. И на выходе получаем разные кластеризации, каждая из которых правильна в контексте какого-то определенного исследования. Естественно, цели и методы выбираем заранее, а не занимаемся дата дреджингом.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 24.05.2023 - 10:07
Сообщение #18





Группа: Пользователи
Сообщений: 1113
Регистрация: 10.04.2007
Пользователь №: 4040



Считаю, что если целью работы [и нашего форума] является не создание и развитие новых методов анализа (наверное, это проблемы других хороших форумов), а их практическое применение для реальных задач, не нужно выбирать какие-то экзотические источники или исследовательские статьи. Есть же монографии - классические и современные, многократно проверенные, с расчетными формулами и примерами. Особенно если имеются переводы, что ценно как для ссылок, так и для понимания. По теме из свежих, например, Hastie T., Tibshirani R., Friedman J. The elements of statistical learning ... В разделе 14.3.6. русского издания 2020 года как раз упоминается рассматриваемая выше проблема, в разделе 14.3.10. - слабая устойчивость к выбросам. Как вывод из данных соображений - исходные данные могут нуждаться в предварительной подготовке - взвешивании и исключении выбросов. Еще думаю, что в рассматриваемом методе не обязательно должно использоваться Евклидово расстояние. Можно попробовать любую другую метрику. Например, данные могут быть дихотомическими, смешанными или вообще экспертными оценками. Для всех данных предложены соответствующие расстояния.

Сообщение отредактировал Игорь - 24.05.2023 - 12:05


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 24.05.2023 - 14:23
Сообщение #19





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Это действительно хорошая книга, написанная доступным языком, но конкретно по КА там информации очень мало. Больше про регрессию / методы обучения с учителем.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему