Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Классификация - Кластерный анализ
Statisticafil
сообщение 7.07.2007 - 22:24
Сообщение #1





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Как правильно подготовить данные для кластерного анализа?
Какие там "тонкие моменты"?

Если часть данных в одних единицах измерения, а часть в других, как следует готовить данные предварительно?
Если максимумы параметров разбросаны - один 0,3, другой 2? Следует ли делать какое-то преобразование?

Уффф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.07.2007 - 10:44
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Statisticafil @ 7.07.2007 - 23:24) [snapback]3048[/snapback]
Как правильно подготовить данные для кластерного анализа?
Какие там "тонкие моменты"?

Если часть данных в одних единицах измерения, а часть в других, как следует готовить данные предварительно?
Если максимумы параметров разбросаны - один 0,3, другой 2 ? Следует ли делать какоето преобразование?

Уффф.

Зависит от программного пакета. Формально все данные должны быть стандартизированы так, чтобы иметь среднее 0 и стандартное отклонение 1 сигма (путем преобрахования по формуле (Х-Хср)/SD, где Х - значение, Хср - среднеее значение этой переменной).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 10.07.2007 - 22:32
Сообщение #3





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



1. Ага. А если (я снова о своём) в данных большое количество нулей?
Или это как раз подчеркнёт специфику размещения обьектов на осях?

2. Нужна именно стандартизация по формуле или могут быть применены другие нормировки - на минимум, максимум, медиану ... ?

3. Если правильно понял, различиями в единицах измерения можно пренебречь?

Я пользуюсь "Статистика 6".

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 11.07.2007 - 23:32
Сообщение #4





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Ещё вопрос - в какой нибудь из относительно доступных программ статанализа реализован алгоритм к-средних, в котором пользователь имеет возможность задать центры кластеров самосоятельно?
В Статистика 6 этого нет к сожалению (насколько понял).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 13.07.2007 - 07:24
Сообщение #5





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Стандартизовать количественные данные для кластерного анализа можно, но, вопреки утверждению коллеги, нет никакой необходимости. А вот трудности с обратным пересчетом для получения реальных масштабов осей и координат центров тяжести кластеров будут.

Если данные смешанного типа (к примеру, вектор параметров объекта представляет собой совокупность количественных инструментальных измерений и качественных характеристик - наличия или отсутствия симптомов), следует применять специфические методы анализа. Упомянутый Вами метод k-средних стандартно используют для количественных данных. Центр тяжести кластера в данном методе представляет собой многомерное среднее значение, а корректно вычислить среднее можно только для количественных данных. В этой связи метод k-средних для данных смешанного типа нуждается в доработке, которая может заключаться в применении в качестве меры связи расстояния отношения, а в качестве центра тяжести кластера - медианы множества (в нашем многомерном случае - медианы Кемени).

Теперь о том, где посмотреть теорию. Плодотворным для кластерного анализа смешанных данных явилось использование результатов исследований по теории множеств. С ними можно ознакомиться по источникам:
Петровский А.Б. Кластерный анализ объектов с противоречивыми свойствами // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006, 25-28 сентября 2006 г., Обнинск: Труды конференции. В 3-т. - М: Физматлит, 2006. Легально доступно для загрузки http://www.raai.org/resurs/papers/kii-2006...d/Petrovsky.doc
Петровский А.Б. Пространства множеств и мультимножеств. - М.: Едиториал УРСС, 2003. Легально доступно для загрузки http://www.raai.org/about/persons/petrovsk...rovsky_2003.pdf

"Универсальную" меру связи - расстояние отношений, а также центр тяжести кластера в рассматриваемом случае - среднее Кемени или медиану Кемени - вычисляем, как показано в источнике Литвак Б.Г. Экспертная информация. Методы получения и анализа. - М.: Радио и связь, 1982. Книга встречается в электронном виде, но неофициально.

Из иерархических методов для смешанных данных можно с успехом использовать метод средней связи Кинга (прочие иерархические методы трудно интерпретируются и имеют еще ряд сложностей). Здесь центр тяжести кластера вычислять нет необходимости и никакой доработки метода, за исключением использования в качестве меры связи расстояния отношений, не требуется.

Для неподготовленного человека теория немного сложна, а реализация всего перечисленного может представить непреодолимую сложность. Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет. Есть ли все это в Statistica 6, не знаю.

Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 13.07.2007 - 14:44
Сообщение #6





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Спасибо за ответ Игорь.
Цитата
Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет.

Если можно - то приведите пожалуйста ссылки или названия программ.

Цитата
Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel.

Подскажите пожалуйста, как именно? Действительно можно наверное рассчитать расстояния для всех обьектов до заданных координат центров кластеров в эксэле, потом сравнить и выяснить что ближе-дальше. Отнесение обьекта к кластеру видимо по критерию минимума расстояния от его центра? А расстояние между обьектами рассчитывать как "расстояния отношения"?
Правильно ли я Вас понял?

Может быть здесь подойдёт дискриминантный анализ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 14.07.2007 - 15:17
Сообщение #7





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Так можно сделать. Логично.

Дискриминантный анализ подошел бы. Но здесь опять встает та же проблема - объекты в смешанных шкалах.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 15.07.2007 - 00:49
Сообщение #8





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Возможно ли рассчитать в Экселе "расстояние отношения"? Я не смог разобраться в аппарате. "Матрицы отношений" для меня тёмный лес.

Насколько понял - Медиана Кемени, это один из векторов исходнго множества данных. Каким образом этот параметр будет использован в методе к-средних?
Я видел работы, где в результате кластеризации в качестве результата выделяли "типичный обьект/представитель класса" и наоборот, выделяли такие обьекты предварительно, потом делали кластеризацию, наращивая обькты вокруг. Последнее Вы отнесли к методам классификации с обучением. В тех работах используемый мат.аппарат относили к "теории распознавания образов, а именно кластерный анализ".
Насколько понимаю, в итоге будет что то похожее?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 15.07.2007 - 19:08
Сообщение #9





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Я предполагаю модифицировать метод k-средних с тем, чтобы в качестве координат центра тяжести кластера использовать не среднее значение, вычисление которого для неколичественных (в том числе смешанных) данных некорректно, а медиану Кемени (Вы совершенно точно определили ее суть).

Расстояние отношений вычисляется, как описано в книге Литвака. Разобраться непросто. Но метод очень интересен и эффективен.

Замечу, что многомерный анализ смешанных и разнородных данных - это достаточно новые темы в анализе. Поэтому в различных стандартных программах данные методы пока могут быть не реализованы.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 29.09.2007 - 14:22
Сообщение #10





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



В электронном учебнике StatSoft сказано: "Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга".
Это принципиально неверное утверждение. Метод K-средних строит не ровно K кластеров, а не более K кластеров. Если, исходя из принятых допущений, используемых мер и классифицируемых данных, кластеров реально меньше, чем K, например, K1, метод построит K1 кластеров, а (K - K1) кластеров из заданных K будут пустыми.


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему