Здравствуйте, гость ( Вход | Регистрация )
7.07.2007 - 22:24
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Как правильно подготовить данные для кластерного анализа?
Какие там "тонкие моменты"? Если часть данных в одних единицах измерения, а часть в других, как следует готовить данные предварительно? Если максимумы параметров разбросаны - один 0,3, другой 2? Следует ли делать какое-то преобразование? Уффф. |
|
|
![]() |
![]() |
![]() |
13.07.2007 - 07:24
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
Стандартизовать количественные данные для кластерного анализа можно, но, вопреки утверждению коллеги, нет никакой необходимости. А вот трудности с обратным пересчетом для получения реальных масштабов осей и координат центров тяжести кластеров будут.
Если данные смешанного типа (к примеру, вектор параметров объекта представляет собой совокупность количественных инструментальных измерений и качественных характеристик - наличия или отсутствия симптомов), следует применять специфические методы анализа. Упомянутый Вами метод k-средних стандартно используют для количественных данных. Центр тяжести кластера в данном методе представляет собой многомерное среднее значение, а корректно вычислить среднее можно только для количественных данных. В этой связи метод k-средних для данных смешанного типа нуждается в доработке, которая может заключаться в применении в качестве меры связи расстояния отношения, а в качестве центра тяжести кластера - медианы множества (в нашем многомерном случае - медианы Кемени). Теперь о том, где посмотреть теорию. Плодотворным для кластерного анализа смешанных данных явилось использование результатов исследований по теории множеств. С ними можно ознакомиться по источникам: Петровский А.Б. Кластерный анализ объектов с противоречивыми свойствами // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006, 25-28 сентября 2006 г., Обнинск: Труды конференции. В 3-т. - М: Физматлит, 2006. Легально доступно для загрузки http://www.raai.org/resurs/papers/kii-2006...d/Petrovsky.doc Петровский А.Б. Пространства множеств и мультимножеств. - М.: Едиториал УРСС, 2003. Легально доступно для загрузки http://www.raai.org/about/persons/petrovsk...rovsky_2003.pdf "Универсальную" меру связи - расстояние отношений, а также центр тяжести кластера в рассматриваемом случае - среднее Кемени или медиану Кемени - вычисляем, как показано в источнике Литвак Б.Г. Экспертная информация. Методы получения и анализа. - М.: Радио и связь, 1982. Книга встречается в электронном виде, но неофициально. Из иерархических методов для смешанных данных можно с успехом использовать метод средней связи Кинга (прочие иерархические методы трудно интерпретируются и имеют еще ряд сложностей). Здесь центр тяжести кластера вычислять нет необходимости и никакой доработки метода, за исключением использования в качестве меры связи расстояния отношений, не требуется. Для неподготовленного человека теория немного сложна, а реализация всего перечисленного может представить непреодолимую сложность. Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет. Есть ли все это в Statistica 6, не знаю. Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
Statisticafil Классификация - Кластерный анализ 7.07.2007 - 22:24
плав Цитата(Statisticafil @ 7.07.2007 - 23... 9.07.2007 - 10:44
Statisticafil 1. Ага. А если (я снова о своём) в данных большое ... 10.07.2007 - 22:32
Statisticafil Ещё вопрос - в какой нибудь из относительно доступ... 11.07.2007 - 23:32
Statisticafil Спасибо за ответ Игорь.
ЦитатаОднако имеется недор... 13.07.2007 - 14:44
Игорь Так можно сделать. Логично.
Дискриминантный анали... 14.07.2007 - 15:17
Statisticafil Возможно ли рассчитать в Экселе "расстояние о... 15.07.2007 - 00:49
Игорь Я предполагаю модифицировать метод k-средних с тем... 15.07.2007 - 19:08
Игорь В электронном учебнике StatSoft сказано: "Пре... 29.09.2007 - 14:22![]() ![]() |