Стандартизовать
количественные данные для кластерного анализа можно, но, вопреки утверждению коллеги, нет никакой необходимости. А вот трудности с обратным пересчетом для получения реальных масштабов осей и координат центров тяжести кластеров будут.
Если данные смешанного типа (к примеру, вектор параметров объекта представляет собой совокупность количественных инструментальных измерений и качественных характеристик - наличия или отсутствия симптомов), следует применять специфические методы анализа. Упомянутый Вами метод k-средних стандартно используют для количественных данных. Центр тяжести кластера в данном методе представляет собой многомерное среднее значение, а корректно вычислить среднее можно только для количественных данных. В этой связи метод k-средних для данных смешанного типа нуждается в доработке, которая может заключаться в применении в качестве меры связи расстояния отношения, а в качестве центра тяжести кластера - медианы множества (в нашем многомерном случае - медианы Кемени).
Теперь о том, где посмотреть теорию. Плодотворным для кластерного анализа смешанных данных явилось использование результатов исследований по теории множеств. С ними можно ознакомиться по источникам:
Петровский А.Б. Кластерный анализ объектов с противоречивыми свойствами // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006, 25-28 сентября 2006 г., Обнинск: Труды конференции. В 3-т. - М: Физматлит, 2006. Легально доступно для загрузки
http://www.raai.org/resurs/papers/kii-2006...d/Petrovsky.docПетровский А.Б. Пространства множеств и мультимножеств. - М.: Едиториал УРСС, 2003. Легально доступно для загрузки
http://www.raai.org/about/persons/petrovsk...rovsky_2003.pdf"Универсальную" меру связи - расстояние отношений, а также центр тяжести кластера в рассматриваемом случае - среднее Кемени или медиану Кемени - вычисляем, как показано в источнике Литвак Б.Г. Экспертная информация. Методы получения и анализа. - М.: Радио и связь, 1982. Книга встречается в электронном виде, но неофициально.
Из иерархических методов для смешанных данных можно с успехом использовать метод средней связи Кинга (прочие иерархические методы трудно интерпретируются и имеют еще ряд сложностей). Здесь центр тяжести кластера вычислять нет необходимости и никакой доработки метода, за исключением использования в качестве меры связи расстояния отношений, не требуется.
Для неподготовленного человека теория немного сложна, а реализация всего перечисленного может представить непреодолимую сложность. Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет. Есть ли все это в Statistica 6, не знаю.
Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel.