Классификация - Кластерный анализ - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Классификация - Кластерный анализ

Statisticafil Просмотр профиля	7.07.2007 - 22:24 Сообщение #1
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Как правильно подготовить данные для кластерного анализа? Какие там "тонкие моменты"? Если часть данных в одних единицах измерения, а часть в других, как следует готовить данные предварительно? Если максимумы параметров разбросаны - один 0,3, другой 2? Следует ли делать какое-то преобразование? Уффф.

плав Просмотр профиля	9.07.2007 - 10:44 Сообщение #2
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Statisticafil @ 7.07.2007 - 23:24) [snapback]3048[/snapback] Как правильно подготовить данные для кластерного анализа? Какие там "тонкие моменты"? Если часть данных в одних единицах измерения, а часть в других, как следует готовить данные предварительно? Если максимумы параметров разбросаны - один 0,3, другой 2 ? Следует ли делать какоето преобразование? Уффф. Зависит от программного пакета. Формально все данные должны быть стандартизированы так, чтобы иметь среднее 0 и стандартное отклонение 1 сигма (путем преобрахования по формуле (Х-Хср)/SD, где Х - значение, Хср - среднеее значение этой переменной).

Statisticafil Просмотр профиля	10.07.2007 - 22:32 Сообщение #3
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	1. Ага. А если (я снова о своём) в данных большое количество нулей? Или это как раз подчеркнёт специфику размещения обьектов на осях? 2. Нужна именно стандартизация по формуле или могут быть применены другие нормировки - на минимум, максимум, медиану ... ? 3. Если правильно понял, различиями в единицах измерения можно пренебречь? Я пользуюсь "Статистика 6".

Statisticafil Просмотр профиля	11.07.2007 - 23:32 Сообщение #4
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Ещё вопрос - в какой нибудь из относительно доступных программ статанализа реализован алгоритм к-средних, в котором пользователь имеет возможность задать центры кластеров самосоятельно? В Статистика 6 этого нет к сожалению (насколько понял).

Игорь Просмотр профиля	13.07.2007 - 07:24 Сообщение #5
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Стандартизовать количественные данные для кластерного анализа можно, но, вопреки утверждению коллеги, нет никакой необходимости. А вот трудности с обратным пересчетом для получения реальных масштабов осей и координат центров тяжести кластеров будут. Если данные смешанного типа (к примеру, вектор параметров объекта представляет собой совокупность количественных инструментальных измерений и качественных характеристик - наличия или отсутствия симптомов), следует применять специфические методы анализа. Упомянутый Вами метод k-средних стандартно используют для количественных данных. Центр тяжести кластера в данном методе представляет собой многомерное среднее значение, а корректно вычислить среднее можно только для количественных данных. В этой связи метод k-средних для данных смешанного типа нуждается в доработке, которая может заключаться в применении в качестве меры связи расстояния отношения, а в качестве центра тяжести кластера - медианы множества (в нашем многомерном случае - медианы Кемени). Теперь о том, где посмотреть теорию. Плодотворным для кластерного анализа смешанных данных явилось использование результатов исследований по теории множеств. С ними можно ознакомиться по источникам: Петровский А.Б. Кластерный анализ объектов с противоречивыми свойствами // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006, 25-28 сентября 2006 г., Обнинск: Труды конференции. В 3-т. - М: Физматлит, 2006. Легально доступно для загрузки http://www.raai.org/resurs/papers/kii-2006...d/Petrovsky.doc Петровский А.Б. Пространства множеств и мультимножеств. - М.: Едиториал УРСС, 2003. Легально доступно для загрузки http://www.raai.org/about/persons/petrovsk...rovsky_2003.pdf "Универсальную" меру связи - расстояние отношений, а также центр тяжести кластера в рассматриваемом случае - среднее Кемени или медиану Кемени - вычисляем, как показано в источнике Литвак Б.Г. Экспертная информация. Методы получения и анализа. - М.: Радио и связь, 1982. Книга встречается в электронном виде, но неофициально. Из иерархических методов для смешанных данных можно с успехом использовать метод средней связи Кинга (прочие иерархические методы трудно интерпретируются и имеют еще ряд сложностей). Здесь центр тяжести кластера вычислять нет необходимости и никакой доработки метода, за исключением использования в качестве меры связи расстояния отношений, не требуется. Для неподготовленного человека теория немного сложна, а реализация всего перечисленного может представить непреодолимую сложность. Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет. Есть ли все это в Statistica 6, не знаю. Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Statisticafil Просмотр профиля	13.07.2007 - 14:44 Сообщение #6
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Спасибо за ответ Игорь. Цитата Однако имеется недорогое и даже бесплатное программное обеспечение, которое уже все это вычисляет. Если можно - то приведите пожалуйста ссылки или названия программ. Цитата Предварительно задать координаты кластеров? Но это уже не кластерный анализ. Это классификация с учителем. Требуемый вариант может быть легко (без программирования) самостоятельно реализован в Excel. Подскажите пожалуйста, как именно? Действительно можно наверное рассчитать расстояния для всех обьектов до заданных координат центров кластеров в эксэле, потом сравнить и выяснить что ближе-дальше. Отнесение обьекта к кластеру видимо по критерию минимума расстояния от его центра? А расстояние между обьектами рассчитывать как "расстояния отношения"? Правильно ли я Вас понял? Может быть здесь подойдёт дискриминантный анализ?

Игорь Просмотр профиля	14.07.2007 - 15:17 Сообщение #7
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Так можно сделать. Логично. Дискриминантный анализ подошел бы. Но здесь опять встает та же проблема - объекты в смешанных шкалах. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Statisticafil Просмотр профиля	15.07.2007 - 00:49 Сообщение #8
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Возможно ли рассчитать в Экселе "расстояние отношения"? Я не смог разобраться в аппарате. "Матрицы отношений" для меня тёмный лес. Насколько понял - Медиана Кемени, это один из векторов исходнго множества данных. Каким образом этот параметр будет использован в методе к-средних? Я видел работы, где в результате кластеризации в качестве результата выделяли "типичный обьект/представитель класса" и наоборот, выделяли такие обьекты предварительно, потом делали кластеризацию, наращивая обькты вокруг. Последнее Вы отнесли к методам классификации с обучением. В тех работах используемый мат.аппарат относили к "теории распознавания образов, а именно кластерный анализ". Насколько понимаю, в итоге будет что то похожее?

Игорь Просмотр профиля	15.07.2007 - 19:08 Сообщение #9
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	Я предполагаю модифицировать метод k-средних с тем, чтобы в качестве координат центра тяжести кластера использовать не среднее значение, вычисление которого для неколичественных (в том числе смешанных) данных некорректно, а медиану Кемени (Вы совершенно точно определили ее суть). Расстояние отношений вычисляется, как описано в книге Литвака. Разобраться непросто. Но метод очень интересен и эффективен. Замечу, что многомерный анализ смешанных и разнородных данных - это достаточно новые темы в анализе. Поэтому в различных стандартных программах данные методы пока могут быть не реализованы. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Игорь Просмотр профиля	29.09.2007 - 14:22 Сообщение #10
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040	В электронном учебнике StatSoft сказано: "Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным). Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга". Это принципиально неверное утверждение. Метод K-средних строит не ровно K кластеров, а не более K кластеров. Если, исходя из принятых допущений, используемых мер и классифицируемых данных, кластеров реально меньше, чем K, например, K1, метод построит K1 кластеров, а (K - K1) кластеров из заданных K будут пустыми. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.