![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 20.12.2007 Пользователь №: 4636 ![]() |
Уважаемые форумчане!
Может быть кто-то использовал fuzzy clustering analysis в своей научно-исследовательской работе. Пожалуйста, поделитесь впечатлением. И знает ли кто-нибудь, в каких пакетах статистических программ реализован его алгоритм? Заранее спасибо. |
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
То, о чем сказано в предыдущем посте, по-русски называется "нечеткие методы автоматической классификации". В этой связи порекомендую превосходную одноименную книгу Д.А. Вятченина, изданную в Минске в 2004 году. В монографии доступно рассмотрены нечеткие аналоги всех классических методов кластерного анализа.
Насчет пакетов ничего порекомендовать не могу, т.к. лицензионными копиями их не обладаю. Учитывая, что методы, реализованные в классических больших пакетах, разработаны лет 30 и более тому назад (как и методы по рассматриваемой теме), наличие данных методов в них очень вероятно. Можно было бы на имеющемся заделе достаточно легко разработать собственное программное обеспечение, однако острой необходимости в данном ПО не ощущается, а простой научный интерес без финансовой поддержки имеет обыкновение быстро заканчиваться ввиду возникновения новых интересных тем. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
нечеткие методы кластерного анализа реализованы в пакете NCSS.
Ссылки Bezdek, J.C. (1981), Pattern Recognition with Fuzzy Objective Function Algorithms, New York: Plenum Press. Bezdek, J.C. & Pal, S.K., eds. (1992), Fuzzy Models for Pattern Recognition, New York: IEEE Press. |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 20.12.2007 Пользователь №: 4636 ![]() |
Спасибо за помощь.
Нашёл в сети книгу "Нечёткие методы автоматической классификации" (Вятченин Д.А., 2004). Со своей стороны могу добавить источники, которые удалось также найти по данной теме: 1. Fuzzy cluster analysis (Hoppner Frank et al., 1999). 2. Advanced in fuzzy clustering and its applications (Ed.: Jose Valente de Oliveira et al., 2007). И всё-таки маленький вопрос к специалистам, прежде чем "вгрызаться" в fuzzy-кластерный анализ. Читал мнение зарубежных специалистов (Cohen, Geba), что данный метод анализа хорошо проявил себя при обработке данных поведенческих методик (фенотипирование грызунов), где a priori высокая вариабельность показателей. Сам вопрос: Как вы полагаете, может ли этот метод иметь какие-либо преимущества перед обычными методами (чёткими), такими как к-means или иерархическими, с учётом "будущей точки приложения"? |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Несколько замечаний об упомянутых выше источниках и об их доступности в условиях России. Под доступностью понимаю наличие приличной научной библиотеки (1) в радиусе 10 км от местонахождения исследователя и/или безлимитного Интернета (2) за ~ 400 рублей в месяц.
Книга Вятченина Д.А. доступна в Интернете, как точно отметил уважаемый собеседник. Это хорошо. Статья Hoppner Frank et al. интересна. Тем более бесплатно. Книга Jose Valente de Oliveira et al., судя по оглавлению, отличная. Можно брать и писать программы. Одно НО - стоит 130 долларов. Это дорого. Книги Bezdek - классика, но опять же недоступно. Думаю, нужно по возможности указывать источники доступные и территориально, и финансово. Иначе можно, например, по данной теме указать сотни источников, ознакомиться с которыми обычный исследователь просто не сможет. Грешат этим и Справки зарубежных, в том числе и переведенных, аналитических программ. Так, например, список источников в HELPе Statistica ограниченно полезен из-за недоступности источников. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Насчет источников - я не вполне согласен. Если человек хочет ознакомится с новым, мало распространенным методом, то лучше читать оригиналы. Мы принимаем, что этот человек - профессионал, поскольку осваивать новые, редко используемые методы с (зачастую) неизвестными допущениями дилетанту лучше не стоит - вреда будет больше, чем пользы. Если же это профессионал, то он может потратить 100-200 евро на Amazon.com для покупки нужной книги (В Россию книги доходят и достаточно быстро, платеж выпущенными российскими карточками Visa/Master Card). Кроме того, во время поездок за рубеж можно посещать книжные магазины, и, наконец, лоббировать, чтобы учреждение адекватно финансировало свою библиотеку. Любой профессионал зависит - с моей точки зрения - от своей библиотеки, по крайней мере потому, что открытые Интернет ресурсы часто не содержат критичной для понимания идеи информации.
Если человек не является профессионалом в данной области, то тогда да, ему тратить значительную сумму на то чем он, возможно, никогда не будет пользоваться, не стоит. Однако тут существует относительно простое правило - если в данной области есть публикации, которые использовали аналогичный метод и публикации вышли из известных центров (т.е. мест, где было достаточно ресурсов, чтобы нанять квалифицированного специалиста по обработке данных) - то этим методом стоит пользоваться. Если в данной области ничего подобного никто не делал - начинать не стоит, явно есть подводные камни. Именно такой совет можно дать относительно нечетких систем классификации. Алгоритмам уже более двадцати лет, NCSS реализует эти алгоритмы уже лет десять, а потока публикаций с использованием этих методов не видно (имеется ввиду не теоретические рассуждения о приемлимости метода, а реальные примеры научных исследований, где метод используется в качестве инструмента). Отсюда вывод - попробовать можно, но лучше - если речь не идет о ситуации, где обычный кластерный анализ по какой-то причине завел в тупик - их не использовать. |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 21.12.2007 Пользователь №: 4641 ![]() |
Здраствуйте.
Я в своей практике использовал "четкий" кластерный анализ результаты интересные но выделение кластеров полностью волюнтаристские, из-за большого разброса данных (высокая вариация) график агломирации гладкий без скачков. Использовал Statistica 6.0 и statgraph 5,1 (при этом одинаковые казалось бы методы класторизаци в этих программах выдают разные результаты) В итоге в пакете R посчитал растояния, результаты конечно стали еще интереснее, но гложет сомнение при определениее растояния при котором выделяются кластеры. Если кто сталкивался с такой проблемой поделитесь. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
В наших расчетах метод k-средних давал стабильные результаты, практически не зависящие от начального (произвольного) разбиения.
![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 21.12.2007 Пользователь №: 4641 ![]() |
А как у вас с разбиением на кластеры, график агломирации имеет скачки?
|
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Во-первых, если использованы одинаковые показатели расстояния, одинаковая стандартизация и одинаковые методы (к-means) результаты просто не могут быть разными, скорее всего разные параметры были выбраны при выборе показателя расстояния и/или разное отношение к пропущенным значениям - надо перепроверять данные
Во-вторых, график аггломерации это примерный инструмент выбора числа кластеров, аналог графика Кэттела из факторного анализа, соответственно и демонстрирует, можем ли мы действительно считать, что у нас есть определенное количество кластеров (там не только скачки важны, но и точка перегиба) В-третьих, если разделение на кластеры не очень получается, то, скорее всего, кластеров в данных нет. Это вполне возможно. В серии цифр 12345 можно сделать от 1 до 5 кластеров, но явных кластеров тут нет. Так что надо просто задать себе вопрос - а есть ли в моих данных кластеры? Ожидаю ли я их? (И, кстати, теоретическое выделение числа кластеров является тоже возможным) |
|
![]() |
![]() |
![]()
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 21.12.2007 Пользователь №: 4641 ![]() |
После кластеризации мы проводили дискриминантный анализ полученных класторов на его основании и принимали решение об оптимальном количестве кластеров
|
|
![]() |
![]() |
![]()
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Но это что-то странное. Дело в том, что дискиминантный анализ является (в определенном смысле) производным от дисперсионного. А кластерный анализ - дисперсионный наоборот (итеративное разбиение на группы с целью максимизировать разность квадратов, приходящуюся на модели). Соответственно, использовать группы, образованные в результате кластерного анализа в дискриминантном нельзя, поскольку они искуственно создавались, чтобы различаться.
Количество кластеров подбирается либо на основе теоретических положений, либо на основе графика аггломерации. |
|
![]() |
![]() |
![]()
Сообщение
#13
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов.
1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода. 2 этап. Обучение с учителем. Используя те же самые исходные данные и результаты (классы), полученные на предыдущем этапе, с помощью дискриминантного анализа (обучения с учителем) получить решающие правила, позволяющие отнести объект к тому или иному классу. 3 этап. Распознавание. Полученные на предыдущем этапе решающие правила позволяют отнести вновь введенные в рассмотрение объекты к тому или иному классу. Отметим, что обучение без учителям - более широкое понятие, ибо включает в себя в настоящее время нейросетевые алгоритмы, к кластерному анализу авторами не относимые. Например, это сети Хопфилда. Обучение с учителем также в настоящее время включает нейросетевые алгоритмы, например, персептрон. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() ![]()
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Игорь прав. Именно такой алгоритм и должен быть использован. Сегодня медицинские исследования проводятся со все увеличивающимся потоком количественной информации. Например, морфометрические характеристики заднего отдела глаза получаемые ОКТ комплексами дают возможность не только получить картинку состояния заднего отдела глаза у одного больного, но и выдают большое количество числового материала, что дает возможность одновременной оценки комплекса признаков у группы больных.
Использование кластерного анализа на первом этапе исследования позволяет выделить более однородные группы больных по множеству признаков одновременно, снизить разброс данных, рассматривать результат лечения в зависимости от выделенного класса. Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа. Если выделенные классы различаются по эффективности лечения или по пргнозу, то нужно предложить классификацию с учителем. Дискриминантный, если данные только количественные, а если кроме количественных показателей хочется использовать клинические бинарные или ранговые, то можно использовать Дерево решений или нейросетевое моделирование. В 7 версии Statistica нейронные сети входят как встроенный модуль. Дерево решений, конечно понятно, любому доктору, под каждым узлом - логическое правило. |
|
![]() |
![]() |
![]()
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 10 Регистрация: 21.12.2007 Пользователь №: 4641 ![]() |
Здравствуйте.
Очень рад что разговор завязался, но меня постоянно мучает сомнение в правильности выделения кластеров поэтому хотел бы посоветоваться как еще можно проверить разбиение или же провести раздиение так что бы не было сомнений в выделении кластеров. Я понимаю что сомнения постоянно присутствующий факт в исследованиях и все же. |
|
![]() |
![]() |
![]() ![]() |