Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Unsupervised fuzzy clustering (UFC) analysis, методы кластерного анализа
S.Nadorov
сообщение 20.12.2007 - 00:45
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 20.12.2007
Пользователь №: 4636



Уважаемые форумчане!

Может быть кто-то использовал fuzzy clustering analysis в своей научно-исследовательской работе. Пожалуйста, поделитесь впечатлением.
И знает ли кто-нибудь, в каких пакетах статистических программ реализован его алгоритм?

Заранее спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
плав
сообщение 26.12.2007 - 22:52
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Игорь @ 25.12.2007 - 16:04) *
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов.


1) Нет, не прав. Это все равно, что взять два наблюдения, сделать их копии, а потом считать достоверность разлчий между ними. Используются два метода, базирующиеся на одном и том же принципе, только работающие в разных направлениях. Соответственно, случайные различия между группами усиливаются, вместо того, чтобы нивелироваться. Происходит подгонка модели под данные.

Цитата(Игорь @ 25.12.2007 - 16:04) *
1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода.


2) В каком смысле наилучших? Кластерный анализ (кстати, название автоматическое распознавание не совсем адекватно, он ничего не распознает) приводит к тому, что точки в n-мерном пространстве разбиваются на k групп так, чтобы дисперсия между ними была максимальной. Т.е. это просто попытка объединить точки на основании информации, содержащейся в переменных. Более того, метод волюнтаристский, поскольку количество кластеров указывается аналитиком. Кластеры будут всегда и всегда столько, сколько скажете (и всегда с максимальной дисперсией между кластерами - но только для данного набора данных)

Цитата(DrgLena)
Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа.

А где доказательства кроме результатов кластерного анализа? Как я уже писал, кластерный анализ это всего лишь попытка механически растащить наблюдения так, чтобы дисперсия между ними была максимальной. Соответственно, два разных класса больных (без других доказательств в виде проверки решающих правил (а как Вы их сделаете на основе кластерного анализа?) на другой популяции) могут являться следствием случайных факторов. Обратите внимание, что случайная вариабельность в кластерном анализе никак не учитывается.

На самом деле, если речь заходит о большом объеме материала, то следует пользоваться методами снижения размерности (в первую очередь, анализ главных компонент), ибо они выделяют похожесть между переменными, а затем уже использовать полученные факторные нагрузки в дальнейшем анализе. Это как раз стандартная защита от проблемы множественных сравнений.

Цитата(Игорь)
В последние 20 лет к распознаванию образов стали относить нейросетевые методы, которые статистическими методами обычно не называют

Правильно, потому что в статистике они давно известны под именем множественной нелинейной регрессии со всеми вытекающими отсюда проблемами (именно для нейросетевых моделей подгонка модели под данные наиболее характерна). В них используются немного иные алгоритмы расчета, но для перевода на общий язык достаточно. Нейросетевые модели хороши для нахождения решающих правил неизвестного вида из громадного объема информации (например, рукописный ввод и OCR-системы часто базируются на результатах нейросетевого моделирвоания распознавания большого объема образцов подчерка). Еще в 50е годы было показано, что прецептрон с несколькими скрытыми слоями может описать почти любую нелинейную систему (правда, никто не говорил, что немного измененные данные будут также хорошо распознаваться). Нейросетевое моделирование, как и data mining в общем требуют оргомных массивов данных, которые у клиницистов встречаются крайне редко, а посему статей в серьезных журналах об успешном использовании этих методов в медицине не видно. На собственном опыте могу сказать, что на большом массиве данных нейросетевая модель (после адекватного построения - тут еще тоже надо постараться) дает неплохое предсказание, но люди хотят знать ответ на вопрос "почему так", а вот этого им и не скажешь, поскольку интерпретация выглядит так "если переменная 1 находится в диапазон от 0 до 3 и переменная 2 в диапазоне от 3 до 4, и... и... то тогда чем выше переменная 6, тем вероятнее исход"
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- S.Nadorov   Unsupervised fuzzy clustering (UFC) analysis   20.12.2007 - 00:45
- - Игорь   То, о чем сказано в предыдущем посте, по-русски на...   20.12.2007 - 10:27
- - плав   нечеткие методы кластерного анализа реализованы в ...   21.12.2007 - 11:49
- - S.Nadorov   Спасибо за помощь. Нашёл в сети книгу "Нечёт...   21.12.2007 - 20:53
|- - Lishe   Цитата(S.Nadorov @ 21.12.2007 - 21:5...   19.03.2013 - 23:00
- - Игорь   Несколько замечаний об упомянутых выше источниках ...   22.12.2007 - 07:29
- - плав   Насчет источников - я не вполне согласен. Если чел...   22.12.2007 - 21:59
- - IvanKur   Здраствуйте. Я в своей практике использовал ...   24.12.2007 - 11:13
- - Игорь   В наших расчетах метод k-средних давал стабильные ...   24.12.2007 - 11:20
- - IvanKur   А как у вас с разбиением на кластеры, график аглом...   24.12.2007 - 17:35
- - плав   Во-первых, если использованы одинаковые показатели...   24.12.2007 - 21:50
- - IvanKur   После кластеризации мы проводили дискриминантный а...   24.12.2007 - 22:12
- - плав   Но это что-то странное. Дело в том, что дискиминан...   25.12.2007 - 11:03
- - Игорь   А мне кажется, что IvanKur частично прав. На пробл...   25.12.2007 - 16:04
- - DrgLena   Игорь прав. Именно такой алгоритм и должен быть ис...   25.12.2007 - 22:34
- - IvanKur   Здравствуйте. Очень рад что разговор завязался, но...   26.12.2007 - 08:30
- - S.Nadorov   Очень приятно, что тема развивается, правда в неск...   26.12.2007 - 10:20
- - Игорь   Любой статистический метод распознавания дает разб...   26.12.2007 - 11:01
- - DrgLena   Прежде всего нужно знать для чего вы выделяете кла...   26.12.2007 - 12:55
- - плав   Цитата(Игорь @ 25.12.2007 - 16:04) А...   26.12.2007 - 22:52
- - плав   Цитата(Игорь)А можно (теоретически) описать движен...   26.12.2007 - 23:10
- - DrgLena   Не думаю, что проще исследовать влияние каждого их...   27.12.2007 - 06:32
- - плав   Прошу прощения за занудство, но фраза "не лим...   27.12.2007 - 21:54
- - DrgLena   Да, мы не совсем понимаем друг друга. Но я попробу...   29.12.2007 - 02:44
- - плав   Почему я напираю на необходимость проверки на друг...   29.12.2007 - 11:51
- - DrgLena   Спасибо, все что вы пишете, совершенно верно, но в...   29.12.2007 - 18:27
- - плав   Ну тут, либо я прав, либо так делать можно. Есть л...   4.01.2008 - 17:39
- - DrgLena   1. Модератор всегда прав, слава модератору! 2....   4.01.2008 - 23:54
- - Lishe   Здравствуйте, случайно заглянул в топик, не стал в...   19.03.2013 - 22:54
- - p2004r   Цитата(Lishe @ 19.03.2013 - 22:54) З...   23.03.2013 - 13:14
- - Lishe   Цитата(p2004r @ 23.03.2013 - 14:14) ...   23.03.2013 - 14:37


Добавить ответ в эту темуОткрыть тему