![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 20.12.2007 Пользователь №: 4636 ![]() |
Уважаемые форумчане!
Может быть кто-то использовал fuzzy clustering analysis в своей научно-исследовательской работе. Пожалуйста, поделитесь впечатлением. И знает ли кто-нибудь, в каких пакетах статистических программ реализован его алгоритм? Заранее спасибо. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов. 1) Нет, не прав. Это все равно, что взять два наблюдения, сделать их копии, а потом считать достоверность разлчий между ними. Используются два метода, базирующиеся на одном и том же принципе, только работающие в разных направлениях. Соответственно, случайные различия между группами усиливаются, вместо того, чтобы нивелироваться. Происходит подгонка модели под данные. 1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода. 2) В каком смысле наилучших? Кластерный анализ (кстати, название автоматическое распознавание не совсем адекватно, он ничего не распознает) приводит к тому, что точки в n-мерном пространстве разбиваются на k групп так, чтобы дисперсия между ними была максимальной. Т.е. это просто попытка объединить точки на основании информации, содержащейся в переменных. Более того, метод волюнтаристский, поскольку количество кластеров указывается аналитиком. Кластеры будут всегда и всегда столько, сколько скажете (и всегда с максимальной дисперсией между кластерами - но только для данного набора данных) Цитата(DrgLena) Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа. А где доказательства кроме результатов кластерного анализа? Как я уже писал, кластерный анализ это всего лишь попытка механически растащить наблюдения так, чтобы дисперсия между ними была максимальной. Соответственно, два разных класса больных (без других доказательств в виде проверки решающих правил (а как Вы их сделаете на основе кластерного анализа?) на другой популяции) могут являться следствием случайных факторов. Обратите внимание, что случайная вариабельность в кластерном анализе никак не учитывается. На самом деле, если речь заходит о большом объеме материала, то следует пользоваться методами снижения размерности (в первую очередь, анализ главных компонент), ибо они выделяют похожесть между переменными, а затем уже использовать полученные факторные нагрузки в дальнейшем анализе. Это как раз стандартная защита от проблемы множественных сравнений. Цитата(Игорь) В последние 20 лет к распознаванию образов стали относить нейросетевые методы, которые статистическими методами обычно не называют Правильно, потому что в статистике они давно известны под именем множественной нелинейной регрессии со всеми вытекающими отсюда проблемами (именно для нейросетевых моделей подгонка модели под данные наиболее характерна). В них используются немного иные алгоритмы расчета, но для перевода на общий язык достаточно. Нейросетевые модели хороши для нахождения решающих правил неизвестного вида из громадного объема информации (например, рукописный ввод и OCR-системы часто базируются на результатах нейросетевого моделирвоания распознавания большого объема образцов подчерка). Еще в 50е годы было показано, что прецептрон с несколькими скрытыми слоями может описать почти любую нелинейную систему (правда, никто не говорил, что немного измененные данные будут также хорошо распознаваться). Нейросетевое моделирование, как и data mining в общем требуют оргомных массивов данных, которые у клиницистов встречаются крайне редко, а посему статей в серьезных журналах об успешном использовании этих методов в медицине не видно. На собственном опыте могу сказать, что на большом массиве данных нейросетевая модель (после адекватного построения - тут еще тоже надо постараться) дает неплохое предсказание, но люди хотят знать ответ на вопрос "почему так", а вот этого им и не скажешь, поскольку интерпретация выглядит так "если переменная 1 находится в диапазон от 0 до 3 и переменная 2 в диапазоне от 3 до 4, и... и... то тогда чем выше переменная 6, тем вероятнее исход" |
|
![]() |
![]() |
![]() ![]() |