Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Unsupervised fuzzy clustering (UFC) analysis
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
S.Nadorov
Уважаемые форумчане!

Может быть кто-то использовал fuzzy clustering analysis в своей научно-исследовательской работе. Пожалуйста, поделитесь впечатлением.
И знает ли кто-нибудь, в каких пакетах статистических программ реализован его алгоритм?

Заранее спасибо.
Игорь
То, о чем сказано в предыдущем посте, по-русски называется "нечеткие методы автоматической классификации". В этой связи порекомендую превосходную одноименную книгу Д.А. Вятченина, изданную в Минске в 2004 году. В монографии доступно рассмотрены нечеткие аналоги всех классических методов кластерного анализа.

Насчет пакетов ничего порекомендовать не могу, т.к. лицензионными копиями их не обладаю. Учитывая, что методы, реализованные в классических больших пакетах, разработаны лет 30 и более тому назад (как и методы по рассматриваемой теме), наличие данных методов в них очень вероятно.

Можно было бы на имеющемся заделе достаточно легко разработать собственное программное обеспечение, однако острой необходимости в данном ПО не ощущается, а простой научный интерес без финансовой поддержки имеет обыкновение быстро заканчиваться ввиду возникновения новых интересных тем.
плав
нечеткие методы кластерного анализа реализованы в пакете NCSS.

Ссылки
Bezdek, J.C. (1981), Pattern Recognition with Fuzzy Objective Function
Algorithms, New York: Plenum Press.

Bezdek, J.C. & Pal, S.K., eds. (1992), Fuzzy Models for Pattern
Recognition, New York: IEEE Press.
S.Nadorov
Спасибо за помощь.

Нашёл в сети книгу "Нечёткие методы автоматической классификации" (Вятченин Д.А., 2004).
Со своей стороны могу добавить источники, которые удалось также найти по данной теме:

1. Fuzzy cluster analysis (Hoppner Frank et al., 1999).
2. Advanced in fuzzy clustering and its applications (Ed.: Jose Valente de Oliveira et al., 2007).



И всё-таки маленький вопрос к специалистам, прежде чем "вгрызаться" в fuzzy-кластерный анализ.
Читал мнение зарубежных специалистов (Cohen, Geba), что данный метод анализа хорошо проявил себя при обработке данных поведенческих методик (фенотипирование грызунов), где a priori высокая вариабельность показателей.

Сам вопрос: Как вы полагаете, может ли этот метод иметь какие-либо преимущества перед обычными методами (чёткими), такими как к-means или иерархическими, с учётом "будущей точки приложения"?

Игорь
Несколько замечаний об упомянутых выше источниках и об их доступности в условиях России. Под доступностью понимаю наличие приличной научной библиотеки (1) в радиусе 10 км от местонахождения исследователя и/или безлимитного Интернета (2) за ~ 400 рублей в месяц.

Книга Вятченина Д.А. доступна в Интернете, как точно отметил уважаемый собеседник. Это хорошо.

Статья Hoppner Frank et al. интересна. Тем более бесплатно.

Книга Jose Valente de Oliveira et al., судя по оглавлению, отличная. Можно брать и писать программы. Одно НО - стоит 130 долларов. Это дорого.

Книги Bezdek - классика, но опять же недоступно.

Думаю, нужно по возможности указывать источники доступные и территориально, и финансово. Иначе можно, например, по данной теме указать сотни источников, ознакомиться с которыми обычный исследователь просто не сможет. Грешат этим и Справки зарубежных, в том числе и переведенных, аналитических программ. Так, например, список источников в HELPе Statistica ограниченно полезен из-за недоступности источников.
плав
Насчет источников - я не вполне согласен. Если человек хочет ознакомится с новым, мало распространенным методом, то лучше читать оригиналы. Мы принимаем, что этот человек - профессионал, поскольку осваивать новые, редко используемые методы с (зачастую) неизвестными допущениями дилетанту лучше не стоит - вреда будет больше, чем пользы. Если же это профессионал, то он может потратить 100-200 евро на Amazon.com для покупки нужной книги (В Россию книги доходят и достаточно быстро, платеж выпущенными российскими карточками Visa/Master Card). Кроме того, во время поездок за рубеж можно посещать книжные магазины, и, наконец, лоббировать, чтобы учреждение адекватно финансировало свою библиотеку. Любой профессионал зависит - с моей точки зрения - от своей библиотеки, по крайней мере потому, что открытые Интернет ресурсы часто не содержат критичной для понимания идеи информации.
Если человек не является профессионалом в данной области, то тогда да, ему тратить значительную сумму на то чем он, возможно, никогда не будет пользоваться, не стоит. Однако тут существует относительно простое правило - если в данной области есть публикации, которые использовали аналогичный метод и публикации вышли из известных центров (т.е. мест, где было достаточно ресурсов, чтобы нанять квалифицированного специалиста по обработке данных) - то этим методом стоит пользоваться. Если в данной области ничего подобного никто не делал - начинать не стоит, явно есть подводные камни. Именно такой совет можно дать относительно нечетких систем классификации. Алгоритмам уже более двадцати лет, NCSS реализует эти алгоритмы уже лет десять, а потока публикаций с использованием этих методов не видно (имеется ввиду не теоретические рассуждения о приемлимости метода, а реальные примеры научных исследований, где метод используется в качестве инструмента). Отсюда вывод - попробовать можно, но лучше - если речь не идет о ситуации, где обычный кластерный анализ по какой-то причине завел в тупик - их не использовать.
IvanKur
Здраствуйте.

Я в своей практике использовал "четкий" кластерный анализ результаты интересные но выделение кластеров полностью волюнтаристские, из-за большого разброса данных (высокая вариация) график агломирации гладкий без скачков.

Использовал Statistica 6.0 и statgraph 5,1 (при этом одинаковые казалось бы методы класторизаци в этих программах выдают разные результаты)

В итоге в пакете R посчитал растояния, результаты конечно стали еще интереснее, но гложет сомнение при определениее растояния при котором выделяются кластеры.

Если кто сталкивался с такой проблемой поделитесь. wt.gif
Игорь
В наших расчетах метод k-средних давал стабильные результаты, практически не зависящие от начального (произвольного) разбиения.
IvanKur
А как у вас с разбиением на кластеры, график агломирации имеет скачки?
плав
Во-первых, если использованы одинаковые показатели расстояния, одинаковая стандартизация и одинаковые методы (к-means) результаты просто не могут быть разными, скорее всего разные параметры были выбраны при выборе показателя расстояния и/или разное отношение к пропущенным значениям - надо перепроверять данные
Во-вторых, график аггломерации это примерный инструмент выбора числа кластеров, аналог графика Кэттела из факторного анализа, соответственно и демонстрирует, можем ли мы действительно считать, что у нас есть определенное количество кластеров (там не только скачки важны, но и точка перегиба)
В-третьих, если разделение на кластеры не очень получается, то, скорее всего, кластеров в данных нет. Это вполне возможно. В серии цифр 12345 можно сделать от 1 до 5 кластеров, но явных кластеров тут нет. Так что надо просто задать себе вопрос - а есть ли в моих данных кластеры? Ожидаю ли я их? (И, кстати, теоретическое выделение числа кластеров является тоже возможным)
IvanKur
После кластеризации мы проводили дискриминантный анализ полученных класторов на его основании и принимали решение об оптимальном количестве кластеров
плав
Но это что-то странное. Дело в том, что дискиминантный анализ является (в определенном смысле) производным от дисперсионного. А кластерный анализ - дисперсионный наоборот (итеративное разбиение на группы с целью максимизировать разность квадратов, приходящуюся на модели). Соответственно, использовать группы, образованные в результате кластерного анализа в дискриминантном нельзя, поскольку они искуственно создавались, чтобы различаться.
Количество кластеров подбирается либо на основе теоретических положений, либо на основе графика аггломерации.
Игорь
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов.

1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода.

2 этап. Обучение с учителем. Используя те же самые исходные данные и результаты (классы), полученные на предыдущем этапе, с помощью дискриминантного анализа (обучения с учителем) получить решающие правила, позволяющие отнести объект к тому или иному классу.

3 этап. Распознавание. Полученные на предыдущем этапе решающие правила позволяют отнести вновь введенные в рассмотрение объекты к тому или иному классу.

Отметим, что обучение без учителям - более широкое понятие, ибо включает в себя в настоящее время нейросетевые алгоритмы, к кластерному анализу авторами не относимые. Например, это сети Хопфилда. Обучение с учителем также в настоящее время включает нейросетевые алгоритмы, например, персептрон.
DrgLena
Игорь прав. Именно такой алгоритм и должен быть использован. Сегодня медицинские исследования проводятся со все увеличивающимся потоком количественной информации. Например, морфометрические характеристики заднего отдела глаза получаемые ОКТ комплексами дают возможность не только получить картинку состояния заднего отдела глаза у одного больного, но и выдают большое количество числового материала, что дает возможность одновременной оценки комплекса признаков у группы больных.
Использование кластерного анализа на первом этапе исследования позволяет выделить более однородные группы больных по множеству признаков одновременно, снизить разброс данных, рассматривать результат лечения в зависимости от выделенного класса. Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа. Если выделенные классы различаются по эффективности лечения или по пргнозу, то нужно предложить классификацию с учителем. Дискриминантный, если данные только количественные, а если кроме количественных показателей хочется использовать клинические бинарные или ранговые, то можно использовать Дерево решений или нейросетевое моделирование. В 7 версии Statistica нейронные сети входят как встроенный модуль. Дерево решений, конечно понятно, любому доктору, под каждым узлом - логическое правило.
IvanKur
Здравствуйте.
Очень рад что разговор завязался, но меня постоянно мучает сомнение в правильности выделения кластеров поэтому хотел бы посоветоваться как еще можно проверить разбиение или же провести раздиение так что бы не было сомнений в выделении кластеров.
Я понимаю что сомнения постоянно присутствующий факт в исследованиях и все же.
S.Nadorov
Очень приятно, что тема развивается, правда в несколько другом направлении (но тоже в интересном).

Позвольте поделиться размышлениями. Насколько я понимаю, дискиминантный анализ также не является цельным методом (линейный, квадратичный; пошаговый; Фишера и проч.). Как в этом случае рекомендовать его к использованию для получения решающих правил, если все указанные варианты метода дают свои решения? И далее, необходимо включить этап проверки полученного набора правил на устойчивость (Лахенбрук и проч.), иначе смысл теряется.
Кстати, давно хотелось спросить, в случае step-by-step (процедура backward) линейного дискриминантного анализа как выбрать точное входное F-значение? Подскажите, пожалуйста. Для процедуры forward я обычно пользовался F-распределением Фишера-Снедекора, заранее зная количество групп и общее количество случаев.

Относительно нейронных сетей. В поведенческих методиках, как в моём случае, набрать такое количество данных, необходимое для проведения этого вида анализа достаточно трудно (речь ведь уже идёт о сотнях случаев, не правда ли?).



P.S.
Хочу пояснить на счёт представленных источников по fuzzy-анализу. Электронные версии этих книг были доступны в сети и у меня появилась возможность их получить бесплатно. По этическим соображениям публиковать ссылки здесь не буду, желающим - через личные сообщения.
Коллеги, не посоветуете ли толковую книгу, описывающую функции принадлежности и технологию их использования.


Спасибо.
Игорь
Любой статистический метод распознавания дает разбиение оптимальное в смысле используемой статистической (часто линейной) модели, принятой функции (функционала) качества и зависит от выбранной метрики.
DrgLena
Прежде всего нужно знать для чего вы выделяете кластеры. Если вы хотите подтвердить ваше предположение, что исследуемая группа больных, которая выделена по какому то принципу, например диагноз, стадия болезни, содержит в себе некоторые особенные подгруппы, то анализируя их особенности вы можете получить новые научные или практические данные. Например, я использовала кластерный анализ , метод к-средних, для поиска кластеров по типу иммунной системы (показатели клеточного и гумморального иммунитета) и получила 4 кластера, один из которых был наиболее обособлен, имел наибольшие значения межкластерного расстояния. Давльнейший анализ выживаемости показал, что у этих больных достоверно ниже выживаемость и морфологически у большинства этих больных наиболее злокачественный эпителиоидный клеточный тип УМ.
Сомнения, конечно хорошая вещь, но вам предлагают несколько возможностей (Statistica) для выбора начала кластеризации и это дает для творчества большие возможности. Но реально у меня почти всегда - два вида разделения. ВЫ сохраняете все возможности и анализируете их отдельно, и потом думаете, что для вас имеет клинический смысл. И не забывайте о величине межкластерного расстояния. Все зависит от задачи, что и для чего вы кластеризуете.
плав
Цитата(Игорь @ 25.12.2007 - 16:04) *
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов.


1) Нет, не прав. Это все равно, что взять два наблюдения, сделать их копии, а потом считать достоверность разлчий между ними. Используются два метода, базирующиеся на одном и том же принципе, только работающие в разных направлениях. Соответственно, случайные различия между группами усиливаются, вместо того, чтобы нивелироваться. Происходит подгонка модели под данные.

Цитата(Игорь @ 25.12.2007 - 16:04) *
1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода.


2) В каком смысле наилучших? Кластерный анализ (кстати, название автоматическое распознавание не совсем адекватно, он ничего не распознает) приводит к тому, что точки в n-мерном пространстве разбиваются на k групп так, чтобы дисперсия между ними была максимальной. Т.е. это просто попытка объединить точки на основании информации, содержащейся в переменных. Более того, метод волюнтаристский, поскольку количество кластеров указывается аналитиком. Кластеры будут всегда и всегда столько, сколько скажете (и всегда с максимальной дисперсией между кластерами - но только для данного набора данных)

Цитата(DrgLena)
Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа.

А где доказательства кроме результатов кластерного анализа? Как я уже писал, кластерный анализ это всего лишь попытка механически растащить наблюдения так, чтобы дисперсия между ними была максимальной. Соответственно, два разных класса больных (без других доказательств в виде проверки решающих правил (а как Вы их сделаете на основе кластерного анализа?) на другой популяции) могут являться следствием случайных факторов. Обратите внимание, что случайная вариабельность в кластерном анализе никак не учитывается.

На самом деле, если речь заходит о большом объеме материала, то следует пользоваться методами снижения размерности (в первую очередь, анализ главных компонент), ибо они выделяют похожесть между переменными, а затем уже использовать полученные факторные нагрузки в дальнейшем анализе. Это как раз стандартная защита от проблемы множественных сравнений.

Цитата(Игорь)
В последние 20 лет к распознаванию образов стали относить нейросетевые методы, которые статистическими методами обычно не называют

Правильно, потому что в статистике они давно известны под именем множественной нелинейной регрессии со всеми вытекающими отсюда проблемами (именно для нейросетевых моделей подгонка модели под данные наиболее характерна). В них используются немного иные алгоритмы расчета, но для перевода на общий язык достаточно. Нейросетевые модели хороши для нахождения решающих правил неизвестного вида из громадного объема информации (например, рукописный ввод и OCR-системы часто базируются на результатах нейросетевого моделирвоания распознавания большого объема образцов подчерка). Еще в 50е годы было показано, что прецептрон с несколькими скрытыми слоями может описать почти любую нелинейную систему (правда, никто не говорил, что немного измененные данные будут также хорошо распознаваться). Нейросетевое моделирование, как и data mining в общем требуют оргомных массивов данных, которые у клиницистов встречаются крайне редко, а посему статей в серьезных журналах об успешном использовании этих методов в медицине не видно. На собственном опыте могу сказать, что на большом массиве данных нейросетевая модель (после адекватного построения - тут еще тоже надо постараться) дает неплохое предсказание, но люди хотят знать ответ на вопрос "почему так", а вот этого им и не скажешь, поскольку интерпретация выглядит так "если переменная 1 находится в диапазон от 0 до 3 и переменная 2 в диапазоне от 3 до 4, и... и... то тогда чем выше переменная 6, тем вероятнее исход"
плав
Цитата(Игорь)
А можно (теоретически) описать движение всех вирусов. Только кому будет нужна такая модель и где такой компьютер, который сможет решить данные уравнения?

Не возможно. Существуют случайные факторы, поэтому для адекватного описания эпидемии придется использовать стохастические модели, а они не могут "предсказать" развитие эпидемии, а только ее наиболее вероятную эпидемическую кривую

Цитата(DrgLena)
Давльнейший анализ выживаемости показал, что у этих больных достоверно ниже выживаемость и морфологически у большинства этих больных наиболее злокачественный эпителиоидный клеточный тип УМ

А не проще было проанализировать выживаемость как функцию факторов риска? "Не надо умножать сущности" - если что-то можно сделать просто, лучше это сделать просто - меньше допущений и возможности для ошибки. Повторюсь, кластерный анализ - способ объединения наблюдений (я не имею ввиду иерархический КА), соответственно, если задача - поиск предикторов (т.е. интерес к переменным) - ему нет место.

Вообще небольшое - не раз уже повторяемое мною замечание - посмотрите, какие методы используются в публикациях в Lancet, BMJ, JAMA или NEJM. Там есть рецензенты-статистики, причем очень грамотные (мою статью в BMJ, например, рецензировал Дуг Альтман). Если метод не используется в этих статьях - значит с ним есть проблемы. Надо четко понимать, что степень статистической подготовки у исследователей-клиницистов в Европе и США выше, чем у нас, поэтому все обсуждаемые выше методы они знают, если не используют - на то есть причины (попробуйте догадаться. почему нейросетевое моделирование после серии статей в середине 90х "не пошло").

И наконец, последнее, с чего началось обсуждение . Тут о нейросетевом моделировании, о кластерах, а человек спрашивает, какое значение F надо выбирать в процедуре линейного дискриминантного анализа для обратного отбора... Ответ - также, как и в линейном регресионном анализе при пошаговом отборе переменных...
DrgLena
Не думаю, что проще исследовать влияние каждого их 18 показателей иммунной системы на функцию выживания. Как раз такие работы - в большом количестве. У одних исследователей хелперы снижены, у других повышены, а другие показатели и вообще в границах нормы. Функция выживания для больных УМ на сегодняшний день хорошо описана и на нее достоверно влияют только 5 известных предикторов (размер, локализация опухоли, возраст, и клеточный тип опухоли, который становится известным только при удалении глаза). Кластерный анализ как раз и показал, что существует система иммунитета, которая может быть разделена на 4 класса, максимально различающихся по значению всех показателей, и от принадлежности к определенному классу зависит прогноз. На прогноз оказывает влияние не лимфоцит или глобулин, а тип иммунной системы. Включение в кокс регрессионную модель нового предиктора - типа иммунной системы позволит усилить модель прогноза выживаемости.
У здоровых людей также четко выделяются 4 класса, правда сейчас другие методики исследования и пока нет большого матермала для проверки существования именно 4 типов иммунной системы (здоровые не ходят сдавать анализы). Хочется конечно, чтобы у холериков с 1 группой крови и тип иммунной системы относился к определенной группировке.
Я думаю, что правильность выделения кластеров должна подтверждаться логикой медицинских различий и в таком случае F вкл. может быть и 4 и 3, а выключения и 2 и 1.
плав
Прошу прощения за занудство, но фраза "не лимфоцит или глобулин, а тип иммунной системы" мне не понятна. Итак, у Вас есть группа пациентов. У них измерены лимфоциты и глобулины, но влияют на выживаемость не они а ... что? Из ничего ничего не берется, какая информация была у Вас в исходных данных, такая и осталась. Вы, используя кластерный анализ показали, что Вас есть пациенты, которые имеют более плохой или хороший прогноз и это изменение прогноза не сводимо к измеренным параметрам имунной системы. Если Вы хотите доказать, что в основе измеренных 18 параметров лежит два-три-четыре фактора (ну, например, преимущественная активность Th1 или Th2), то тогда надо пытаться объединить переменные, т.е. выполнять факторный анализ и работать с факторными нагрузками.
Однако на самом деле я не услышал опровержения моего главного возражения против методики повторного использования кластерного анализа - подгонки модели под данные. Заменялись ли все 18 параметров на номера кластеров, затем проводилась (правда как) оценка при помощи решающей функции полученного правила на независимой выборке и было продемонстрированно улучшение предсказания выживаемости? Или же просто внесли в построенную модель номера кластеров и, соответственно, сработала математика кластерного анализа, остаточная дисперсия стала меньше и достоверность модели повысилась без какого либо положительного влияния на генерализуемость? Если вариант первый - тогда просто здорово, если второй - я бы аккуратнее относился к полученным результатм.
DrgLena
Да, мы не совсем понимаем друг друга. Но я попробую продолжить диалог.
Классифицируя объекты (больных), а не иммунологические показатели были выделены 4 подгруппы (обучились без учителя). Потом, с учителем (используя принадлежность к классу) средствами дискриминантного канонического анализа получили правило и картинку для всех 380 объектов выборки в координарах первых двух канонических переменных. Центроиды классов пометили+ и получилось очень красивая иллюстрация с четко обозначенными классами. Иммунологические исследования были сделаны давно (не метод моноклональн. ант.) и хранились в базе данных и в свое время каждый показатель сравнивался с контролем без каких либо значимых выводов. Сегодня, накопив данные о выживаемости этих больных, оказалось, что она связана с принадлежностью к определенному кластеру, а не каким либо из показателей. Возможно для прогноза, это и не слишком нужно. Но важно обратить внимание на этот факт, с тем чтобы не ожидать плохого прогноза, а воздействовать на выявленный фактор риска. Хотя роль иммунокорректоров можно обсудить в другой ветке. Иммун исследования проводили до лечения.
У здоровых людей также выделяется 4 класса с межкластерными расстояниями более 1,5, но данных мало и они - побочный продукт другого исследования, кром етого методики другие. И то правило которое разработано для больных, для здоровых не подходит.
При использовании факторного анализа мне всегда трудно дать медицинскую ясную трактовку результатов. Объяснить коллегам, почему вместо 18 мы берем 2 абстрактных показателя, которые и пометить не чем. Если у вас есть ссылки хорошего описания - поделитесь.
И спасибо за терпение. Обучать докторов статистике - тяжелый труд!
плав
Почему я напираю на необходимость проверки на другой группе. Классифицирование объектов (больных) проводилось по информации, которая содержалась в переменных описывавших иммунологические показатели. Соответственно, классифицировали больных, но на основании информации об иммунологических показателях. Однако измеренное значение показателя равно y=x+\epsilon, где х - истинное (не наблюдаемое) значение показателя, а \epsilon - случайная ошибка (ошибка измерения, индивидуальная вариабельность и т.д.). Случайная ошибка имеет (в многих моделях) нормальное распределение с параметрами (0,1) - т.е. среднее всех случайных значений равно нулю. Почти все статистические методы построены на том, что при наличии большого количества измерений случайные ошибки гасят друг друга и средня у оказывается равной средней х или близко к тому.
Теперь представьте себе следующую ситуацию, есть три наблюдения с \epsilon -1,+1,+0.5 Суммарное смещение равно 0,5 ввиду того, что последнее значение \epsilon не "гасится". Теперь, если мы удвоим количество наблюдений путем повтора каждого смещение увеличится до 1 (а стандратная ошибка снизится в sqrt(2) раз). Этот пример, как мне кажется, показывает, что дублирование наблюдений ни к чему хорошему не приводит.
Соответственно, если мы использовали информацию об иммунологических показателях для определения кластеров в кластерном анализе, мы уже один раз взяли все наблюдения, включая их ошибку. Если теперь, в какой-то другой модели (например, в дискриминантном анализе), мы опять включим те же показатели, мы продублируем наблюдения вместе с ошибкой и реализуем ситуацию, описанную в примере выше.
Соответственно, подход с использованием кластерного анализа абсолютно легитимный если исследователь определяет принадлежность к кластерам на основании некоего числа переменных, затем анализирует, например, прогноз в группах, образованных этими кластерами, но более не включает в модель переменные, на основании которых проводилась классификация. Исходные переменные в описательном виде, используются лишь для того, чтобы понять, на основании чего разделялись кластеры.
И вот тут мы подходим к факторному анализу, к сожалению, ссылки на хорошие описания дать не смогу (на свои ссылаться не хочется под названием "хорошие", моя любимая книжка Jahn и Hale Die Faktoranalyse была издана 36 лет назат в ГДР и вряд ли легко доступна, но можно найти достаточно много публикаций в психологии (например, Step-By-Step Approach to Using the SAS system for Factor Analysis and Structured Equation Modelling)). на русском языке был ряд публикаций в Кардиологии и Тер.Архиве в начале 1990х. Однако общая идея достаточно простая. Мы устанавливаем, какие переменные связаны с данным фактором, а затем проводим анализ литературы (по патофизиологии, например) с целью выяснить, какая причина может лежать в основе всех этих факторов вместе. Например, ожирение, АГ, высокие ТГ - нарушенная толернатность к инсулину. Фкторный анализ объясняет, что наблюдаемые параметры являются производными от одного (двух, трех) более общих показателей, объяснить которые можно только путем анализа литературы и знаний физиологии и биохимии (психологии в других областях). Так что факторный анализ просто требует значительного анализа литературы после проведения статистического анализа в отличие от остальных методов, которые требуеют этого до.
DrgLena
Спасибо, все что вы пишете, совершенно верно, но все же, использование именно кластерного анализ на первом этапе исследования позволяет выделить более однородные группы, снизить разброс данных и анализировать эффективность лечения или прогноз в зависимости от значения не одного признака (стадия, степень или категория значения одного их признаков), а множества количественных показателей. Это легко описывать без сложного математического языка.
плав
Ну тут, либо я прав, либо так делать можно. Есть ли опровержение приведенным выше доказательствам того, что используя два раза одни и те же данные, вы искуственно занижаете разброс данных и, соответственно, увеличиваете ошибку I типа? Если нет, то двойное использование данных является ошибкой. Тогда место кластерного анализа выявление групп пациентов и затем попытка разобраться, как эти группы выделялись. Если обратные доказательства есть, хочется их увидеть.
Анализировать эффективность лечения или прогноз можно от большого количества признаков в рамках многомерных моделей, используя поправку Бонферонни для решения проблемы множественного сравнения (как минимум).
DrgLena
1. Модератор всегда прав, слава модератору!
2. Если модератор не прав, читай пункт 1.
Если классы выделяются четко и любой больной может быть отнесен к одному из выделенных классов, то возможно, такая классификация отражает объективную реальность. Классы существуют не зависимо от нашего сознания, а кластерный анализ лишь помог нам это выявить. Например, у меня 1 группа крови и я холерик или астеник. Это мое объективное свойство по некоторым классификациям. А тип иммунной системы тоже может принадлежать к одному из выделенных классов. Тут как раз и есть переход количества информации в новое качество. Извините за занудство, но я дважды не использую одни и те же показатели, и даже не решаю задачу снижения размерности и множественными сравнениями также не занимаюсь, я просто выделили и описала особенности 4 типов иммунной системы. Пока только у больных.
Lishe
Здравствуйте, случайно заглянул в топик, не стал вчитываться во все, но если исходить из корневого вопроса, то могу сказать что Нечёткий кластерный анализ данных в неевклидовых метриках тема моего диплома, через пару месяцев будет скорее всего свободный к распространению и использованию продукт в котором будет реализованная нечёткая кластеризация данных в не евклидовых метриках, в которой будут использованы генетических алгоритмы, что даст гораздо лучшие результаты чем классический Fuzzy C-means, возможно даже позволит выявить так называемые "вложенные кластеры" , если говорить о модернизации Беджеком этого алгоритма, и его обобщения, то я вообще не встречал для произвольных метрик, по крайней мере сходимость такого алгоритма доказана только для квадрата евклидовой, если кто то имеет другую информацию, прошу поделитесь, особенно если она на русском!))) А ещё, я мог бы учесть пожелания или советы так сказать целевой аудитории продукта! Помогите развитию пожалуйста!)
Lishe
Цитата(S.Nadorov @ 21.12.2007 - 21:53) *
Спасибо за помощь.




И всё-таки маленький вопрос к специалистам, прежде чем "вгрызаться" в fuzzy-кластерный анализ.
Читал мнение зарубежных специалистов (Cohen, Geba), что данный метод анализа хорошо проявил себя при обработке данных поведенческих методик (фенотипирование грызунов), где a priori высокая вариабельность показателей.


не могли бы вы привести ссылку или источник этого мнения, не могу нагуглить..
p2004r
Цитата(Lishe @ 19.03.2013 - 22:54) *
Здравствуйте, случайно заглянул в топик, не стал вчитываться во все, но если исходить из корневого вопроса, то могу сказать что Нечёткий кластерный анализ данных в неевклидовых метриках тема моего диплома, через пару месяцев будет скорее всего свободный к распространению и использованию продукт в котором будет реализованная нечёткая кластеризация данных в не евклидовых метриках, в которой будут использованы генетических алгоритмы, что даст гораздо лучшие результаты чем классический Fuzzy C-means, возможно даже позволит выявить так называемые "вложенные кластеры" , если говорить о модернизации Беджеком этого алгоритма, и его обобщения, то я вообще не встречал для произвольных метрик, по крайней мере сходимость такого алгоритма доказана только для квадрата евклидовой, если кто то имеет другую информацию, прошу поделитесь, особенно если она на русском!))) А ещё, я мог бы учесть пожелания или советы так сказать целевой аудитории продукта! Помогите развитию пожалуйста!)


чтобы восстановить столь античный топик участникам наверное пригодятся услуги некроманта и ударные дозы препаратов превозмогающих склероз smile.gif

так а ссылки какие на метод, публикации?
Lishe
Цитата(p2004r @ 23.03.2013 - 14:14) *
чтобы восстановить столь античный топик участникам наверное пригодятся услуги некроманта и ударные дозы препаратов превозмогающих склероз smile.gif

так а ссылки какие на метод, публикации?



Ого! Вот это Даты, как это я не посмотрел, вот это да, 6 лет разницы!
Ну вообще не знаю есть ли доступные публикации именно этой идеи, она проста, так что ничего инновационного нет и кто то наверняка что нибудь об этом и писал, если работа даст хорошие результаты будут и публикации. Алгоритм Fuzzy Relation Clastering, можно почитать, за основу будет взят либо он, либо классический Fuzzy C-means, c поправкой на то что с помощью ГА можно реализовать для него различные метрики кроме евклидовых как и для первого.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.