![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 20.12.2007 Пользователь №: 4636 ![]() |
Очень приятно, что тема развивается, правда в несколько другом направлении (но тоже в интересном).
Позвольте поделиться размышлениями. Насколько я понимаю, дискиминантный анализ также не является цельным методом (линейный, квадратичный; пошаговый; Фишера и проч.). Как в этом случае рекомендовать его к использованию для получения решающих правил, если все указанные варианты метода дают свои решения? И далее, необходимо включить этап проверки полученного набора правил на устойчивость (Лахенбрук и проч.), иначе смысл теряется. Кстати, давно хотелось спросить, в случае step-by-step (процедура backward) линейного дискриминантного анализа как выбрать точное входное F-значение? Подскажите, пожалуйста. Для процедуры forward я обычно пользовался F-распределением Фишера-Снедекора, заранее зная количество групп и общее количество случаев. Относительно нейронных сетей. В поведенческих методиках, как в моём случае, набрать такое количество данных, необходимое для проведения этого вида анализа достаточно трудно (речь ведь уже идёт о сотнях случаев, не правда ли?). P.S. Хочу пояснить на счёт представленных источников по fuzzy-анализу. Электронные версии этих книг были доступны в сети и у меня появилась возможность их получить бесплатно. По этическим соображениям публиковать ссылки здесь не буду, желающим - через личные сообщения. Коллеги, не посоветуете ли толковую книгу, описывающую функции принадлежности и технологию их использования. Спасибо. |
|
![]() |
![]() |
![]()
Сообщение
#17
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Любой статистический метод распознавания дает разбиение оптимальное в смысле используемой статистической (часто линейной) модели, принятой функции (функционала) качества и зависит от выбранной метрики.
![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Прежде всего нужно знать для чего вы выделяете кластеры. Если вы хотите подтвердить ваше предположение, что исследуемая группа больных, которая выделена по какому то принципу, например диагноз, стадия болезни, содержит в себе некоторые особенные подгруппы, то анализируя их особенности вы можете получить новые научные или практические данные. Например, я использовала кластерный анализ , метод к-средних, для поиска кластеров по типу иммунной системы (показатели клеточного и гумморального иммунитета) и получила 4 кластера, один из которых был наиболее обособлен, имел наибольшие значения межкластерного расстояния. Давльнейший анализ выживаемости показал, что у этих больных достоверно ниже выживаемость и морфологически у большинства этих больных наиболее злокачественный эпителиоидный клеточный тип УМ.
Сомнения, конечно хорошая вещь, но вам предлагают несколько возможностей (Statistica) для выбора начала кластеризации и это дает для творчества большие возможности. Но реально у меня почти всегда - два вида разделения. ВЫ сохраняете все возможности и анализируете их отдельно, и потом думаете, что для вас имеет клинический смысл. И не забывайте о величине межкластерного расстояния. Все зависит от задачи, что и для чего вы кластеризуете. |
|
![]() |
![]() |
![]()
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
А мне кажется, что IvanKur частично прав. На проблему можно взглянуть с точки зрения распознавания образов. 1) Нет, не прав. Это все равно, что взять два наблюдения, сделать их копии, а потом считать достоверность разлчий между ними. Используются два метода, базирующиеся на одном и том же принципе, только работающие в разных направлениях. Соответственно, случайные различия между группами усиливаются, вместо того, чтобы нивелироваться. Происходит подгонка модели под данные. 1 этап. Обучение без учителя. С помощью одного из методов кластерного анализа (обучения без учителя, автоматического распознавания) можно выделить несколько классов (кластеров), наилучших в смысле применяемого метода. 2) В каком смысле наилучших? Кластерный анализ (кстати, название автоматическое распознавание не совсем адекватно, он ничего не распознает) приводит к тому, что точки в n-мерном пространстве разбиваются на k групп так, чтобы дисперсия между ними была максимальной. Т.е. это просто попытка объединить точки на основании информации, содержащейся в переменных. Более того, метод волюнтаристский, поскольку количество кластеров указывается аналитиком. Кластеры будут всегда и всегда столько, сколько скажете (и всегда с максимальной дисперсией между кластерами - но только для данного набора данных) Цитата(DrgLena) Это часто приводит к пересмору существующей на сегодняшний день стадийности и выделение новых стадий и степеней тяжести, которые часто клинически еще не различаются, но составляют уже другой класс по результатам кластерного анализа. А где доказательства кроме результатов кластерного анализа? Как я уже писал, кластерный анализ это всего лишь попытка механически растащить наблюдения так, чтобы дисперсия между ними была максимальной. Соответственно, два разных класса больных (без других доказательств в виде проверки решающих правил (а как Вы их сделаете на основе кластерного анализа?) на другой популяции) могут являться следствием случайных факторов. Обратите внимание, что случайная вариабельность в кластерном анализе никак не учитывается. На самом деле, если речь заходит о большом объеме материала, то следует пользоваться методами снижения размерности (в первую очередь, анализ главных компонент), ибо они выделяют похожесть между переменными, а затем уже использовать полученные факторные нагрузки в дальнейшем анализе. Это как раз стандартная защита от проблемы множественных сравнений. Цитата(Игорь) В последние 20 лет к распознаванию образов стали относить нейросетевые методы, которые статистическими методами обычно не называют Правильно, потому что в статистике они давно известны под именем множественной нелинейной регрессии со всеми вытекающими отсюда проблемами (именно для нейросетевых моделей подгонка модели под данные наиболее характерна). В них используются немного иные алгоритмы расчета, но для перевода на общий язык достаточно. Нейросетевые модели хороши для нахождения решающих правил неизвестного вида из громадного объема информации (например, рукописный ввод и OCR-системы часто базируются на результатах нейросетевого моделирвоания распознавания большого объема образцов подчерка). Еще в 50е годы было показано, что прецептрон с несколькими скрытыми слоями может описать почти любую нелинейную систему (правда, никто не говорил, что немного измененные данные будут также хорошо распознаваться). Нейросетевое моделирование, как и data mining в общем требуют оргомных массивов данных, которые у клиницистов встречаются крайне редко, а посему статей в серьезных журналах об успешном использовании этих методов в медицине не видно. На собственном опыте могу сказать, что на большом массиве данных нейросетевая модель (после адекватного построения - тут еще тоже надо постараться) дает неплохое предсказание, но люди хотят знать ответ на вопрос "почему так", а вот этого им и не скажешь, поскольку интерпретация выглядит так "если переменная 1 находится в диапазон от 0 до 3 и переменная 2 в диапазоне от 3 до 4, и... и... то тогда чем выше переменная 6, тем вероятнее исход" |
|
![]() |
![]() |
![]()
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Цитата(Игорь) А можно (теоретически) описать движение всех вирусов. Только кому будет нужна такая модель и где такой компьютер, который сможет решить данные уравнения? Не возможно. Существуют случайные факторы, поэтому для адекватного описания эпидемии придется использовать стохастические модели, а они не могут "предсказать" развитие эпидемии, а только ее наиболее вероятную эпидемическую кривую Цитата(DrgLena) Давльнейший анализ выживаемости показал, что у этих больных достоверно ниже выживаемость и морфологически у большинства этих больных наиболее злокачественный эпителиоидный клеточный тип УМ А не проще было проанализировать выживаемость как функцию факторов риска? "Не надо умножать сущности" - если что-то можно сделать просто, лучше это сделать просто - меньше допущений и возможности для ошибки. Повторюсь, кластерный анализ - способ объединения наблюдений (я не имею ввиду иерархический КА), соответственно, если задача - поиск предикторов (т.е. интерес к переменным) - ему нет место. Вообще небольшое - не раз уже повторяемое мною замечание - посмотрите, какие методы используются в публикациях в Lancet, BMJ, JAMA или NEJM. Там есть рецензенты-статистики, причем очень грамотные (мою статью в BMJ, например, рецензировал Дуг Альтман). Если метод не используется в этих статьях - значит с ним есть проблемы. Надо четко понимать, что степень статистической подготовки у исследователей-клиницистов в Европе и США выше, чем у нас, поэтому все обсуждаемые выше методы они знают, если не используют - на то есть причины (попробуйте догадаться. почему нейросетевое моделирование после серии статей в середине 90х "не пошло"). И наконец, последнее, с чего началось обсуждение . Тут о нейросетевом моделировании, о кластерах, а человек спрашивает, какое значение F надо выбирать в процедуре линейного дискриминантного анализа для обратного отбора... Ответ - также, как и в линейном регресионном анализе при пошаговом отборе переменных... |
|
![]() |
![]() |
![]()
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Не думаю, что проще исследовать влияние каждого их 18 показателей иммунной системы на функцию выживания. Как раз такие работы - в большом количестве. У одних исследователей хелперы снижены, у других повышены, а другие показатели и вообще в границах нормы. Функция выживания для больных УМ на сегодняшний день хорошо описана и на нее достоверно влияют только 5 известных предикторов (размер, локализация опухоли, возраст, и клеточный тип опухоли, который становится известным только при удалении глаза). Кластерный анализ как раз и показал, что существует система иммунитета, которая может быть разделена на 4 класса, максимально различающихся по значению всех показателей, и от принадлежности к определенному классу зависит прогноз. На прогноз оказывает влияние не лимфоцит или глобулин, а тип иммунной системы. Включение в кокс регрессионную модель нового предиктора - типа иммунной системы позволит усилить модель прогноза выживаемости.
У здоровых людей также четко выделяются 4 класса, правда сейчас другие методики исследования и пока нет большого матермала для проверки существования именно 4 типов иммунной системы (здоровые не ходят сдавать анализы). Хочется конечно, чтобы у холериков с 1 группой крови и тип иммунной системы относился к определенной группировке. Я думаю, что правильность выделения кластеров должна подтверждаться логикой медицинских различий и в таком случае F вкл. может быть и 4 и 3, а выключения и 2 и 1. |
|
![]() |
![]() |
![]()
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Прошу прощения за занудство, но фраза "не лимфоцит или глобулин, а тип иммунной системы" мне не понятна. Итак, у Вас есть группа пациентов. У них измерены лимфоциты и глобулины, но влияют на выживаемость не они а ... что? Из ничего ничего не берется, какая информация была у Вас в исходных данных, такая и осталась. Вы, используя кластерный анализ показали, что Вас есть пациенты, которые имеют более плохой или хороший прогноз и это изменение прогноза не сводимо к измеренным параметрам имунной системы. Если Вы хотите доказать, что в основе измеренных 18 параметров лежит два-три-четыре фактора (ну, например, преимущественная активность Th1 или Th2), то тогда надо пытаться объединить переменные, т.е. выполнять факторный анализ и работать с факторными нагрузками.
Однако на самом деле я не услышал опровержения моего главного возражения против методики повторного использования кластерного анализа - подгонки модели под данные. Заменялись ли все 18 параметров на номера кластеров, затем проводилась (правда как) оценка при помощи решающей функции полученного правила на независимой выборке и было продемонстрированно улучшение предсказания выживаемости? Или же просто внесли в построенную модель номера кластеров и, соответственно, сработала математика кластерного анализа, остаточная дисперсия стала меньше и достоверность модели повысилась без какого либо положительного влияния на генерализуемость? Если вариант первый - тогда просто здорово, если второй - я бы аккуратнее относился к полученным результатм. |
|
![]() |
![]() |
![]()
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Да, мы не совсем понимаем друг друга. Но я попробую продолжить диалог.
Классифицируя объекты (больных), а не иммунологические показатели были выделены 4 подгруппы (обучились без учителя). Потом, с учителем (используя принадлежность к классу) средствами дискриминантного канонического анализа получили правило и картинку для всех 380 объектов выборки в координарах первых двух канонических переменных. Центроиды классов пометили+ и получилось очень красивая иллюстрация с четко обозначенными классами. Иммунологические исследования были сделаны давно (не метод моноклональн. ант.) и хранились в базе данных и в свое время каждый показатель сравнивался с контролем без каких либо значимых выводов. Сегодня, накопив данные о выживаемости этих больных, оказалось, что она связана с принадлежностью к определенному кластеру, а не каким либо из показателей. Возможно для прогноза, это и не слишком нужно. Но важно обратить внимание на этот факт, с тем чтобы не ожидать плохого прогноза, а воздействовать на выявленный фактор риска. Хотя роль иммунокорректоров можно обсудить в другой ветке. Иммун исследования проводили до лечения. У здоровых людей также выделяется 4 класса с межкластерными расстояниями более 1,5, но данных мало и они - побочный продукт другого исследования, кром етого методики другие. И то правило которое разработано для больных, для здоровых не подходит. При использовании факторного анализа мне всегда трудно дать медицинскую ясную трактовку результатов. Объяснить коллегам, почему вместо 18 мы берем 2 абстрактных показателя, которые и пометить не чем. Если у вас есть ссылки хорошего описания - поделитесь. И спасибо за терпение. Обучать докторов статистике - тяжелый труд! |
|
![]() |
![]() |
![]()
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Почему я напираю на необходимость проверки на другой группе. Классифицирование объектов (больных) проводилось по информации, которая содержалась в переменных описывавших иммунологические показатели. Соответственно, классифицировали больных, но на основании информации об иммунологических показателях. Однако измеренное значение показателя равно y=x+\epsilon, где х - истинное (не наблюдаемое) значение показателя, а \epsilon - случайная ошибка (ошибка измерения, индивидуальная вариабельность и т.д.). Случайная ошибка имеет (в многих моделях) нормальное распределение с параметрами (0,1) - т.е. среднее всех случайных значений равно нулю. Почти все статистические методы построены на том, что при наличии большого количества измерений случайные ошибки гасят друг друга и средня у оказывается равной средней х или близко к тому.
Теперь представьте себе следующую ситуацию, есть три наблюдения с \epsilon -1,+1,+0.5 Суммарное смещение равно 0,5 ввиду того, что последнее значение \epsilon не "гасится". Теперь, если мы удвоим количество наблюдений путем повтора каждого смещение увеличится до 1 (а стандратная ошибка снизится в sqrt(2) раз). Этот пример, как мне кажется, показывает, что дублирование наблюдений ни к чему хорошему не приводит. Соответственно, если мы использовали информацию об иммунологических показателях для определения кластеров в кластерном анализе, мы уже один раз взяли все наблюдения, включая их ошибку. Если теперь, в какой-то другой модели (например, в дискриминантном анализе), мы опять включим те же показатели, мы продублируем наблюдения вместе с ошибкой и реализуем ситуацию, описанную в примере выше. Соответственно, подход с использованием кластерного анализа абсолютно легитимный если исследователь определяет принадлежность к кластерам на основании некоего числа переменных, затем анализирует, например, прогноз в группах, образованных этими кластерами, но более не включает в модель переменные, на основании которых проводилась классификация. Исходные переменные в описательном виде, используются лишь для того, чтобы понять, на основании чего разделялись кластеры. И вот тут мы подходим к факторному анализу, к сожалению, ссылки на хорошие описания дать не смогу (на свои ссылаться не хочется под названием "хорошие", моя любимая книжка Jahn и Hale Die Faktoranalyse была издана 36 лет назат в ГДР и вряд ли легко доступна, но можно найти достаточно много публикаций в психологии (например, Step-By-Step Approach to Using the SAS system for Factor Analysis and Structured Equation Modelling)). на русском языке был ряд публикаций в Кардиологии и Тер.Архиве в начале 1990х. Однако общая идея достаточно простая. Мы устанавливаем, какие переменные связаны с данным фактором, а затем проводим анализ литературы (по патофизиологии, например) с целью выяснить, какая причина может лежать в основе всех этих факторов вместе. Например, ожирение, АГ, высокие ТГ - нарушенная толернатность к инсулину. Фкторный анализ объясняет, что наблюдаемые параметры являются производными от одного (двух, трех) более общих показателей, объяснить которые можно только путем анализа литературы и знаний физиологии и биохимии (психологии в других областях). Так что факторный анализ просто требует значительного анализа литературы после проведения статистического анализа в отличие от остальных методов, которые требуеют этого до. |
|
![]() |
![]() |
![]()
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Спасибо, все что вы пишете, совершенно верно, но все же, использование именно кластерного анализ на первом этапе исследования позволяет выделить более однородные группы, снизить разброс данных и анализировать эффективность лечения или прогноз в зависимости от значения не одного признака (стадия, степень или категория значения одного их признаков), а множества количественных показателей. Это легко описывать без сложного математического языка.
|
|
![]() |
![]() |
![]()
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Ну тут, либо я прав, либо так делать можно. Есть ли опровержение приведенным выше доказательствам того, что используя два раза одни и те же данные, вы искуственно занижаете разброс данных и, соответственно, увеличиваете ошибку I типа? Если нет, то двойное использование данных является ошибкой. Тогда место кластерного анализа выявление групп пациентов и затем попытка разобраться, как эти группы выделялись. Если обратные доказательства есть, хочется их увидеть.
Анализировать эффективность лечения или прогноз можно от большого количества признаков в рамках многомерных моделей, используя поправку Бонферонни для решения проблемы множественного сравнения (как минимум). |
|
![]() |
![]() |
![]() ![]()
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
1. Модератор всегда прав, слава модератору!
2. Если модератор не прав, читай пункт 1. Если классы выделяются четко и любой больной может быть отнесен к одному из выделенных классов, то возможно, такая классификация отражает объективную реальность. Классы существуют не зависимо от нашего сознания, а кластерный анализ лишь помог нам это выявить. Например, у меня 1 группа крови и я холерик или астеник. Это мое объективное свойство по некоторым классификациям. А тип иммунной системы тоже может принадлежать к одному из выделенных классов. Тут как раз и есть переход количества информации в новое качество. Извините за занудство, но я дважды не использую одни и те же показатели, и даже не решаю задачу снижения размерности и множественными сравнениями также не занимаюсь, я просто выделили и описала особенности 4 типов иммунной системы. Пока только у больных. |
|
![]() |
![]() |
![]()
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 19.03.2013 Пользователь №: 24727 ![]() |
Здравствуйте, случайно заглянул в топик, не стал вчитываться во все, но если исходить из корневого вопроса, то могу сказать что Нечёткий кластерный анализ данных в неевклидовых метриках тема моего диплома, через пару месяцев будет скорее всего свободный к распространению и использованию продукт в котором будет реализованная нечёткая кластеризация данных в не евклидовых метриках, в которой будут использованы генетических алгоритмы, что даст гораздо лучшие результаты чем классический Fuzzy C-means, возможно даже позволит выявить так называемые "вложенные кластеры" , если говорить о модернизации Беджеком этого алгоритма, и его обобщения, то я вообще не встречал для произвольных метрик, по крайней мере сходимость такого алгоритма доказана только для квадрата евклидовой, если кто то имеет другую информацию, прошу поделитесь, особенно если она на русском!))) А ещё, я мог бы учесть пожелания или советы так сказать целевой аудитории продукта! Помогите развитию пожалуйста!)
|
|
![]() |
![]() |
![]()
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 19.03.2013 Пользователь №: 24727 ![]() |
Спасибо за помощь. И всё-таки маленький вопрос к специалистам, прежде чем "вгрызаться" в fuzzy-кластерный анализ. Читал мнение зарубежных специалистов (Cohen, Geba), что данный метод анализа хорошо проявил себя при обработке данных поведенческих методик (фенотипирование грызунов), где a priori высокая вариабельность показателей. не могли бы вы привести ссылку или источник этого мнения, не могу нагуглить.. |
|
![]() |
![]() |
![]()
Сообщение
#30
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Здравствуйте, случайно заглянул в топик, не стал вчитываться во все, но если исходить из корневого вопроса, то могу сказать что Нечёткий кластерный анализ данных в неевклидовых метриках тема моего диплома, через пару месяцев будет скорее всего свободный к распространению и использованию продукт в котором будет реализованная нечёткая кластеризация данных в не евклидовых метриках, в которой будут использованы генетических алгоритмы, что даст гораздо лучшие результаты чем классический Fuzzy C-means, возможно даже позволит выявить так называемые "вложенные кластеры" , если говорить о модернизации Беджеком этого алгоритма, и его обобщения, то я вообще не встречал для произвольных метрик, по крайней мере сходимость такого алгоритма доказана только для квадрата евклидовой, если кто то имеет другую информацию, прошу поделитесь, особенно если она на русском!))) А ещё, я мог бы учесть пожелания или советы так сказать целевой аудитории продукта! Помогите развитию пожалуйста!) чтобы восстановить столь античный топик участникам наверное пригодятся услуги некроманта и ударные дозы препаратов превозмогающих склероз ![]() так а ссылки какие на метод, публикации? ![]() |
|
![]() |
![]() |
![]() ![]() |