![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 20.12.2007 Пользователь №: 4636 ![]() |
Уважаемые форумчане!
Может быть кто-то использовал fuzzy clustering analysis в своей научно-исследовательской работе. Пожалуйста, поделитесь впечатлением. И знает ли кто-нибудь, в каких пакетах статистических программ реализован его алгоритм? Заранее спасибо. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Почему я напираю на необходимость проверки на другой группе. Классифицирование объектов (больных) проводилось по информации, которая содержалась в переменных описывавших иммунологические показатели. Соответственно, классифицировали больных, но на основании информации об иммунологических показателях. Однако измеренное значение показателя равно y=x+\epsilon, где х - истинное (не наблюдаемое) значение показателя, а \epsilon - случайная ошибка (ошибка измерения, индивидуальная вариабельность и т.д.). Случайная ошибка имеет (в многих моделях) нормальное распределение с параметрами (0,1) - т.е. среднее всех случайных значений равно нулю. Почти все статистические методы построены на том, что при наличии большого количества измерений случайные ошибки гасят друг друга и средня у оказывается равной средней х или близко к тому.
Теперь представьте себе следующую ситуацию, есть три наблюдения с \epsilon -1,+1,+0.5 Суммарное смещение равно 0,5 ввиду того, что последнее значение \epsilon не "гасится". Теперь, если мы удвоим количество наблюдений путем повтора каждого смещение увеличится до 1 (а стандратная ошибка снизится в sqrt(2) раз). Этот пример, как мне кажется, показывает, что дублирование наблюдений ни к чему хорошему не приводит. Соответственно, если мы использовали информацию об иммунологических показателях для определения кластеров в кластерном анализе, мы уже один раз взяли все наблюдения, включая их ошибку. Если теперь, в какой-то другой модели (например, в дискриминантном анализе), мы опять включим те же показатели, мы продублируем наблюдения вместе с ошибкой и реализуем ситуацию, описанную в примере выше. Соответственно, подход с использованием кластерного анализа абсолютно легитимный если исследователь определяет принадлежность к кластерам на основании некоего числа переменных, затем анализирует, например, прогноз в группах, образованных этими кластерами, но более не включает в модель переменные, на основании которых проводилась классификация. Исходные переменные в описательном виде, используются лишь для того, чтобы понять, на основании чего разделялись кластеры. И вот тут мы подходим к факторному анализу, к сожалению, ссылки на хорошие описания дать не смогу (на свои ссылаться не хочется под названием "хорошие", моя любимая книжка Jahn и Hale Die Faktoranalyse была издана 36 лет назат в ГДР и вряд ли легко доступна, но можно найти достаточно много публикаций в психологии (например, Step-By-Step Approach to Using the SAS system for Factor Analysis and Structured Equation Modelling)). на русском языке был ряд публикаций в Кардиологии и Тер.Архиве в начале 1990х. Однако общая идея достаточно простая. Мы устанавливаем, какие переменные связаны с данным фактором, а затем проводим анализ литературы (по патофизиологии, например) с целью выяснить, какая причина может лежать в основе всех этих факторов вместе. Например, ожирение, АГ, высокие ТГ - нарушенная толернатность к инсулину. Фкторный анализ объясняет, что наблюдаемые параметры являются производными от одного (двух, трех) более общих показателей, объяснить которые можно только путем анализа литературы и знаний физиологии и биохимии (психологии в других областях). Так что факторный анализ просто требует значительного анализа литературы после проведения статистического анализа в отличие от остальных методов, которые требуеют этого до. |
|
![]() |
![]() |
![]() ![]() |