amphipole
23.10.2007 - 11:59
Вопрос по интерпретации результатов корреляционного анализа и Иерархического кластерного анализа. В процессе анализа медицинских данных при помощи SPSS получены результаты корреляции для переменных (больницы) которые показывают что некоторые больницы очень сильно коррелированны между собой (0.96-0.98 с р<0.05). Но затем использую класстерный анализ (среднее расстояние между группами, квадратное евклидово расстояние), получаем, что данные больницы отнесенены к разным классам (искл. составляет только две).
Как это можно обяснить с теоритической точки зрения, возможно ли сопоставлять результаты корреляционного и кластерного анализа?
Statisticafil
23.10.2007 - 13:32
Пусть меня поправят старшие коллеги, если ошибаюсь - При использовании меры расстояния в виде коэф.корреляции (того, что Вы использовали), возможно, получите более сходные результаты.
Результаты сопоставимы если Вы используете одинаковые показатели расстояния - в данном случае Вы использовали разные (не вполне сопоставимые) показатели и получили разные результаты. Для облегчения интерпретации можно воспользоваться, как рекомендует Statisticafil показателем коэффициента корреляции (на самом деле 1-r) при определении расстояния с помощью кластерного анализа. Однако я не очень понимаю, зачем это делать. Если Вы определить похожесть переменных, то лучше использовать корреляционный анализ или факторный анализ.
amphipole
25.10.2007 - 18:57
Спасиб , помогло!
Цель данного рассчета была найти схожие больницы по заболеваемости (метод- корреляция), и затем обьеденить их в группы (метод- кластерный анализ). Или корректней будет применить другие методы???
P.S.
Так погодите, чет быстро ответил.
Целью не было получить одинаковые результаты, цель обьеденить в группы.
Возможно ли обьединение в больницы в группы на основании дистанции между значениями корреляции?
Почему если обьекты коррелированны они будут находится в разных кластерах (если дистанция евклидова)?
Мне это немного ломает голову.
Предположение - что корреляция показывает линейную зависимость, а кластеризация нелинейную. (???)
Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?
amphipole
26.10.2007 - 17:22
Цитата(плав @ 26.10.2007 - 10:37)

Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?
Попытаюсь изложить.
Есть данные(в %) по 14 типам заболеваний в 20 больницах. Цель: найти больницы имеющие одинаковую структуру заболеваемости и обьеденить в группы. Вроде все логично. Таким образом признаком являются заболевания выраженные в % для каждой больницы.
Как считаете, какую дистанцию необходимо использовать в данном случае?
Ну вообще-то тут надо использовать корреспондентский анализ (который который как раз суммирует многомерные таблицы) - кластерный анализ (стандартный) предназначен для анализа количественных, а не качественных переменных. В принципе существуют возможности для проведения кластерного анализа на бинарных переменных. Их довольно много, часто используется расстояние Говера (Gower). В SAS есть макро для рассчета расстояний, которая поддерживает бинарные показатели, в Stata вообще широкий выбор подобных показателей. В 6 Statistica я вообще не нашел выбора метода (плохо искал, наверное, в 5 были разные)
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.