Сравнение результатов корреляции и классификации |
Здравствуйте, гость ( Вход | Регистрация )
Сравнение результатов корреляции и классификации |
23.10.2007 - 11:59
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270 |
Вопрос по интерпретации результатов корреляционного анализа и Иерархического кластерного анализа. В процессе анализа медицинских данных при помощи SPSS получены результаты корреляции для переменных (больницы) которые показывают что некоторые больницы очень сильно коррелированны между собой (0.96-0.98 с р<0.05). Но затем использую класстерный анализ (среднее расстояние между группами, квадратное евклидово расстояние), получаем, что данные больницы отнесенены к разным классам (искл. составляет только две).
Как это можно обяснить с теоритической точки зрения, возможно ли сопоставлять результаты корреляционного и кластерного анализа? |
|
23.10.2007 - 13:32
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188 |
Пусть меня поправят старшие коллеги, если ошибаюсь - При использовании меры расстояния в виде коэф.корреляции (того, что Вы использовали), возможно, получите более сходные результаты.
|
|
23.10.2007 - 21:02
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Результаты сопоставимы если Вы используете одинаковые показатели расстояния - в данном случае Вы использовали разные (не вполне сопоставимые) показатели и получили разные результаты. Для облегчения интерпретации можно воспользоваться, как рекомендует Statisticafil показателем коэффициента корреляции (на самом деле 1-r) при определении расстояния с помощью кластерного анализа. Однако я не очень понимаю, зачем это делать. Если Вы определить похожесть переменных, то лучше использовать корреляционный анализ или факторный анализ.
|
|
25.10.2007 - 18:57
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270 |
Спасиб , помогло!
Цель данного рассчета была найти схожие больницы по заболеваемости (метод- корреляция), и затем обьеденить их в группы (метод- кластерный анализ). Или корректней будет применить другие методы??? P.S. Так погодите, чет быстро ответил. Целью не было получить одинаковые результаты, цель обьеденить в группы. Возможно ли обьединение в больницы в группы на основании дистанции между значениями корреляции? Почему если обьекты коррелированны они будут находится в разных кластерах (если дистанция евклидова)? Мне это немного ломает голову. Предположение - что корреляция показывает линейную зависимость, а кластеризация нелинейную. (???) |
|
26.10.2007 - 09:37
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?
|
|
26.10.2007 - 17:22
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270 |
Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку? Попытаюсь изложить. Есть данные(в %) по 14 типам заболеваний в 20 больницах. Цель: найти больницы имеющие одинаковую структуру заболеваемости и обьеденить в группы. Вроде все логично. Таким образом признаком являются заболевания выраженные в % для каждой больницы. Как считаете, какую дистанцию необходимо использовать в данном случае? |
|
26.10.2007 - 22:28
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Ну вообще-то тут надо использовать корреспондентский анализ (который который как раз суммирует многомерные таблицы) - кластерный анализ (стандартный) предназначен для анализа количественных, а не качественных переменных. В принципе существуют возможности для проведения кластерного анализа на бинарных переменных. Их довольно много, часто используется расстояние Говера (Gower). В SAS есть макро для рассчета расстояний, которая поддерживает бинарные показатели, в Stata вообще широкий выбор подобных показателей. В 6 Statistica я вообще не нашел выбора метода (плохо искал, наверное, в 5 были разные)
|
|