Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Сравнение результатов корреляции и классификации
amphipole
сообщение 23.10.2007 - 11:59
Сообщение #1





Группа: Пользователи
Сообщений: 9
Регистрация: 18.08.2007
Пользователь №: 4270



Вопрос по интерпретации результатов корреляционного анализа и Иерархического кластерного анализа. В процессе анализа медицинских данных при помощи SPSS получены результаты корреляции для переменных (больницы) которые показывают что некоторые больницы очень сильно коррелированны между собой (0.96-0.98 с р<0.05). Но затем использую класстерный анализ (среднее расстояние между группами, квадратное евклидово расстояние), получаем, что данные больницы отнесенены к разным классам (искл. составляет только две).
Как это можно обяснить с теоритической точки зрения, возможно ли сопоставлять результаты корреляционного и кластерного анализа?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Statisticafil
сообщение 23.10.2007 - 13:32
Сообщение #2





Группа: Пользователи
Сообщений: 21
Регистрация: 28.06.2007
Пользователь №: 4188



Пусть меня поправят старшие коллеги, если ошибаюсь - При использовании меры расстояния в виде коэф.корреляции (того, что Вы использовали), возможно, получите более сходные результаты.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 23.10.2007 - 21:02
Сообщение #3





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Результаты сопоставимы если Вы используете одинаковые показатели расстояния - в данном случае Вы использовали разные (не вполне сопоставимые) показатели и получили разные результаты. Для облегчения интерпретации можно воспользоваться, как рекомендует Statisticafil показателем коэффициента корреляции (на самом деле 1-r) при определении расстояния с помощью кластерного анализа. Однако я не очень понимаю, зачем это делать. Если Вы определить похожесть переменных, то лучше использовать корреляционный анализ или факторный анализ.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
amphipole
сообщение 25.10.2007 - 18:57
Сообщение #4





Группа: Пользователи
Сообщений: 9
Регистрация: 18.08.2007
Пользователь №: 4270



Спасиб , помогло!

Цель данного рассчета была найти схожие больницы по заболеваемости (метод- корреляция), и затем обьеденить их в группы (метод- кластерный анализ). Или корректней будет применить другие методы???


P.S.

Так погодите, чет быстро ответил.
Целью не было получить одинаковые результаты, цель обьеденить в группы.
Возможно ли обьединение в больницы в группы на основании дистанции между значениями корреляции?

Почему если обьекты коррелированны они будут находится в разных кластерах (если дистанция евклидова)?
Мне это немного ломает голову.

Предположение - что корреляция показывает линейную зависимость, а кластеризация нелинейную. (???)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.10.2007 - 09:37
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
amphipole
сообщение 26.10.2007 - 17:22
Сообщение #6





Группа: Пользователи
Сообщений: 9
Регистрация: 18.08.2007
Пользователь №: 4270



Цитата(плав @ 26.10.2007 - 10:37) *
Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?

Попытаюсь изложить.
Есть данные(в %) по 14 типам заболеваний в 20 больницах. Цель: найти больницы имеющие одинаковую структуру заболеваемости и обьеденить в группы. Вроде все логично. Таким образом признаком являются заболевания выраженные в % для каждой больницы.
Как считаете, какую дистанцию необходимо использовать в данном случае?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 26.10.2007 - 22:28
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Ну вообще-то тут надо использовать корреспондентский анализ (который который как раз суммирует многомерные таблицы) - кластерный анализ (стандартный) предназначен для анализа количественных, а не качественных переменных. В принципе существуют возможности для проведения кластерного анализа на бинарных переменных. Их довольно много, часто используется расстояние Говера (Gower). В SAS есть макро для рассчета расстояний, которая поддерживает бинарные показатели, в Stata вообще широкий выбор подобных показателей. В 6 Statistica я вообще не нашел выбора метода (плохо искал, наверное, в 5 были разные)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему