Сравнение результатов корреляции и классификации - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Сравнение результатов корреляции и классификации

amphipole Просмотр профиля	23.10.2007 - 11:59 Сообщение #1
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270	Вопрос по интерпретации результатов корреляционного анализа и Иерархического кластерного анализа. В процессе анализа медицинских данных при помощи SPSS получены результаты корреляции для переменных (больницы) которые показывают что некоторые больницы очень сильно коррелированны между собой (0.96-0.98 с р<0.05). Но затем использую класстерный анализ (среднее расстояние между группами, квадратное евклидово расстояние), получаем, что данные больницы отнесенены к разным классам (искл. составляет только две). Как это можно обяснить с теоритической точки зрения, возможно ли сопоставлять результаты корреляционного и кластерного анализа?

Statisticafil Просмотр профиля	23.10.2007 - 13:32 Сообщение #2
Группа: Пользователи Сообщений: 21 Регистрация: 28.06.2007 Пользователь №: 4188	Пусть меня поправят старшие коллеги, если ошибаюсь - При использовании меры расстояния в виде коэф.корреляции (того, что Вы использовали), возможно, получите более сходные результаты.

плав Просмотр профиля	23.10.2007 - 21:02 Сообщение #3
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Результаты сопоставимы если Вы используете одинаковые показатели расстояния - в данном случае Вы использовали разные (не вполне сопоставимые) показатели и получили разные результаты. Для облегчения интерпретации можно воспользоваться, как рекомендует Statisticafil показателем коэффициента корреляции (на самом деле 1-r) при определении расстояния с помощью кластерного анализа. Однако я не очень понимаю, зачем это делать. Если Вы определить похожесть переменных, то лучше использовать корреляционный анализ или факторный анализ.

amphipole Просмотр профиля	25.10.2007 - 18:57 Сообщение #4
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270	Спасиб , помогло! Цель данного рассчета была найти схожие больницы по заболеваемости (метод- корреляция), и затем обьеденить их в группы (метод- кластерный анализ). Или корректней будет применить другие методы??? P.S. Так погодите, чет быстро ответил. Целью не было получить одинаковые результаты, цель обьеденить в группы. Возможно ли обьединение в больницы в группы на основании дистанции между значениями корреляции? Почему если обьекты коррелированны они будут находится в разных кластерах (если дистанция евклидова)? Мне это немного ломает голову. Предположение - что корреляция показывает линейную зависимость, а кластеризация нелинейную. (???)

плав Просмотр профиля	26.10.2007 - 09:37 Сообщение #5
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку?

amphipole Просмотр профиля	26.10.2007 - 17:22 Сообщение #6
Группа: Пользователи Сообщений: 9 Регистрация: 18.08.2007 Пользователь №: 4270	Цитата(плав @ 26.10.2007 - 10:37) Нет, просто разные вопросы. Корреляция отвечает на вопрос - а одинаковы ли изменения (однонаправлены ли)? Ну а расстояние - это расстояние. Скажем, Москва и Питер находятся к северу от Душанбе, а Монреаль и Оттава - от Мехико-сити. Направление - одинаковое. Но расстояния могут быть очень разными. Поэтому надо исходить из вопроса - объединять в группы по какому признаку? Попытаюсь изложить. Есть данные(в %) по 14 типам заболеваний в 20 больницах. Цель: найти больницы имеющие одинаковую структуру заболеваемости и обьеденить в группы. Вроде все логично. Таким образом признаком являются заболевания выраженные в % для каждой больницы. Как считаете, какую дистанцию необходимо использовать в данном случае?

плав Просмотр профиля	26.10.2007 - 22:28 Сообщение #7
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Ну вообще-то тут надо использовать корреспондентский анализ (который который как раз суммирует многомерные таблицы) - кластерный анализ (стандартный) предназначен для анализа количественных, а не качественных переменных. В принципе существуют возможности для проведения кластерного анализа на бинарных переменных. Их довольно много, часто используется расстояние Говера (Gower). В SAS есть макро для рассчета расстояний, которая поддерживает бинарные показатели, в Stata вообще широкий выбор подобных показателей. В 6 Statistica я вообще не нашел выбора метода (плохо искал, наверное, в 5 были разные)

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.