Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> почему в SPSS и Statistica разные ре-ты
Де бин Анатолий
сообщение 28.04.2015 - 11:06
Сообщение #1





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?
Прикрепленные файлы
Прикрепленный файл  Spreadsheet1.rar ( 119,34 килобайт ) Кол-во скачиваний: 239
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.04.2015 - 11:12
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Де бин Анатолий @ 28.04.2015 - 11:06) *
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?


А результат повторного проведения этого алгоритма и в том же самом пакете может не совпадать smile.gif Он вообще стартует с случайной конфигурации начальной.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Де бин Анатолий
сообщение 28.04.2015 - 12:02
Сообщение #3





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



не, у меня совпал 3 раза)
А надо данные нормализовывать?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.04.2015 - 12:47
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Де бин Анатолий @ 28.04.2015 - 12:02) *
не, у меня совпал 3 раза)
А надо данные нормализовывать?


Неа, это совпадение (в общем случае) случайность.

Для того что бы решить нормализировать или нет данные надо их изучить. Нормализация изменяет расстояние между точками-наблюдениями, нужна она или нет проистекает полностью из природы данных.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Де бин Анатолий
сообщение 28.04.2015 - 12:58
Сообщение #5





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации
2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет.
3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.04.2015 - 13:26
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Де бин Анатолий @ 28.04.2015 - 12:58) *
1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации
2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет.
3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный?


1. Увы не понял что спрашивается.

2. Такого метода нет, но над ним усиленно работают smile.gif Пока приходится компактно визуализировать матрицу дистанций и "смотреть глазами".

3. В случае иерархического разбиения на кластеры их вообще переменное число (от состоящих из одного наблюдения, до состоящего из всех наблюдений выборки сразу), а для выбора автоматического оптимального числа кластеров есть несколько алгоритмов (в том числе даже патентованных smile.gif ).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Де бин Анатолий
сообщение 28.04.2015 - 13:57
Сообщение #7





Группа: Пользователи
Сообщений: 25
Регистрация: 15.08.2014
Пользователь №: 26591



по поводу первого вопроса
ну вот скрин
Мы можем как-то проинтерпретировать это расстояние? что оно значит?

По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;)

И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.04.2015 - 14:38
Сообщение #8





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Де бин Анатолий @ 28.04.2015 - 13:57) *
по поводу первого вопроса
ну вот скрин
Мы можем как-то проинтерпретировать это расстояние? что оно значит?

По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;)

И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки?


1. Это (скорее всего) расстояние до центра кластера. Традиционно кластеры выделяют как нечто "выпуклое" (конвекс), хотя появляются методы которые не просто позволяют "вытягивать" это "выпуклое" вдоль избранной оси, а придавать произвольную форму (спектральная кластеризация из kernlab например).

2. Результат dist() естественным образом визуализируется с помощью многомерного шкалирования cmdscale() (или MASS::isoMDS(), vegan::metaMDS, vegan::monoMDS; пакет целиком tsne). Можно посмотреть в руководстве по веган http://cran.r-project.org/web/packages/veg...intro-vegan.pdf

3. Вот яркий представитель http://cran.r-project.org/web/packages/mcl...tes/mclust.html


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему