почему в SPSS и Statistica разные ре-ты |
Здравствуйте, гость ( Вход | Регистрация )
почему в SPSS и Statistica разные ре-ты |
28.04.2015 - 11:06
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 |
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?
Прикрепленные файлы
|
|
28.04.2015 - 11:12
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это? И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах? А результат повторного проведения этого алгоритма и в том же самом пакете может не совпадать Он вообще стартует с случайной конфигурации начальной. |
|
28.04.2015 - 12:02
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 |
не, у меня совпал 3 раза)
А надо данные нормализовывать? |
|
28.04.2015 - 12:47
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
не, у меня совпал 3 раза) А надо данные нормализовывать? Неа, это совпадение (в общем случае) случайность. Для того что бы решить нормализировать или нет данные надо их изучить. Нормализация изменяет расстояние между точками-наблюдениями, нужна она или нет проистекает полностью из природы данных. |
|
28.04.2015 - 12:58
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 |
1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации 2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет. 3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный? |
|
28.04.2015 - 13:26
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
1. А как мне интерпретировать вот допустим: наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации 2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет. 3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный? 1. Увы не понял что спрашивается. 2. Такого метода нет, но над ним усиленно работают Пока приходится компактно визуализировать матрицу дистанций и "смотреть глазами". 3. В случае иерархического разбиения на кластеры их вообще переменное число (от состоящих из одного наблюдения, до состоящего из всех наблюдений выборки сразу), а для выбора автоматического оптимального числа кластеров есть несколько алгоритмов (в том числе даже патентованных ). |
|
28.04.2015 - 13:57
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 |
по поводу первого вопроса
ну вот скрин Мы можем как-то проинтерпретировать это расстояние? что оно значит? По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;) И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки? |
|
28.04.2015 - 14:38
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
по поводу первого вопроса ну вот скрин Мы можем как-то проинтерпретировать это расстояние? что оно значит? По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;) И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки? 1. Это (скорее всего) расстояние до центра кластера. Традиционно кластеры выделяют как нечто "выпуклое" (конвекс), хотя появляются методы которые не просто позволяют "вытягивать" это "выпуклое" вдоль избранной оси, а придавать произвольную форму (спектральная кластеризация из kernlab например). 2. Результат dist() естественным образом визуализируется с помощью многомерного шкалирования cmdscale() (или MASS::isoMDS(), vegan::metaMDS, vegan::monoMDS; пакет целиком tsne). Можно посмотреть в руководстве по веган http://cran.r-project.org/web/packages/veg...intro-vegan.pdf 3. Вот яркий представитель http://cran.r-project.org/web/packages/mcl...tes/mclust.html |
|