![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 ![]() |
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?
Прикрепленные файлы
|
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это? И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах? А результат повторного проведения этого алгоритма и в том же самом пакете может не совпадать ![]() ![]() |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 ![]() |
не, у меня совпал 3 раза)
А надо данные нормализовывать? |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
не, у меня совпал 3 раза) А надо данные нормализовывать? Неа, это совпадение (в общем случае) случайность. Для того что бы решить нормализировать или нет данные надо их изучить. Нормализация изменяет расстояние между точками-наблюдениями, нужна она или нет проистекает полностью из природы данных. ![]() |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 ![]() |
1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации 2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет. 3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный? |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
1. А как мне интерпретировать вот допустим: наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации 2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет. 3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный? 1. Увы не понял что спрашивается. 2. Такого метода нет, но над ним усиленно работают ![]() 3. В случае иерархического разбиения на кластеры их вообще переменное число (от состоящих из одного наблюдения, до состоящего из всех наблюдений выборки сразу), а для выбора автоматического оптимального числа кластеров есть несколько алгоритмов (в том числе даже патентованных ![]() ![]() |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 25 Регистрация: 15.08.2014 Пользователь №: 26591 ![]() |
по поводу первого вопроса
ну вот скрин Мы можем как-то проинтерпретировать это расстояние? что оно значит? По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;) И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки? |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
по поводу первого вопроса ну вот скрин Мы можем как-то проинтерпретировать это расстояние? что оно значит? По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;) И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки? 1. Это (скорее всего) расстояние до центра кластера. Традиционно кластеры выделяют как нечто "выпуклое" (конвекс), хотя появляются методы которые не просто позволяют "вытягивать" это "выпуклое" вдоль избранной оси, а придавать произвольную форму (спектральная кластеризация из kernlab например). 2. Результат dist() естественным образом визуализируется с помощью многомерного шкалирования cmdscale() (или MASS::isoMDS(), vegan::metaMDS, vegan::monoMDS; пакет целиком tsne). Можно посмотреть в руководстве по веган http://cran.r-project.org/web/packages/veg...intro-vegan.pdf 3. Вот яркий представитель http://cran.r-project.org/web/packages/mcl...tes/mclust.html ![]() |
|
![]() |
![]() |
![]() ![]() |