Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: почему в SPSS и Statistica разные ре-ты
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Де бин Анатолий
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?
p2004r
Цитата(Де бин Анатолий @ 28.04.2015 - 11:06) *
Ещё вопросик из экономики. Сделал быстрый кластерный анализ к-мин. Но группы попавшие в 4 кластера в спсс и статистика не совпадают. Вот эксель файл. Там вкладки с результатами кластеризации в спсс и статистика. Из-за чего это?
И такой вопрос. На первой вкладке исходные данные. Надо ли эти цифры как-то нормализовывать или оставить как есть,а то они большие, речь о миллионных суммах?


А результат повторного проведения этого алгоритма и в том же самом пакете может не совпадать smile.gif Он вообще стартует с случайной конфигурации начальной.
Де бин Анатолий
не, у меня совпал 3 раза)
А надо данные нормализовывать?
p2004r
Цитата(Де бин Анатолий @ 28.04.2015 - 12:02) *
не, у меня совпал 3 раза)
А надо данные нормализовывать?


Неа, это совпадение (в общем случае) случайность.

Для того что бы решить нормализировать или нет данные надо их изучить. Нормализация изменяет расстояние между точками-наблюдениями, нужна она или нет проистекает полностью из природы данных.
Де бин Анатолий
1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации
2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет.
3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный?
p2004r
Цитата(Де бин Анатолий @ 28.04.2015 - 12:58) *
1. А как мне интерпретировать вот допустим:
наблюдение 1 кластер 2 расстояние =9046523457,445 какой я могу сделать вывод из этого расстояния. Оно подлежит интерпретации
2.Есть ли метод в статистики, который сам определяет требуется ли нормализация или нет.
3.Если в кластере одно наблюдение можно ли этот кластер считать как полноценный?


1. Увы не понял что спрашивается.

2. Такого метода нет, но над ним усиленно работают smile.gif Пока приходится компактно визуализировать матрицу дистанций и "смотреть глазами".

3. В случае иерархического разбиения на кластеры их вообще переменное число (от состоящих из одного наблюдения, до состоящего из всех наблюдений выборки сразу), а для выбора автоматического оптимального числа кластеров есть несколько алгоритмов (в том числе даже патентованных smile.gif ).
Де бин Анатолий
по поводу первого вопроса
ну вот скрин
Мы можем как-то проинтерпретировать это расстояние? что оно значит?

По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;)

И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки?
p2004r
Цитата(Де бин Анатолий @ 28.04.2015 - 13:57) *
по поводу первого вопроса
ну вот скрин
Мы можем как-то проинтерпретировать это расстояние? что оно значит?

По поводу второго вопроса. Есть ли в R такая возможность, просмотреть матрицу. Если покажите код с меня простава;)

И можно про алгоритмы выбора оптимального числа кластеров? В SPSS или хотя бы в R есть библиотечки?


1. Это (скорее всего) расстояние до центра кластера. Традиционно кластеры выделяют как нечто "выпуклое" (конвекс), хотя появляются методы которые не просто позволяют "вытягивать" это "выпуклое" вдоль избранной оси, а придавать произвольную форму (спектральная кластеризация из kernlab например).

2. Результат dist() естественным образом визуализируется с помощью многомерного шкалирования cmdscale() (или MASS::isoMDS(), vegan::metaMDS, vegan::monoMDS; пакет целиком tsne). Можно посмотреть в руководстве по веган http://cran.r-project.org/web/packages/veg...intro-vegan.pdf

3. Вот яркий представитель http://cran.r-project.org/web/packages/mcl...tes/mclust.html
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.