Цитата(100$ @ 25.02.2023 - 01:24)

P.S. Однако, это все хорошо, но ведь nokh неоднократно упоминал на форуме о GIFI-трансформации, ссылаясь на де Лью и соавт. (de Leeuw). Неужели все не впрок?
Вот, не поленился - загуглил, а у ребят уже целый пакет готов.
Ссылка. Раньше-то у них только {homals} был...
P.P.S. Но вообще у меня сформировалось стойкое убеждение, что сваливание до кучи всех этих дихотомических, ординальных и непрерывных переменных размывает картину, делает ее диффузной и плохо читаемой.
Да, метод вообще шикарный, стал одним из моих любимых, всё им с биологами и врачами считаем. Практика показала, что всё сваливать в кучу можно, получается хорошо, но не всегда то, что хотелось бы. Но это касается главным образом метки принадлежности к группе (например группа сравнения и пара групп заболеваний или степени тяжести заболевания). В последнем случае первой главной компонентой получаются именно групповые особенности (нагрузка на метку принадлежности к группе самая высокая) и все показатели которые там с заметными нагрузками - те, по которым обнаруживались различия средних; т.е. данная компонента получается тривиальной. Но при этом бывает, что за этой ГК идут другие, которые являются общими для всего массива данных без учёта групп: например, связанные с полом или какие-то биологические паттерны. Их было сложно обнаружить на фоне сильных межгрупповых различий, но сняв таковые вместе с первой ГК их можно обнаружить. В случае когда метку группы включать не хочется по каким-то причинам, её можно включить как дополнительную переменную - она не будет участвовать в анализе, но её метка будет отслеживаться и выдаваться в матрице нагрузок. Например таким признаком может быть возраст: если мы включим его в анализ полноценным признаком, то он будет участвовать в решении, если же не включим, а будем только отслеживать, тогда возрастные закономерности (если они есть) получатся "чистыми", а то что это именно возрастные - увидим по нагрузке этой дополнительной переменной. Отдельная песня - графики оцифровки категориальных и порядковых показателей, да и количественных тоже.
Как ни хотел я слезть с иглы CATPCA из SPSS. не получается пока: это лучшая реализация идеи с широким спектром настроек, позволяющих получать решения аналогичные классическому PCA и классическому анализу соответствий со всеми переходными вариантами (у меня обычно типа рангового PCA получается). Пробовал и homals, и Gifi, завёл папки, обкатывал на разных примерах. Иногда получается аналогично, иногда - грубее, на одном датасете вообще ерунду получил - так и не разобрался почему, но никогда - лучше. Единственное - подсмотрел там такой вариант, когда каждое уникальное значение для показателя используется в качестве узла сплайна - там эту настройку можно задать встроенной в функцию настройкой. Пробовал это в CATPCA задавая число узлов равным числу наблюдений (программа ругается, но для каждого показателя берёт в итоге максимально возможное число узлов) - получается хорошо, доля объяснённой дисперсии всегда увеличивается и видимо это максимум возможной.
Как ни странно, до сих пор не определился полностью с необходимостью вращения решения. Раньше когда сидел на Statistica, и позже - на KyPlot (там много хороших настроек и вариантов факторного анализа, включая расчёт начальных значений общностей по Йореско), всегда крутил варимакс, а пару раз (не исключалась корреляция факторов) - прямой облимин. Последнее время много расчётов делаю в PAST (там нет FA, только PCA) привык без вращений, и мне тоже нравится, всё неплохо интерпретируется. И поскольку воспроизводить матрицу корреляций и делать конфирматорный мне не надо, обхожусь компонентами. Кстати в PAST есть алгоритм итерационной импутации пропущенных значений, а также between grops PCA и within groups PCA, а недавно разработчики добавили Redundancy analysis.