Цитата(зоо @ 25.03.2019 - 20:55)

...Есть Document Term Matrix и Term Document Matrix...
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.
Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы:
(1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий.
(2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования.
Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках.
Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии.