Автор: зоо 25.03.2019 - 18:55
Подскажите, пожалуйста, после чистки текстового корпуса, мы должны получить текстовую матрицу
Есть Document Term Matrix и Term Document Matrix
их отличии заключается что в одной матрице по столбцам документы ,а по строкам термы, а в другой наоборот по столбцам термы, и по строкам документы
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.
Автор: nokh 26.03.2019 - 09:46
Цитата(зоо @ 25.03.2019 - 20:55)
...Есть Document Term Matrix и Term Document Matrix...
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.
Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы:
(1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий.
(2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования.
Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках.
Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии.