Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Отличие DTM и TDM

Автор: зоо 25.03.2019 - 18:55

Подскажите, пожалуйста, после чистки текстового корпуса, мы должны получить текстовую матрицу
Есть Document Term Matrix и Term Document Matrix
их отличии заключается что в одной матрице по столбцам документы ,а по строкам термы, а в другой наоборот по столбцам термы, и по строкам документы

Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.

Автор: nokh 26.03.2019 - 09:46

Цитата(зоо @ 25.03.2019 - 20:55)

...Есть Document Term Matrix и Term Document Matrix...
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.

Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы:
(1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий.
(2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования.
Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках.
Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии.