Отличие DTM и TDM |
Здравствуйте, гость ( Вход | Регистрация )
Отличие DTM и TDM |
25.03.2019 - 18:55
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 24 Регистрация: 6.12.2017 Пользователь №: 30681 |
Подскажите, пожалуйста, после чистки текстового корпуса, мы должны получить текстовую матрицу
Есть Document Term Matrix и Term Document Matrix их отличии заключается что в одной матрице по столбцам документы ,а по строкам термы, а в другой наоборот по столбцам термы, и по строкам документы Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать. |
|
26.03.2019 - 09:46
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...Есть Document Term Matrix и Term Document Matrix... Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать. Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы: (1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий. (2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования. Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках. Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии. |
|