JavaScript is required

Trong ứng dụng về xử lý văn bản (text), người ta thường đo độ tương tự giữa hai văn bản bằng cách nào? 

A.
Tính khoảng cách Euclid giữa hai vector
B.
Tính khoảng cách Minkowski giữa hai vector
C.
Tính khoảng cách Manhattan giữa hai vector
D.
Tính góc giữa giữa hai vector thông qua cosine
Trả lời:

Đáp án đúng: D


Trong xử lý văn bản, để đo độ tương tự giữa hai văn bản, người ta thường biểu diễn mỗi văn bản thành một vector trong không gian nhiều chiều. Mỗi chiều của vector có thể tương ứng với một từ hoặc một thuộc tính nào đó của văn bản. Sau đó, độ tương tự giữa hai văn bản được tính bằng cách đo góc giữa hai vector tương ứng. Hàm cosine được sử dụng phổ biến để tính góc này. Giá trị cosine càng gần 1, hai vector càng giống nhau, và do đó, hai văn bản càng tương tự. Các khoảng cách Euclid, Minkowski và Manhattan thường được dùng để đo khoảng cách (sự khác biệt) giữa hai vector, không phải độ tương tự (sự giống nhau).

Câu hỏi liên quan