Sử dụng phương pháp nào để giải quyết vấn đề từ ngoài từ vựng trong mô hình hóa ngôn ngữ?
Đáp án đúng: C
Phương pháp hiệu quả để giải quyết vấn đề từ ngoài từ vựng (out-of-vocabulary - OOV) trong mô hình hóa ngôn ngữ là sử dụng mã hóa cặp byte (Byte Pair Encoding - BPE). BPE là một thuật toán nén dữ liệu đơn giản, lặp đi lặp lại việc thay thế cặp byte phổ biến nhất trong một chuỗi bằng một byte đơn lẻ mới. Trong mô hình hóa ngôn ngữ, BPE được sử dụng để tạo ra một vốn từ vựng con (subword vocabulary) từ dữ liệu huấn luyện, giúp mô hình xử lý các từ OOV bằng cách chia chúng thành các đơn vị con (subwords) đã biết. Các phương án khác không phù hợp: giải mã ý nghĩa của từ không trực tiếp giải quyết vấn đề OOV, mạng từ là một loại cơ sở dữ liệu từ vựng, và nhận dạng thực thể được đặt tên liên quan đến việc xác định các thực thể có tên trong văn bản, không giải quyết vấn đề từ OOV.