Kỹ thuật nào sau đây thường được sử dụng trong nhiệm vụ phân loại văn bản?
Trả lời:
Đáp án đúng: D
Phân tích câu hỏi: Câu hỏi yêu cầu xác định kỹ thuật thường được sử dụng trong phân loại văn bản.
Phân tích các lựa chọn:
- A. Phân tích ngữ nghĩa tiềm ẩn (LSA): LSA là một kỹ thuật giảm chiều dữ liệu và khám phá ngữ nghĩa, thường được sử dụng để tìm mối quan hệ giữa các từ và các đoạn văn bản, nhưng không phải là một thuật toán phân loại trực tiếp.
- B. Mạng thần kinh tích chập (CNN): CNN, đặc biệt là các biến thể được thiết kế cho xử lý ngôn ngữ tự nhiên (NLP), thường được sử dụng trong phân loại văn bản. CNN có thể học các đặc trưng quan trọng từ văn bản.
- C. Phân tích thành phần chính (PCA): PCA là một kỹ thuật giảm chiều dữ liệu, thường được sử dụng để giảm số lượng biến trong một tập dữ liệu, nhưng không phải là một thuật toán phân loại.
- D. Máy vectơ hỗ trợ (SVM): SVM là một thuật toán học có giám sát mạnh mẽ, rất hiệu quả trong phân loại văn bản. SVM tìm một siêu phẳng tối ưu để phân tách các lớp dữ liệu.
Kết luận: Cả CNN và SVM đều là các kỹ thuật phổ biến trong phân loại văn bản. Tuy nhiên, SVM thường được sử dụng rộng rãi hơn và được xem là một trong những thuật toán cổ điển và hiệu quả cho nhiệm vụ này, đặc biệt khi dữ liệu có chiều cao. CNN nổi lên mạnh mẽ hơn trong các bài toán xử lý ngôn ngữ tự nhiên phức tạp gần đây.
Vì vậy, cả B và D đều có thể coi là đáp án đúng, nhưng vì câu hỏi hỏi "thường được sử dụng", SVM có lẽ là lựa chọn phù hợp hơn xét đến lịch sử phát triển của lĩnh vực.