Một số phương pháp loại bỏ dữ liệu nhiễu là:
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động.
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng.
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng.
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp.
Đáp án đúng: A
Câu hỏi này kiểm tra kiến thức về các phương pháp loại bỏ dữ liệu nhiễu (noisy data) trong quá trình tiền xử lý dữ liệu. Dữ liệu nhiễu có thể gây ảnh hưởng tiêu cực đến hiệu suất và độ chính xác của các mô hình học máy. Dưới đây là phân tích chi tiết từng phương án:
- Phương án A: Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động. Đây là các phương pháp xử lý dữ liệu bị thiếu (missing data), không phải là loại bỏ dữ liệu nhiễu nói chung. Mặc dù dữ liệu thiếu có thể coi là một dạng nhiễu, nhưng phương án này không bao quát hết các trường hợp dữ liệu nhiễu khác.
- Phương án B: Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng. Loại bỏ dựa trên quan sát (outlier detection and removal) là một phương pháp hiệu quả để loại bỏ các điểm dữ liệu bất thường, tức là dữ liệu nhiễu. Loại bỏ khi lựa chọn đặc trưng (feature selection) cũng có thể giúp loại bỏ nhiễu bằng cách chỉ giữ lại các đặc trưng quan trọng, ít bị ảnh hưởng bởi nhiễu.
- Phương án C: Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng. Việc thay thế toàn bộ dữ liệu nhiễu bằng một tập dữ liệu mới là không thực tế và không khả thi trong hầu hết các tình huống. Lựa chọn các đặc trưng quan trọng thì có liên quan đến giảm nhiễu.
- Phương án D: Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp. Các thuật toán này không trực tiếp loại bỏ dữ liệu nhiễu. Chúng có thể bị ảnh hưởng bởi dữ liệu nhiễu, nhưng không phải là phương pháp để loại bỏ nó.
Do đó, phương án B là đáp án chính xác nhất, vì nó mô tả các phương pháp trực tiếp liên quan đến việc xác định và loại bỏ dữ liệu nhiễu.





