Một số phương pháp loại bỏ dữ liệu nhiễu là:
A.
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động
B.
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng
C.
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng
D.
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp
Trả lời:
Đáp án đúng: A
Câu hỏi này kiểm tra kiến thức về các phương pháp xử lý dữ liệu nhiễu trong quá trình tiền xử lý dữ liệu. Dữ liệu nhiễu có thể là dữ liệu bị thiếu, dữ liệu không chính xác, hoặc dữ liệu không nhất quán. Việc loại bỏ hoặc xử lý dữ liệu nhiễu là một bước quan trọng để đảm bảo chất lượng của mô hình học máy.
* **Phương án a:** "Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động" là các phương pháp phổ biến để xử lý dữ liệu bị thiếu. Bỏ qua bản ghi có dữ liệu thiếu (nếu số lượng bản ghi thiếu không đáng kể), điền giá trị thiếu bằng tay (nếu có kiến thức chuyên gia), hoặc điền giá trị thiếu tự động bằng các phương pháp như sử dụng giá trị trung bình, trung vị, hoặc các thuật toán học máy.
* **Phương án b:** "Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng" cũng là các phương pháp được sử dụng. Loại bỏ dựa trên quan sát có nghĩa là loại bỏ các bản ghi hoặc thuộc tính mà ta nhận thấy có nhiều giá trị nhiễu hoặc không phù hợp. Loại bỏ khi lựa chọn đặc trưng là loại bỏ các thuộc tính không quan trọng hoặc gây nhiễu cho mô hình.
* **Phương án c:** "Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng" - Loại bỏ toàn bộ dữ liệu nhiễu và thay thế bằng tập dữ liệu mới thường không khả thi, vì có thể dẫn đến mất mát thông tin quan trọng. Việc lựa chọn các đặc trưng quan trọng là một phần của quá trình lựa chọn đặc trưng, và nó có thể giúp giảm thiểu tác động của dữ liệu nhiễu.
* **Phương án d:** "Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp" - Các thuật toán này thường được sử dụng để phân tích dữ liệu và tìm ra các mẫu, chứ không trực tiếp loại bỏ dữ liệu nhiễu. Tuy nhiên, chúng có thể được sử dụng để xác định các bản ghi hoặc thuộc tính có khả năng là nhiễu.
Như vậy, phương án a và b mô tả đúng các phương pháp loại bỏ dữ liệu nhiễu. Phương án c có một phần đúng (lựa chọn đặc trưng) nhưng phần đầu sai (loại bỏ toàn bộ dữ liệu nhiễu). Phương án d không trực tiếp liên quan đến loại bỏ dữ liệu nhiễu.
Vì cả a và b đều đúng, nhưng câu hỏi yêu cầu chọn đáp án *đúng nhất*, và cả hai phương án a và b đều nêu các phương pháp xử lý nhiễu, ta có thể coi cả hai đều đúng. Tuy nhiên, theo cách diễn đạt của câu hỏi, phương án **a** và **b** đều đúng và bao quát hơn. Cả hai đều chỉ ra các phương pháp xử lý nhiễu, trong khi c và d không phải là các phương pháp *loại bỏ* nhiễu trực tiếp.
Tuy nhiên, do không có đáp án nào bao gồm cả a và b, và bản chất của câu hỏi là chọn một đáp án duy nhất, nên câu hỏi này có thể được coi là không có đáp án đúng nhất một cách hoàn toàn. Vì vậy, cần một phương án bao gồm cả a và b hoặc một câu hỏi được diễn đạt lại để tránh gây hiểu lầm. Tuy nhiên, nếu phải chọn một đáp án, phương án a có vẻ trực tiếp hơn trong việc giải quyết vấn đề dữ liệu nhiễu (thiếu).
Câu hỏi liên quan

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
