Khi nào thì ta cần rời rạc hóa dữ liệu:
Trả lời:
Đáp án đúng: B
Rời rạc hóa dữ liệu (discretization) là quá trình chuyển đổi dữ liệu số (numerical data) thành dữ liệu thuộc kiểu định danh (categorical data). Điều này thường được thực hiện khi một số thuật toán hoặc mô hình học máy hoạt động tốt hơn với dữ liệu rời rạc, hoặc khi việc giảm số lượng giá trị khác nhau có thể giúp đơn giản hóa dữ liệu và giảm overfitting.
A. Dữ liệu bị thiếu: Dữ liệu bị thiếu là một vấn đề khác và thường được xử lý bằng các phương pháp như điền giá trị thiếu hoặc loại bỏ các bản ghi chứa giá trị thiếu.
B. Dữ liệu thuộc kiểu số học: Đây chính là trường hợp cần rời rạc hóa. Khi dữ liệu có kiểu số học (ví dụ: tuổi, thu nhập), ta có thể chia chúng thành các khoảng (ví dụ: trẻ em, thanh niên, trung niên, người già).
C. Dữ liệu thuộc kiểu định danh: Dữ liệu kiểu định danh đã là rời rạc, do đó không cần rời rạc hóa nữa.
D. Dữ liệu thuộc kiểu nhị phân: Dữ liệu nhị phân cũng là một dạng rời rạc (chỉ có hai giá trị), nên không cần rời rạc hóa thêm.