JavaScript is required

Làm sạch dữ liệu là: 

A.
Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quán
B.
Chuẩn hóa và tổng hợp
C.
Bước cuối cùng trong quá trình Data Mining
D.
Tích hợp CSDL, khối dữ liệu hoặc tập tin phức
Trả lời:

Đáp án đúng: A


Làm sạch dữ liệu (data cleaning) là quá trình xử lý dữ liệu thô để loại bỏ hoặc sửa chữa các dữ liệu không chính xác, không đầy đủ, không liên quan hoặc dư thừa. Mục tiêu của việc làm sạch dữ liệu là đảm bảo rằng dữ liệu có chất lượng cao và phù hợp cho việc phân tích và sử dụng. Quá trình này bao gồm nhiều công việc khác nhau như: * **Điền giá trị thiếu:** Xử lý các trường dữ liệu bị thiếu bằng cách điền các giá trị thích hợp (ví dụ: sử dụng giá trị trung bình, giá trị phổ biến nhất, hoặc các phương pháp ước tính khác). * **Làm trơn dữ liệu nhiễu:** Loại bỏ hoặc sửa chữa các giá trị ngoại lệ (outliers) hoặc các lỗi trong dữ liệu. * **Định danh hoặc xóa ngoại lai:** Xác định và xử lý các điểm dữ liệu bất thường hoặc không phù hợp với phần còn lại của tập dữ liệu. * **Khử tính không nhất quán:** Giải quyết các mâu thuẫn hoặc không nhất quán trong dữ liệu (ví dụ: các định dạng ngày tháng khác nhau, các đơn vị đo lường khác nhau).

Câu hỏi liên quan