JavaScript is required

Các bài toán chính trong ‘Tiền xử lí dữ liệu’ là: 

A.
Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ liệu, Rút gọn dữ liệu, Rời rạc dữ liệu
B.
Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ liệu, Rời rạc dữ liệu
C.
Phân lớp, Tìm luật kết hợp, Gom cụm
D.
Lựa chọn đặc trưng, Tìm thuật toán để Khai phá dữ liệu
Trả lời:

Đáp án đúng: A


Tiền xử lý dữ liệu (Data Preprocessing) là một bước quan trọng trong khai phá dữ liệu và học máy. Nó bao gồm các kỹ thuật để làm sạch, chuyển đổi và giảm dữ liệu để cải thiện chất lượng và hiệu suất của các mô hình học máy. Các bài toán chính bao gồm: * **Làm sạch dữ liệu (Data Cleaning):** Xử lý các giá trị thiếu, loại bỏ nhiễu, sửa các giá trị không nhất quán. * **Tích hợp dữ liệu (Data Integration):** Kết hợp dữ liệu từ nhiều nguồn khác nhau. * **Chuyển dạng dữ liệu (Data Transformation):** Chuẩn hóa dữ liệu, rời rạc hóa dữ liệu. * **Rút gọn dữ liệu (Data Reduction):** Giảm kích thước dữ liệu bằng cách loại bỏ các thuộc tính không liên quan hoặc sử dụng các kỹ thuật tổng hợp. * **Rời rạc hóa dữ liệu (Data Discretization):** Chuyển đổi dữ liệu số thành dữ liệu rời rạc (ví dụ: chia khoảng giá trị). Do đó, đáp án a là đáp án chính xác nhất.

Câu hỏi liên quan