Trả lời:
Đáp án đúng: B
Khi dữ liệu bị thiếu, có một số phương pháp xử lý phổ biến như sau:
- Xóa bỏ các bản ghi chứa dữ liệu thiếu: Đây là cách đơn giản nhất, nhưng có thể dẫn đến mất mát thông tin quan trọng nếu số lượng bản ghi bị xóa quá nhiều.
- Điền giá trị thiếu bằng các giá trị thay thế:
- Điền bằng giá trị trung bình (mean): Thích hợp cho dữ liệu số có phân phối gần chuẩn.
- Điền bằng giá trị trung vị (median): Thích hợp cho dữ liệu số có nhiều giá trị ngoại lệ.
- Điền bằng giá trị thường xuyên xuất hiện nhất (mode): Thích hợp cho dữ liệu định tính.
- Điền bằng hằng số: Điền tất cả các giá trị thiếu bằng một giá trị cố định.
- Sử dụng các thuật toán dự đoán: Sử dụng các mô hình học máy để dự đoán giá trị thiếu dựa trên các thuộc tính khác.
- K-Nearest Neighbors (KNN): Dự đoán giá trị dựa trên các bản ghi gần nhất.
- Hồi quy tuyến tính: Dự đoán giá trị dựa trên mối quan hệ tuyến tính giữa các thuộc tính.
Như vậy, có ít nhất 3 cách xử lý chính khi dữ liệu bị thiếu. Các phương pháp cụ thể có thể được điều chỉnh hoặc kết hợp tùy thuộc vào bản chất của dữ liệu và mục tiêu phân tích.