JavaScript is required

Có mấy cách dùng để xử lý khi dữ liệu bị thiếu?

A.

2

B.

3

C.

4

D.

5

Trả lời:

Đáp án đúng: B


Có một số cách để xử lý dữ liệu bị thiếu, bao gồm: 1. **Xóa các bản ghi chứa giá trị bị thiếu:** Cách này đơn giản nhưng có thể dẫn đến mất thông tin quan trọng nếu có nhiều bản ghi bị thiếu dữ liệu. 2. **Điền giá trị thiếu bằng các giá trị thay thế:** * **Điền bằng giá trị trung bình (mean imputation):** Thay thế các giá trị thiếu bằng giá trị trung bình của thuộc tính đó. Cách này phù hợp khi dữ liệu bị thiếu ngẫu nhiên và phân phối gần chuẩn. * **Điền bằng giá trị trung vị (median imputation):** Tương tự như trên, nhưng sử dụng giá trị trung vị. Cách này phù hợp hơn khi dữ liệu có ngoại lệ. * **Điền bằng giá trị thường xuyên xuất hiện nhất (mode imputation):** Sử dụng giá trị xuất hiện nhiều nhất để thay thế giá trị thiếu. Cách này phù hợp cho các thuộc tính phân loại. * **Điền bằng hằng số:** Thay thế các giá trị thiếu bằng một giá trị không có ý nghĩa (ví dụ: -999). Cách này cần được xử lý cẩn thận để không ảnh hưởng đến kết quả phân tích. 3. **Sử dụng các thuật toán dự đoán giá trị thiếu:** * **Hồi quy (regression):** Sử dụng các thuộc tính khác để dự đoán giá trị thiếu thông qua mô hình hồi quy. * **K-nearest neighbors (KNN):** Tìm các bản ghi tương tự và sử dụng giá trị của các bản ghi này để điền giá trị thiếu. 4. **Giữ nguyên giá trị thiếu:** Trong một số trường hợp, việc giữ nguyên giá trị thiếu có thể là lựa chọn tốt nhất, đặc biệt khi sử dụng các thuật toán có thể xử lý giá trị thiếu một cách tự động. Tuy nhiên, cần đảm bảo thuật toán được sử dụng có khả năng xử lý giá trị thiếu một cách chính xác. Như vậy, có ít nhất 4 phương pháp chính để xử lý dữ liệu bị thiếu.

Câu hỏi liên quan