Lựa chọn nào sau đây không phải là một bước trong quy trình khai thác dữ liệu?
Trả lời:
Đáp án đúng: C
Quy trình khai thác dữ liệu (Data Mining) thường bao gồm các bước sau:
1. **Data Understanding (Hiểu dữ liệu):** Bước này liên quan đến việc thu thập dữ liệu, khám phá dữ liệu ban đầu để hiểu rõ hơn về nó, xác định các vấn đề về chất lượng dữ liệu và có được những hiểu biết sâu sắc ban đầu về dữ liệu.
2. **Data Preparation (Chuẩn bị dữ liệu):** Bước này bao gồm việc làm sạch dữ liệu (xử lý các giá trị thiếu, loại bỏ nhiễu), biến đổi dữ liệu (ví dụ: chuẩn hóa dữ liệu, rời rạc hóa dữ liệu) và tích hợp dữ liệu (kết hợp dữ liệu từ nhiều nguồn khác nhau) để chuẩn bị cho quá trình khai thác.
3. **Data Mining (Khai thác dữ liệu):** Đây là bước chính, trong đó các thuật toán khai thác dữ liệu được áp dụng để tìm kiếm các mẫu, mối quan hệ, xu hướng ẩn chứa trong dữ liệu. Các kỹ thuật khai thác dữ liệu phổ biến bao gồm: phân loại, hồi quy, phân cụm, luật kết hợp, v.v.
4. **Evaluation (Đánh giá):** Kết quả khai thác dữ liệu cần được đánh giá để đảm bảo rằng chúng hữu ích và có ý nghĩa. Bước này có thể bao gồm việc đánh giá độ chính xác của mô hình, kiểm tra tính hợp lệ của các luật kết hợp và đánh giá xem các cụm có ý nghĩa hay không. Nếu kết quả không đạt yêu cầu, cần quay lại các bước trước để điều chỉnh.
Trong các lựa chọn đã cho, "Data Mining" thực sự là một *bước* trong quy trình, chứ không phải là một hoạt động *ngoài* quy trình. Do đó, nó không phù hợp để loại trừ. Các lựa chọn còn lại, "Data Understanding", "Data Preparation" và "Evaluation", đều là các bước riêng biệt và quan trọng trong quy trình khai thác dữ liệu.





