Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là:
A.
Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn
B.
Khai phá dữ liệu
C.
Khai thác dữ liệu
D.
Tìm kiếm dữ liệu
Đáp án
Đáp án đúng: A
Thuật ngữ Knowledge Discovery from Databases (KDD) được dịch là "Khai phá tri thức từ cơ sở dữ liệu". Quá trình KDD bao gồm nhiều bước, trong đó có khai thác dữ liệu (data mining). Tuy nhiên, KDD không chỉ đơn thuần là khai thác dữ liệu mà còn bao gồm các bước tiền xử lý, biến đổi dữ liệu, lựa chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn, và đánh giá tri thức.
Như vậy: - Đáp án a đúng vì nó mô tả đầy đủ ý nghĩa của KDD. - Đáp án b, c, d sai vì chúng chỉ đề cập đến một phần của quá trình KDD.
Thuật ngữ Knowledge Discovery from Databases (KDD) được dịch là "Khai phá tri thức từ cơ sở dữ liệu". Quá trình KDD bao gồm nhiều bước, trong đó có khai thác dữ liệu (data mining). Tuy nhiên, KDD không chỉ đơn thuần là khai thác dữ liệu mà còn bao gồm các bước tiền xử lý, biến đổi dữ liệu, lựa chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn, và đánh giá tri thức.
Như vậy: - Đáp án a đúng vì nó mô tả đầy đủ ý nghĩa của KDD. - Đáp án b, c, d sai vì chúng chỉ đề cập đến một phần của quá trình KDD.
* Data Preprocessing (Tiền xử lý dữ liệu) là quá trình chuẩn bị dữ liệu thô để làm cho nó phù hợp hơn với các mô hình và thuật toán khai thác dữ liệu. Quá trình này bao gồm làm sạch dữ liệu, chuyển đổi dữ liệu, giảm dữ liệu và tích hợp dữ liệu.
* Data Processing (Xử lý dữ liệu) là một thuật ngữ rộng hơn, bao gồm nhiều hoạt động khác nhau liên quan đến dữ liệu, bao gồm thu thập, ghi lại, tổ chức, lưu trữ, điều chỉnh, truy xuất, phân tích, truyền tải và in ấn dữ liệu.
* Preprocessing in Database không phải là một thuật ngữ chuẩn được sử dụng rộng rãi trong lĩnh vực khoa học dữ liệu. Tiền xử lý dữ liệu thường được thực hiện trước khi dữ liệu được đưa vào cơ sở dữ liệu hoặc trong quá trình trích xuất dữ liệu từ cơ sở dữ liệu.
* Data Process không phải là một thuật ngữ chính thức, nó thường được hiểu là quá trình xử lý dữ liệu nói chung.
Để xác định tập mục không thường xuyên, ta cần tính support của từng tập và so sánh với Min_Support = 2 (50%).
* {D}: Tập D xuất hiện trong 1 giao dịch (T1), support = 1 < 2. Vậy {D} không phải là tập mục thường xuyên. * {A, E}: Tập {A, E} xuất hiện trong 2 giao dịch (T2, T4), support = 2 >= 2. Vậy {A, E} là tập mục thường xuyên. * {A, C}: Tập {A, C} xuất hiện trong 3 giao dịch (T2, T3, T4), support = 3 >= 2. Vậy {A, C} là tập mục thường xuyên. * {B, E}: Tập {B, E} xuất hiện trong 2 giao dịch (T1, T2), support = 2 >= 2. Vậy {B, E} là tập mục thường xuyên.
Vậy đáp án đúng là {D} vì nó có support nhỏ hơn Min_Support.
Để xác định tập mục không thường xuyên, ta cần tính support của từng tập mục và so sánh với Min_Support = 2 (50%).
* {B, D}: Xuất hiện ở Transaction ID 1 và 4. Support = 2. (Thường xuyên) * {A, E}: Xuất hiện ở Transaction ID 2 và 5. Support = 2. (Thường xuyên) * {A, C}: Xuất hiện ở Transaction ID 2, 3 và 5. Support = 3. (Thường xuyên) * {B, E}: Xuất hiện ở Transaction ID 1. Support = 1. (Không thường xuyên)
Vậy, tập {B, E} không phải là tập mục thường xuyên vì support của nó nhỏ hơn Min_Support.
* a. A → C: - Support(A → C): Có 2 giao dịch chứa cả A và C (ID 1 và ID 2). Support = 2/4 = 50% (≥ Min_Support). - Support(A): Có 3 giao dịch chứa A (ID 1, ID 2, ID 3). Support = 3/4 = 75%. - Confidence(A → C) = Support(A → C) / Support(A) = (2/4) / (3/4) = 2/3 ≈ 66.67% (≥ Min_Confidence). - => Luật A → C thỏa mãn.
* b. A → D: - Support(A → D): Có 1 giao dịch chứa cả A và D (ID 3). Support = 1/4 = 25% (< Min_Support). - => Luật A → D không thỏa mãn (do Support < Min_Support).
* c. A → E: - Support(A → E): Có 1 giao dịch chứa cả A và E (ID 3). Support = 1/4 = 25% (< Min_Support). - => Luật A → E không thỏa mãn (do Support < Min_Support).
* d. AB → C: - Support(AB → C): Có 1 giao dịch chứa cả AB và C (ID 1). Support = 1/4 = 25% (< Min_Support). - => Luật AB → C không thỏa mãn (do Support < Min_Support).
Kết luận:
Chỉ có luật A → C thỏa mãn cả Min_Support và Min_Confidence.