JavaScript is required
Danh sách đề

200+ câu hỏi trắc nghiệm Data mining có lời giải chi tiết - Đề 4

50 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 50
Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là: 
A.
Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn
B.
Khai phá dữ liệu
C.
Khai thác dữ liệu
D.
Tìm kiếm dữ liệu
Đáp án
Đáp án đúng: A
Thuật ngữ Knowledge Discovery from Databases (KDD) được dịch là "Khai phá tri thức từ cơ sở dữ liệu". Quá trình KDD bao gồm nhiều bước, trong đó có khai thác dữ liệu (data mining). Tuy nhiên, KDD không chỉ đơn thuần là khai thác dữ liệu mà còn bao gồm các bước tiền xử lý, biến đổi dữ liệu, lựa chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn, và đánh giá tri thức.

Như vậy:
- Đáp án a đúng vì nó mô tả đầy đủ ý nghĩa của KDD.
- Đáp án b, c, d sai vì chúng chỉ đề cập đến một phần của quá trình KDD.

Danh sách câu hỏi:

Câu 1:

Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là: 
Lời giải:
Đáp án đúng: A
Thuật ngữ Knowledge Discovery from Databases (KDD) được dịch là "Khai phá tri thức từ cơ sở dữ liệu". Quá trình KDD bao gồm nhiều bước, trong đó có khai thác dữ liệu (data mining). Tuy nhiên, KDD không chỉ đơn thuần là khai thác dữ liệu mà còn bao gồm các bước tiền xử lý, biến đổi dữ liệu, lựa chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm năng) từ tập dữ liệu lớn, và đánh giá tri thức.

Như vậy:
- Đáp án a đúng vì nó mô tả đầy đủ ý nghĩa của KDD.
- Đáp án b, c, d sai vì chúng chỉ đề cập đến một phần của quá trình KDD.

Câu 2:

Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là:
Lời giải:
Đáp án đúng: A
Đáp án đúng là a. Data Preprocessing.

Giải thích:

* Data Preprocessing (Tiền xử lý dữ liệu) là quá trình chuẩn bị dữ liệu thô để làm cho nó phù hợp hơn với các mô hình và thuật toán khai thác dữ liệu. Quá trình này bao gồm làm sạch dữ liệu, chuyển đổi dữ liệu, giảm dữ liệu và tích hợp dữ liệu.

* Data Processing (Xử lý dữ liệu) là một thuật ngữ rộng hơn, bao gồm nhiều hoạt động khác nhau liên quan đến dữ liệu, bao gồm thu thập, ghi lại, tổ chức, lưu trữ, điều chỉnh, truy xuất, phân tích, truyền tải và in ấn dữ liệu.

* Preprocessing in Database không phải là một thuật ngữ chuẩn được sử dụng rộng rãi trong lĩnh vực khoa học dữ liệu. Tiền xử lý dữ liệu thường được thực hiện trước khi dữ liệu được đưa vào cơ sở dữ liệu hoặc trong quá trình trích xuất dữ liệu từ cơ sở dữ liệu.

* Data Process không phải là một thuật ngữ chính thức, nó thường được hiểu là quá trình xử lý dữ liệu nói chung.
Lời giải:
Đáp án đúng: A
Để xác định tập mục không thường xuyên, ta cần tính support của từng tập và so sánh với Min_Support = 2 (50%).

* {D}: Tập D xuất hiện trong 1 giao dịch (T1), support = 1 < 2. Vậy {D} không phải là tập mục thường xuyên.
* {A, E}: Tập {A, E} xuất hiện trong 2 giao dịch (T2, T4), support = 2 >= 2. Vậy {A, E} là tập mục thường xuyên.
* {A, C}: Tập {A, C} xuất hiện trong 3 giao dịch (T2, T3, T4), support = 3 >= 2. Vậy {A, C} là tập mục thường xuyên.
* {B, E}: Tập {B, E} xuất hiện trong 2 giao dịch (T1, T2), support = 2 >= 2. Vậy {B, E} là tập mục thường xuyên.

Vậy đáp án đúng là {D} vì nó có support nhỏ hơn Min_Support.
Lời giải:
Đáp án đúng: A
Để xác định tập mục không thường xuyên, ta cần tính support của từng tập mục và so sánh với Min_Support = 2 (50%).

* {B, D}: Xuất hiện ở Transaction ID 1 và 4. Support = 2. (Thường xuyên)
* {A, E}: Xuất hiện ở Transaction ID 2 và 5. Support = 2. (Thường xuyên)
* {A, C}: Xuất hiện ở Transaction ID 2, 3 và 5. Support = 3. (Thường xuyên)
* {B, E}: Xuất hiện ở Transaction ID 1. Support = 1. (Không thường xuyên)

Vậy, tập {B, E} không phải là tập mục thường xuyên vì support của nó nhỏ hơn Min_Support.
Lời giải:
Đáp án đúng: A
Để giải quyết câu hỏi này, ta cần áp dụng các khái niệm về luật kết hợp, support (độ hỗ trợ) và confidence (độ tin cậy).

1. Tính Support:
- Support(X → Y) = Số giao dịch chứa cả X và Y / Tổng số giao dịch.
- Min_Support = 2 (50% của 4 giao dịch).

2. Tính Confidence:
- Confidence(X → Y) = Support(X → Y) / Support(X).
- Min_Confidence = 50%.

Đánh giá từng phương án:

* a. A → C:
- Support(A → C): Có 2 giao dịch chứa cả A và C (ID 1 và ID 2). Support = 2/4 = 50% (≥ Min_Support).
- Support(A): Có 3 giao dịch chứa A (ID 1, ID 2, ID 3). Support = 3/4 = 75%.
- Confidence(A → C) = Support(A → C) / Support(A) = (2/4) / (3/4) = 2/3 ≈ 66.67% (≥ Min_Confidence).
- => Luật A → C thỏa mãn.

* b. A → D:
- Support(A → D): Có 1 giao dịch chứa cả A và D (ID 3). Support = 1/4 = 25% (< Min_Support).
- => Luật A → D không thỏa mãn (do Support < Min_Support).

* c. A → E:
- Support(A → E): Có 1 giao dịch chứa cả A và E (ID 3). Support = 1/4 = 25% (< Min_Support).
- => Luật A → E không thỏa mãn (do Support < Min_Support).

* d. AB → C:
- Support(AB → C): Có 1 giao dịch chứa cả AB và C (ID 1). Support = 1/4 = 25% (< Min_Support).
- => Luật AB → C không thỏa mãn (do Support < Min_Support).

Kết luận:

Chỉ có luật A → C thỏa mãn cả Min_Support và Min_Confidence.

Câu 6:

Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp sau: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 7:

Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá trị thì cây quyết định có bao nhiêu nhánh? 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 8:

Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa các ví dụ học thành mấy bảng con: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Có bao nhiêu thuật toán phân cụm: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 11:

Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 12:

Một số bài toán điển hình trong khai phá dữ liệu là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 13:

Một số lĩnh vực liên quan đến khai phá tri thức – KDD là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 14:

Khai phá dữ liệu có lợi ích gì? 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 15:

Làm sạch dữ liệu là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 17:

Một số phương pháp loại bỏ dữ liệu nhiễu là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Trong thuật toán Apriori, tập mục chứa k-item được tạo ra bằng cách nào trong các cách sau: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Kết luận C gồm 2 giá trị Yes và No. Entropy(C: 1 nói nên điều gì: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 22:

Kết luận C gồm 2 giá trị Yes và No. Entropy(C: 0 nói nên điều gì:
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 23:

Khi sử dụng thuật toán CLS (Concept Learning System) để xây dựng cây quyết định. Tại mỗi bước của thuật toán ta chọn thuộc tính nào trong số các thuộc tính còn lại để làm gốc phân nhánh? 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 24:

Thuật toán Quilan là thuật toán dùng để: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Độ đo ‘gần gũi’ gồm có: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 27:

Trong thuật toán k-mean, sau khi gán các đối tượng vào k cụm cần phải: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 29:

k-Mean phù hợp với các cụm có hình dạng nào sau đây: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 30:

Chọn phát biểu sai trong các phát biểu sau: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 31:

Data Integeation là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 32:

Phát biểu nào sai về ‘Tiền xử lí dữ liệu’: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 33:

Xếp thùng - Binning - là phương pháp rời rạc hóa đơn giản nhất. Phương pháp này gồm có:
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 34:

Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Chia tập dữ liệu trên thành 3 thùng. Kết quả chia thùng theo chiều sâu là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

Trong quá trình Tiền xử lí dữ liệu người ta thường dùng một số phương pháp chuẩn hóa dữ liệu sau: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Phát biểu nào đúng về Phương pháp phân tích thành phần chính (Principal Component Analysis-PCA): 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 39:

Phát biểu nào sau đây không đúng về Ma trận không tương tự:
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 40:

Độ phức tạp của thuật toán k-Mean là: 
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 47:

Cho tập ví dụ học như bảng. Entropy của thuộc tính Outlook = ‘Sunny’ là: 
Cho tập ví dụ học như bảng. Entropy của thuộc tính Outlook = ‘Sunny’ là:  a. Giá trị khác b. Entropy (ảnh 1)
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 50:

Cho FP-Tree như hình vẽ, cây điều kiện FP của nút a là: Cho FP-Tree như hình vẽ, cây điều kiện FP của nút a là:  a. {f:4, c:3} b. {f:3, c:3} c. {f:4, c:3, a:3} d. {f:3, c:3, a:3 (ảnh 1)
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP