JavaScript is required
Danh sách đề

150+ câu hỏi trắc nghiệm Khai phá dữ liệu đầy đủ đáp án và lời giải - Phần 1

50 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 50

Phát biểu nào sau đây là đúng?

A.

Data Mining là một bước trong quá trình khai phá tri thức-KDD

B.

Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases

C.

Data Mining là quá trình tìm kiếm thông tin có ích trên Internet

D.

Tiền xử lí dữ liệu là quá trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn

Đáp án

Câu hỏi yêu cầu xác định phát biểu đúng về Data Mining. Hãy phân tích từng đáp án:

  • A. Data Mining là một bước trong quá trình khai phá tri thức-KDD: Đây là phát biểu chính xác. KDD (Knowledge Discovery in Databases) là một quy trình gồm nhiều bước, trong đó Data Mining là một bước quan trọng để khám phá các mẫu và tri thức từ dữ liệu.
  • B. Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases: Đây là phát biểu sai. Data Mining chỉ là một bước trong quy trình KDD.
  • C. Data Mining là quá trình tìm kiếm thông tin có ích trên Internet: Đây là phát biểu sai. Data Mining có thể được áp dụng cho nhiều loại dữ liệu, không chỉ dữ liệu trên Internet.
  • D. Tiền xử lí dữ liệu là quá trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn: Đây là phát biểu sai. Tiền xử lý dữ liệu là bước chuẩn bị dữ liệu, không phải là tìm kiếm thông tin hữu ích.

Vậy, đáp án đúng là A.

Danh sách câu hỏi:

Câu 1:

Phát biểu nào sau đây là đúng?

Lời giải:
Đáp án đúng: A

Câu hỏi yêu cầu xác định phát biểu đúng về Data Mining. Hãy phân tích từng đáp án:

  • A. Data Mining là một bước trong quá trình khai phá tri thức-KDD: Đây là phát biểu chính xác. KDD (Knowledge Discovery in Databases) là một quy trình gồm nhiều bước, trong đó Data Mining là một bước quan trọng để khám phá các mẫu và tri thức từ dữ liệu.
  • B. Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases: Đây là phát biểu sai. Data Mining chỉ là một bước trong quy trình KDD.
  • C. Data Mining là quá trình tìm kiếm thông tin có ích trên Internet: Đây là phát biểu sai. Data Mining có thể được áp dụng cho nhiều loại dữ liệu, không chỉ dữ liệu trên Internet.
  • D. Tiền xử lí dữ liệu là quá trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn: Đây là phát biểu sai. Tiền xử lý dữ liệu là bước chuẩn bị dữ liệu, không phải là tìm kiếm thông tin hữu ích.

Vậy, đáp án đúng là A.

Câu 2:

Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là:

Lời giải:
Đáp án đúng: A
Thuật ngữ "Tiền xử lí dữ liệu" trong tiếng Anh được gọi là "Data Preprocessing". Đây là quá trình chuẩn bị dữ liệu thô để nó phù hợp hơn với các bước xử lý tiếp theo, như phân tích hoặc mô hình hóa. Các bước trong tiền xử lý dữ liệu có thể bao gồm làm sạch dữ liệu (loại bỏ hoặc sửa các giá trị sai sót), chuyển đổi dữ liệu (ví dụ: chuẩn hóa hoặc rời rạc hóa), và giảm chiều dữ liệu.

Câu 3:

Thuật toán Apriori có nhược điểm chính là:

Lời giải:
Đáp án đúng: A
Thuật toán Apriori, mặc dù hiệu quả trong việc tìm kiếm các tập phổ biến, nhưng lại có nhược điểm lớn về mặt hiệu suất và sử dụng tài nguyên. Nó tốn nhiều bộ nhớ vì cần lưu trữ tất cả các tập ứng viên và tập phổ biến ở mỗi bước lặp. Đồng thời, thời gian thực thi cũng tăng lên đáng kể do phải duyệt cơ sở dữ liệu nhiều lần để xác định độ hỗ trợ của các tập ứng viên. Điều này đặc biệt trở nên nghiêm trọng khi làm việc với các cơ sở dữ liệu lớn (mẫu lớn). Các phương án khác không chính xác vì: - B: Thuật toán Apriori được thiết kế để tìm các tập thường xuyên. - C: Kết quả của thuật toán Apriori có nhiều ứng dụng thực tế trong khai phá dữ liệu. - D: Mặc dù có thể phức tạp, nhưng thuật toán Apriori không phải là quá khó hiểu về mặt khái niệm.
Lời giải:
Đáp án đúng: A
Tập mục thường xuyên là tập mục có số lần xuất hiện (support) lớn hơn hoặc bằng ngưỡng tối thiểu cho trước. Để xác định tập nào không phải là tập mục thường xuyên, ta cần biết ngưỡng tối thiểu này. Tuy nhiên, vì đề bài không cung cấp ngưỡng tối thiểu, ta không thể xác định chính xác đáp án. Trong trường hợp không có thông tin về ngưỡng tối thiểu, ta thường giả định rằng các tập mục được liệt kê ở đây được chọn lọc từ một tập dữ liệu giao dịch nào đó. Một tập con của một tập mục không thường xuyên cũng sẽ là không thường xuyên. Do đó, nếu biết {A, C, D} là thường xuyên, thì {A,C} cũng sẽ thường xuyên. Tương tự, nếu {A, E} hay {B, E} thường xuyên, thì các tập con của nó cũng vậy. Vì không có thêm thông tin, không thể xác định tập nào chắc chắn không thường xuyên. Tuy nhiên, nếu phải chọn một đáp án dựa trên kinh nghiệm, thường thì các tập lớn hơn có khả năng không thường xuyên hơn nếu các tập con của nó không được liệt kê là thường xuyên. Trong trường hợp này, {A, C, D} có vẻ "ít thường xuyên" hơn so với {A, E}, {A, C} và {B, E}. Do đó, đáp án A có vẻ hợp lý nhất nếu không có thông tin bổ sung.
Lời giải:
Đáp án đúng: A
Câu hỏi yêu cầu xác định luật kết hợp thỏa mãn các điều kiện đã cho. Để trả lời câu hỏi này, chúng ta cần thông tin về các điều kiện hoặc ràng buộc cụ thể mà luật kết hợp phải tuân thủ. Tuy nhiên, câu hỏi không cung cấp bất kỳ điều kiện nào. Do đó, không thể xác định đáp án chính xác dựa trên thông tin hiện có. Tuy nhiên, nếu chúng ta giả định rằng câu hỏi đang hỏi về một quy tắc chung trong cơ sở dữ liệu hoặc hệ thống suy diễn, luật AB → C (nếu A và B cùng xảy ra, thì C xảy ra) là một dạng luật kết hợp phổ biến. Các luật còn lại (A → D, A → E, B → E) cũng có thể là luật kết hợp, nhưng không có thông tin bổ sung, không thể khẳng định chắc chắn luật nào 'thỏa mãn các điều kiện đã cho' hơn. Mặc dù vậy, vì không có thông tin đầy đủ, câu trả lời gần đúng nhất có thể là luật AB → C, thể hiện sự kết hợp của A và B để suy ra C.

Câu 6:

Cho tập mục thường xuyên X = {A, B}, từ tập X có thể sinh ra các luật kết hợp sau:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Gom cụm (clustering) là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Thuật ngữ tiếng Anh nào có nghĩa là "Khai phá dữ liệu"?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 15:

Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất):

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 16:

Làm sạch dữ liệu (Data Cleaning) là quá trình:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 17:

Thuật ngữ Big Data có nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Thuật ngữ BioInfomatics có nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Các bài toán thuộc làm sạch dữ liệu là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 20:

Một số phương pháp loại bỏ dữ liệu nhiễu là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp "Bỏ qua bản ghi có giá trị thiếu" chỉ thích hợp khi:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 22:

Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X. Độ hỗ trợ của tập mục X được định nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 23:

Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Trong thuật toán Apriori, tập mục chứa k-item được tạo ra bằng cách nào trong các cách sau:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 30:

Cho FP-Tree như hình vẽ, mũi tên nét đứt biểu thị cho:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 31:

Cho FP-Tree như hình vẽ, cơ sở điều kiện của nút M là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 32:

Hãy cho biết Refund=No, MarSt = Married, TaxInc=80K thì kết luận có giá trị gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 33:

Có bao nhiêu luật sinh ra từ cây quyết định trên:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 34:

Có thể sử dụng phân lớp dựa trên mạng Nơron nhân tạo. Vậy mạng Nơron nhân tạo là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

Cho tập ví dụ học như bảng. Entropy của kết luận C = Play Ball là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 37:

Khi sử dụng thuật toán Quilan để xây dựng cây quyết định. Tại mỗi bước của thuật toán ta chọn thuộc tính nào trong số các thuộc tính còn lại để làm gốc phân nhánh?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Entropy là một đại lượng có miền giá trị là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 41:

Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play Ball = No ta tìm được các luật sau:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 42:

Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play Ball = Yes ta tìm được các luật sau:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 44:

Cho 2 điểm trong mặt phẳng tọa độ Oxy, cho 2 điểm A(x1, y1), B(x2, y2). Khoảng cách Ơclit giữa 2 điểm này là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 47:

Trong thuật toán k-mean, sau khi gán các đối tượng vào k cụm cần phải:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 48:

Phát biểu nào sau đây không là nhược điểm của thuật toán K-mean?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 49:

Thuật toán phân cụm k-mean dừng khi:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 50:

Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5, các cụm sinh ra là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP