Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5, ?). Dấu hỏi là giá trị của thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có, hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:

Giá trị khác

Trả lời:

Đáp án đúng: A

Giá trị trung bình của các thuộc tính là (6 + 2 + 5 + 7 + 5) / 5 = 5. Vậy vị trí dấu hỏi điền giá trị 5.

200+ câu hỏi trắc nghiệm Data mining có lời giải chi tiết - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 11:

Khẳng định nào sau đây là sai:

Lời giải:

Đáp án đúng: A

FP-Tree (Frequent Pattern Tree) là một cấu trúc cây được sử dụng trong khai phá dữ liệu để lưu trữ thông tin về các tập mục phổ biến.

* a. FP-Tree là cây nhị phân: Sai. FP-Tree là cây tổng quát (general tree) chứ không phải cây nhị phân. Mỗi nút trong FP-Tree có thể có nhiều nút con, tùy thuộc vào số lượng các mục khác nhau xuất hiện sau nó trong các giao dịch.
* b. FP-Tree là cây tổng quát: Đúng. FP-Tree có thể có nhiều nhánh từ một nút, không giới hạn ở hai nhánh như cây nhị phân.
* c. Khi thêm 1 giao dịch vào FP-Tree đều phải thêm bắt đầu từ gốc: Đúng. Khi thêm một giao dịch mới vào FP-Tree, ta bắt đầu từ nút gốc và duyệt theo các mục trong giao dịch.
* d. Bảng đầu mục – Header Table dùng để lưu 3 thông tin: Tên item, Số lượng item đó xuất hiện trong CSDL giao dịch và Con trỏ dùng để trỏ đến nút cùng tên được sinh ra đầu tiên: Đúng. Bảng Header Table chứa thông tin về mỗi mục, số lần xuất hiện và con trỏ đến nút đầu tiên của mục đó trong cây.

Vậy, khẳng định sai là FP-Tree là cây nhị phân.

Câu 12:

Độ đo ‘gần gũi’ là gì ?

Lời giải:

Đáp án đúng: A

Độ đo 'gần gũi' (proximity measure) là một độ đo được sử dụng để đánh giá mức độ tương đồng hoặc không tương đồng giữa hai đối tượng, thường được biểu diễn dưới dạng các vector đặc trưng. Trong các bài toán khai thác dữ liệu và học máy, độ đo này rất quan trọng để xác định các đối tượng tương tự nhau, ví dụ như trong các thuật toán phân cụm (clustering) hay tìm kiếm láng giềng gần nhất (nearest neighbor search).

* Phương án a chính xác nhất vì nó trực tiếp định nghĩa độ đo gần gũi là một độ đo chỉ ra mức độ tương tự hoặc không tương tự giữa hai vector đặc trưng.
* Phương án b quá chung chung, vì độ đo giữa 2 phần tử bất kỳ có thể bao gồm nhiều loại độ đo khác, không nhất thiết liên quan đến độ gần gũi.
* Phương án c đề cập đến khoảng cách, là một dạng cụ thể của độ đo gần gũi (ví dụ: khoảng cách Euclidean), nhưng không bao quát hết tất cả các loại độ đo gần gũi.
* Phương án d đúng một phần, vì độ đo gần gũi thường được sử dụng trong Data Mining để phân cụm dữ liệu, nhưng không phải là định nghĩa duy nhất của nó.

Câu 13:

Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4). Sử dụng thuật toán phân cụm k-mean để chia 4 điểm vào 2 cụm. Kết quả phân cụm là:

Lời giải:

Đáp án đúng: A

Để giải bài toán này bằng thuật toán k-means, chúng ta cần thực hiện các bước lặp: khởi tạo các tâm cụm ban đầu, gán các điểm vào cụm gần nhất, và cập nhật tâm cụm. Tuy nhiên, vì đây là một bài trắc nghiệm, chúng ta có thể đánh giá nhanh các phương án dựa trên trực giác về khoảng cách giữa các điểm.

Phương án a: C1={A, B}; C2={C, D}
- A(1, 1), B(2, 1): Hai điểm này khá gần nhau.
- C(4, 3), D(5, 4): Hai điểm này cũng khá gần nhau.
Phương án này có vẻ hợp lý.

Phương án b: C1={A, C}; C2={B, D}
- A(1, 1), C(4, 3): Hai điểm này có vẻ xa nhau hơn.
- B(2, 1), D(5, 4): Hai điểm này cũng có vẻ xa nhau hơn.
Phương án này ít hợp lý hơn.

Phương án c: C1={A, B, C}; C2={D}
- A(1, 1), B(2, 1), C(4, 3): Ba điểm này có độ phân tán lớn hơn so với cụm {A, B}.
- D(5, 4): Một cụm chỉ có một điểm, có thể không phải là kết quả tốt nhất của k-means.
Phương án này ít hợp lý.

Phương án d: C1={A, B, D}; C2={C}
- A(1, 1), B(2, 1), D(5, 4): Ba điểm này có độ phân tán lớn.
- C(4, 3): Một cụm chỉ có một điểm, tương tự như phương án c.
Phương án này ít hợp lý.

Do đó, phương án a có vẻ là phương án hợp lý nhất, vì nó nhóm các điểm gần nhau vào cùng một cụm. Thuật toán k-means sẽ cố gắng giảm thiểu tổng khoảng cách từ mỗi điểm đến tâm cụm của nó, và phương án a dường như đạt được điều này tốt hơn các phương án khác.

Vậy đáp án đúng là a.

Câu 14:

Cho cụm C gồm các điểm A(1, 1), B(2, 4), C(6,1). Giả sử tâm của cụm là vector trung bình. Tâm của cụm là:

Lời giải:

Đáp án đúng: A

Để tìm tâm của cụm C, ta cần tính vector trung bình của các điểm A(1, 1), B(2, 4), C(6, 1).

Tâm của cụm mC được tính như sau:

mC = ((xA + xB + xC) / 3 ; (yA + yB + yC) / 3)

mC = ((1 + 2 + 6) / 3 ; (1 + 4 + 1) / 3)

mC = (9/3 ; 6/3)

mC = (3 ; 2)

Vậy, tâm của cụm là (3 ; 2).

Câu 15:

Phát biểu nào sau đây không là nhược điểm của thuật toán K-mean

Lời giải:

Đáp án đúng: A

Thuật toán K-means là một thuật toán clustering (phân cụm) phổ biến. Các nhược điểm thường gặp của thuật toán này bao gồm:

- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.

Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.

Câu 16:

Thuật toán phân cụm k-mean dừng khi:

Lời giải: