Trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần tử x sẽ được gán vào cụm C sao cho:

Khoảng cách từ x đến tâm cụm C là nhỏ nhất

Khoảng cách từ x đến tâm cụm C là lớn nhất

Khoảng cách từ x đến tâm cụm C bằng 0

Khoảng cách từ x đến tâm cụm C bằng k

Trả lời:

Đáp án đúng: A

Trong thuật toán k-means, mục tiêu là phân chia dữ liệu thành k cụm, sao cho mỗi điểm dữ liệu thuộc về cụm có khoảng cách gần nhất đến tâm của cụm đó. Vì vậy, phần tử x sẽ được gán vào cụm C sao cho khoảng cách từ x đến tâm cụm C là nhỏ nhất.

150+ câu hỏi trắc nghiệm Khai phá dữ liệu đầy đủ đáp án và lời giải - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 45:

Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4), E(1, 0). Sử dụng thuật toán phân cụm k-mean để chia 5 điểm vào 2 cụm. Kết quả phân cụm là:

Lời giải:

Đáp án đúng: A

Thuật toán k-means là một thuật toán phân cụm, mục tiêu là chia n điểm dữ liệu thành k cụm, sao cho mỗi điểm thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách, thường là khoảng cách Euclidean) với tâm của cụm đó.

Để giải bài toán này một cách chính xác, cần thực hiện lặp đi lặp lại các bước sau:
1. Khởi tạo: Chọn ngẫu nhiên k tâm cụm ban đầu. Trong bài này, k = 2.
2. Gán điểm: Gán mỗi điểm dữ liệu vào cụm có tâm gần nó nhất.
3. Cập nhật tâm: Tính toán lại tâm của mỗi cụm bằng cách lấy trung bình cộng của tất cả các điểm trong cụm đó.
4. Lặp lại: Lặp lại bước 2 và 3 cho đến khi các cụm không thay đổi (hoặc thay đổi rất ít).

Vì việc thực hiện thuật toán k-means bằng tay khá phức tạp và tốn thời gian (đặc biệt là việc tính toán khoảng cách Euclidean và cập nhật tâm cụm sau mỗi vòng lặp), ta cần xem xét các phương án một cách hợp lý nhất.

Ta nhận thấy rằng các điểm A(1, 1), B(2, 1), E(1, 0) có tọa độ gần nhau hơn so với C(4, 3), D(5, 4). Do đó, một cách phân cụm hợp lý là C1 = {A, B, E} và C2 = {C, D}.

Các phương án khác không hợp lý bằng, ví dụ: Phương án B đưa C vào cùng cụm với A và E, trong khi B và D lại ở cùng một cụm, điều này không phù hợp với vị trí tương đối của các điểm. Tương tự với các phương án C và D.

Câu 46:

k-Mean phù hợp với các cụm có hình dạng nào sau đây?

Lời giải:

Đáp án đúng: A

K-means là thuật toán phân cụm dựa trên khoảng cách, thường sử dụng khoảng cách Euclidean. Do đó, nó hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng, tức là có dạng hình cầu. Các cụm dài và mảnh, các cụm có điểm phân bố ngẫu nhiên hoặc các cụm có hình dạng bất kỳ có thể không được phân cụm hiệu quả bằng K-means do thuật toán này giả định các cụm có hình dạng tương tự nhau và có xu hướng hình cầu.

Câu 47:

Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân cụm k-mean:

Lời giải:

Đáp án đúng: A

Thuật toán k-means là một thuật toán phân cụm dữ liệu, trong đó mục tiêu là chia n đối tượng thành k cụm, sao cho mỗi đối tượng thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách nào đó, thường là khoảng cách Euclidean) với tâm của cụm đó.

Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.

Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.

Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.

Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.

Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.

Câu 48:

Cho tập dữ liệu X = {x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán liên kết đơn (Single Linkage), sau khi gom x1 và x2 thành cụm C = {x1, x2} thì khoảng cách giữa cụm C và x3 bằng bao nhiêu?

Lời giải:

Đáp án đúng: A

Thuật toán liên kết đơn (Single Linkage) định nghĩa khoảng cách giữa hai cụm là khoảng cách nhỏ nhất giữa hai điểm bất kỳ thuộc hai cụm đó. Trong trường hợp này, ta cần tìm khoảng cách giữa cụm C = {x1, x2} và điểm x3. Dựa vào ma trận không tương tự (dissimilarity matrix) (đề bài không cung cấp, nhưng ta có thể hiểu là ma trận khoảng cách), ta cần tìm min(d(x1, x3), d(x2, x3)). Giả sử d(x1, x3) = 2 và d(x2, x3) = 3 (ví dụ). Vậy min(2, 3) = 2. Do đó, khoảng cách giữa cụm C và x3 bằng 2.

Câu 49:

Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5, các cụm sinh ra là:

Lời giải:

Đáp án đúng: A

Để xác định các cụm sau khi cắt ngưỡng 2.5, ta xem xét giá trị của từng điểm dữ liệu x1, x2, x3, x4, x5 so với ngưỡng này.

x1, x2, x3 có giá trị nhỏ hơn hoặc bằng 2.5, nên chúng thuộc về một cụm.
x4 và x5 có giá trị lớn hơn 2.5, nên chúng thuộc về một cụm khác.

Vậy, các cụm sinh ra là: C1 = {x1, x2, x3}; C2 = {x4, x5}

Câu 50:

Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5, các cụm sinh ra là:

Lời giải: