Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân cụm k-mean:
Trả lời:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm dữ liệu, trong đó mục tiêu là chia n đối tượng thành k cụm, sao cho mỗi đối tượng thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách nào đó, thường là khoảng cách Euclidean) với tâm của cụm đó.
Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.
Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.
Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.
Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.
Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.





