Thuật toán phân cụm nào sau đây không cần biết trước số cụm:
Đáp án đúng: B
Câu hỏi này kiểm tra kiến thức về các thuật toán phân cụm và yêu cầu về việc xác định số cụm trước khi thực hiện thuật toán.
A. K-means: Thuật toán K-means yêu cầu phải xác định trước số lượng cụm (K). Thuật toán sẽ cố gắng chia dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm cụm của nó là nhỏ nhất.
B. Agnes (Agglomerative Nesting): Là một thuật toán phân cụm phân cấp kiểu bottom-up. Nó bắt đầu bằng việc coi mỗi điểm dữ liệu là một cụm riêng biệt, sau đó lặp đi lặp lại việc hợp nhất các cụm gần nhau nhất cho đến khi chỉ còn lại một cụm duy nhất, hoặc đạt đến một điều kiện dừng nào đó. Số cụm không cần xác định trước, mà có thể được xác định sau khi xây dựng xong cây phân cấp (dendrogram).
C. Fuzzy C-means (FCM): Tương tự như K-means, Fuzzy C-means cũng yêu cầu phải xác định trước số lượng cụm (C). Điểm khác biệt là FCM cho phép mỗi điểm dữ liệu thuộc về nhiều cụm với các mức độ thành viên khác nhau (fuzzy membership).
D. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. DBSCAN có thể tự động xác định số lượng cụm dựa trên mật độ của dữ liệu. Nó không yêu cầu phải xác định trước số cụm.
Vậy, thuật toán DBSCAN và Agnes không yêu cầu phải biết trước số cụm. Trong các lựa chọn trên, DBSCAN là đáp án đúng nhất vì Agnes còn có thể được dùng để xác định số cụm sau.