Thuật toán nào sau đây cho phép một phần tử có thể thuộc về một hoặc nhiều cụm khác nhau?
Trả lời:
Đáp án đúng: D
Giải thích:
Câu hỏi này kiểm tra kiến thức về các thuật toán phân cụm (clustering) trong Machine Learning. Mỗi thuật toán có một cách tiếp cận khác nhau trong việc gán các điểm dữ liệu vào các cụm.
- A. DIANA (Divisive Analysis Clustering): Là một thuật toán phân cụm phân cấp (hierarchical clustering) chia tách. Nó bắt đầu bằng việc coi tất cả các điểm dữ liệu thuộc về một cụm duy nhất, sau đó chia cụm này thành các cụm nhỏ hơn một cách đệ quy. Một điểm dữ liệu chỉ thuộc về một cụm duy nhất tại một thời điểm.
- B. K-Means: Là một thuật toán phân cụm dựa trên khoảng cách. Mỗi điểm dữ liệu được gán cho cụm có trung tâm gần nhất. Một điểm dữ liệu chỉ thuộc về một cụm duy nhất.
- C. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. Nó nhóm các điểm dữ liệu gần nhau và đánh dấu các điểm nằm trong vùng có mật độ thấp là nhiễu. Một điểm dữ liệu thường chỉ thuộc về một cụm (hoặc được đánh dấu là nhiễu).
- D. Fuzzy C-Means (FCM): Là một thuật toán phân cụm mềm (soft clustering) hay còn gọi là phân cụm mờ. Thay vì gán mỗi điểm dữ liệu vào một cụm duy nhất, FCM gán cho mỗi điểm dữ liệu một độ thành viên (membership) cho mỗi cụm. Độ thành viên này thể hiện mức độ mà điểm dữ liệu đó thuộc về cụm đó. Vì vậy, một điểm dữ liệu có thể thuộc về nhiều cụm với các mức độ khác nhau.
Vậy, thuật toán Fuzzy C-Means (FCM) cho phép một phần tử thuộc về một hoặc nhiều cụm khác nhau.