Phân cụm dữ liệu là thuộc phương pháp
Đáp án đúng: B
Câu hỏi liên quan
Phân tích các thuật toán:
- A. DIANA (Divisive Analysis Clustering): Là một thuật toán phân cụm phân cấp (hierarchical clustering) theo kiểu chia tách (divisive). Nó bắt đầu bằng việc coi toàn bộ tập dữ liệu là một cụm duy nhất, sau đó chia tách cụm này thành các cụm nhỏ hơn một cách đệ quy. Mỗi phần tử chỉ thuộc về một cụm duy nhất tại bất kỳ thời điểm nào.
- B. K-means: Là một thuật toán phân cụm dựa trên khoảng cách. Mỗi điểm dữ liệu được gán cho cụm có trung tâm gần nhất. Do đó, mỗi điểm chỉ thuộc về một cụm duy nhất.
- C. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. Nó nhóm các điểm dữ liệu gần nhau và đánh dấu các điểm dữ liệu nằm một mình trong các vùng có mật độ thấp là nhiễu (noise). Mỗi điểm hoặc thuộc về một cụm hoặc được coi là nhiễu, nhưng không thể thuộc về nhiều cụm.
- D. Fuzzy C-means (FCM): Là một thuật toán phân cụm mềm (soft clustering). Thay vì gán mỗi điểm dữ liệu cho một cụm duy nhất, FCM gán cho mỗi điểm một độ thuộc (membership) cho mỗi cụm. Độ thuộc này thể hiện mức độ mà điểm đó thuộc về cụm đó. Một điểm có thể có độ thuộc khác không cho nhiều cụm, cho phép nó thuộc về nhiều cụm khác nhau ở các mức độ khác nhau.
Kết luận:
Fuzzy C-means (FCM) là thuật toán cho phép một phần tử thuộc về một hoặc nhiều cụm khác nhau.
Câu hỏi này kiểm tra kiến thức về các thuật toán phân cụm và yêu cầu về việc xác định số cụm trước khi thực hiện thuật toán.
A. K-means: Thuật toán K-means yêu cầu phải xác định trước số lượng cụm (K). Thuật toán sẽ cố gắng chia dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm cụm của nó là nhỏ nhất.
B. Agnes (Agglomerative Nesting): Là một thuật toán phân cụm phân cấp kiểu bottom-up. Nó bắt đầu bằng việc coi mỗi điểm dữ liệu là một cụm riêng biệt, sau đó lặp đi lặp lại việc hợp nhất các cụm gần nhau nhất cho đến khi chỉ còn lại một cụm duy nhất, hoặc đạt đến một điều kiện dừng nào đó. Số cụm không cần xác định trước, mà có thể được xác định sau khi xây dựng xong cây phân cấp (dendrogram).
C. Fuzzy C-means (FCM): Tương tự như K-means, Fuzzy C-means cũng yêu cầu phải xác định trước số lượng cụm (C). Điểm khác biệt là FCM cho phép mỗi điểm dữ liệu thuộc về nhiều cụm với các mức độ thành viên khác nhau (fuzzy membership).
D. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. DBSCAN có thể tự động xác định số lượng cụm dựa trên mật độ của dữ liệu. Nó không yêu cầu phải xác định trước số cụm.
Vậy, thuật toán DBSCAN và Agnes không yêu cầu phải biết trước số cụm. Trong các lựa chọn trên, DBSCAN là đáp án đúng nhất vì Agnes còn có thể được dùng để xác định số cụm sau.
Câu hỏi đề cập đến việc so sánh kết quả giữa các mô hình phân cụm để đánh giá tính hiệu quả. Trong ngữ cảnh này, chúng ta cần xem xét các loại đánh giá khác nhau:
- Đánh giá ngoài (External Evaluation): Sử dụng thông tin bên ngoài (ground truth) để so sánh kết quả phân cụm. Ví dụ, nếu chúng ta biết trước các nhãn của dữ liệu, chúng ta có thể so sánh kết quả phân cụm với các nhãn này.
- Đánh giá trong (Internal Evaluation): Đánh giá chất lượng phân cụm dựa trên các thuộc tính nội tại của dữ liệu và kết quả phân cụm, ví dụ như sự gắn kết (cohesion) và sự phân tách (separation) của các cụm.
- Đánh giá tương đối (Relative Evaluation): So sánh kết quả giữa các mô hình phân cụm khác nhau để xem mô hình nào tốt hơn dựa trên một tiêu chí đánh giá nhất định (ví dụ: sử dụng một chỉ số đánh giá trong như Silhouette score để so sánh các mô hình).
Trong trường hợp này, việc so sánh kết quả giữa các mô hình để xem xét tính hiệu quả chính là đánh giá tương đối. Các mô hình được so sánh với nhau dựa trên một hoặc nhiều tiêu chí đánh giá chất lượng cụm.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.