Trong thuật toán k-mean, sau khi gán các đối tượng vào k cụm cần phải:
Đáp án đúng: A
Trong thuật toán k-means, sau khi gán các đối tượng vào k cụm, bước tiếp theo là tính lại tâm của các cụm. Tâm mới sẽ là trung bình của tất cả các đối tượng trong mỗi cụm. Việc này được lặp lại cho đến khi các tâm cụm không thay đổi đáng kể hoặc đạt đến một số lần lặp tối đa.
Câu hỏi liên quan
Thuật toán K-means là một thuật toán clustering đơn giản và hiệu quả, được sử dụng rộng rãi trong nhiều lĩnh vực. Tuy nhiên, nó cũng có một số nhược điểm, bao gồm:
- Không đảm bảo đạt được tối ưu toàn cục: Thuật toán K-means có thể bị mắc kẹt trong các cực tiểu cục bộ, dẫn đến kết quả clustering không tối ưu.
- Khó phát hiện các loại cụm có hình dạng phức tạp và nhất là các dạng cụm không lồi: K-means hoạt động tốt nhất với các cụm có hình dạng lồi và gần nhau. Nếu các cụm có hình dạng phức tạp hoặc không lồi, K-means có thể không hoạt động tốt.
- Cần phải xác định trước số cụm k: Đây là một nhược điểm lớn, vì việc chọn số cụm k phù hợp có thể là một thách thức. Nếu chọn sai số cụm, kết quả clustering sẽ không chính xác.
Tuy nhiên, K-means là một thuật toán tương đối dễ cài đặt, vì vậy phát biểu "Thuật toán khó cài đặt" không phải là một nhược điểm của thuật toán này.
Phương án A chính xác vì nó mô tả chính xác điều kiện dừng của thuật toán k-means: thuật toán dừng khi không còn điểm nào có thể được gán lại vào một cụm khác mà làm giảm tổng khoảng cách bình phương.
Phương án B không đúng vì số cụm (k) là một tham số đầu vào của thuật toán, chứ không phải là điều kiện dừng. Thuật toán dừng khi đạt được sự hội tụ, không nhất thiết phải sau một số lượng vòng lặp nhất định.
Phương án C không đúng vì điều kiện dừng của thuật toán được xác định bởi sự hội tụ, chứ không phải bởi yêu cầu chủ quan của người dùng. Người dùng có thể đặt số lượng vòng lặp tối đa, nhưng điều kiện dừng chính vẫn là sự hội tụ.
Phương án D không hoàn toàn chính xác. Mặc dù tất cả các phần tử đều được gán vào k cụm trong mỗi vòng lặp, nhưng điều này không có nghĩa là thuật toán đã dừng. Thuật toán chỉ dừng khi việc gán này không còn thay đổi nữa, tức là đạt đến sự hội tụ.
Để giải bài toán này, ta cần hiểu rõ về ngưỡng và cách nó ảnh hưởng đến việc phân cụm. Ngưỡng là một giá trị được sử dụng để phân chia dữ liệu thành các nhóm khác nhau. Trong trường hợp này, ngưỡng là 3.5. Điều này có nghĩa là các điểm dữ liệu có giá trị nhỏ hơn 3.5 sẽ thuộc về một cụm, và các điểm dữ liệu có giá trị lớn hơn hoặc bằng 3.5 sẽ thuộc về một cụm khác.
Dựa vào hình vẽ (giả sử rằng x1 và x2 có giá trị nhỏ hơn 3.5, x3, x4 và x5 có giá trị lớn hơn hoặc bằng 3.5), ta có thể kết luận như sau:
- Cụm 1 (C1) sẽ bao gồm các điểm dữ liệu có giá trị nhỏ hơn 3.5, tức là {x1, x2}.
- Cụm 2 (C2) sẽ bao gồm các điểm dữ liệu có giá trị lớn hơn hoặc bằng 3.5, tức là {x3, x4, x5}.
Vì vậy, đáp án đúng là C. C1 = {x1, x2}; C2 = {x3, x4, x5}
Câu hỏi yêu cầu xác định phát biểu đúng về Data Mining. Hãy phân tích từng đáp án:
- A. Data Mining là một bước trong quá trình khai phá tri thức-KDD: Đây là phát biểu chính xác. KDD (Knowledge Discovery in Databases) là một quy trình gồm nhiều bước, trong đó Data Mining là một bước quan trọng để khám phá các mẫu và tri thức từ dữ liệu.
- B. Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases: Đây là phát biểu sai. Data Mining chỉ là một bước trong quy trình KDD.
- C. Data Mining là quá trình tìm kiếm thông tin có ích trên Internet: Đây là phát biểu sai. Data Mining có thể được áp dụng cho nhiều loại dữ liệu, không chỉ dữ liệu trên Internet.
- D. Tiền xử lí dữ liệu là quá trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn: Đây là phát biểu sai. Tiền xử lý dữ liệu là bước chuẩn bị dữ liệu, không phải là tìm kiếm thông tin hữu ích.
Vậy, đáp án đúng là A.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.