Trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần tử x sẽ được gán vào cụm C sao cho:
Trả lời:
Đáp án đúng: A
Trong thuật toán k-means, mục tiêu là phân chia dữ liệu thành k cụm, sao cho mỗi điểm dữ liệu thuộc về cụm có khoảng cách gần nhất đến tâm của cụm đó. Vì vậy, phần tử x sẽ được gán vào cụm C sao cho khoảng cách từ x đến tâm cụm C là nhỏ nhất.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm, mục tiêu là chia n điểm dữ liệu thành k cụm, sao cho mỗi điểm thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách, thường là khoảng cách Euclidean) với tâm của cụm đó.
Để giải bài toán này một cách chính xác, cần thực hiện lặp đi lặp lại các bước sau:
1. Khởi tạo: Chọn ngẫu nhiên k tâm cụm ban đầu. Trong bài này, k = 2.
2. Gán điểm: Gán mỗi điểm dữ liệu vào cụm có tâm gần nó nhất.
3. Cập nhật tâm: Tính toán lại tâm của mỗi cụm bằng cách lấy trung bình cộng của tất cả các điểm trong cụm đó.
4. Lặp lại: Lặp lại bước 2 và 3 cho đến khi các cụm không thay đổi (hoặc thay đổi rất ít).
Vì việc thực hiện thuật toán k-means bằng tay khá phức tạp và tốn thời gian (đặc biệt là việc tính toán khoảng cách Euclidean và cập nhật tâm cụm sau mỗi vòng lặp), ta cần xem xét các phương án một cách hợp lý nhất.
Ta nhận thấy rằng các điểm A(1, 1), B(2, 1), E(1, 0) có tọa độ gần nhau hơn so với C(4, 3), D(5, 4). Do đó, một cách phân cụm hợp lý là C1 = {A, B, E} và C2 = {C, D}.
Các phương án khác không hợp lý bằng, ví dụ: Phương án B đưa C vào cùng cụm với A và E, trong khi B và D lại ở cùng một cụm, điều này không phù hợp với vị trí tương đối của các điểm. Tương tự với các phương án C và D.
Để giải bài toán này một cách chính xác, cần thực hiện lặp đi lặp lại các bước sau:
1. Khởi tạo: Chọn ngẫu nhiên k tâm cụm ban đầu. Trong bài này, k = 2.
2. Gán điểm: Gán mỗi điểm dữ liệu vào cụm có tâm gần nó nhất.
3. Cập nhật tâm: Tính toán lại tâm của mỗi cụm bằng cách lấy trung bình cộng của tất cả các điểm trong cụm đó.
4. Lặp lại: Lặp lại bước 2 và 3 cho đến khi các cụm không thay đổi (hoặc thay đổi rất ít).
Vì việc thực hiện thuật toán k-means bằng tay khá phức tạp và tốn thời gian (đặc biệt là việc tính toán khoảng cách Euclidean và cập nhật tâm cụm sau mỗi vòng lặp), ta cần xem xét các phương án một cách hợp lý nhất.
Ta nhận thấy rằng các điểm A(1, 1), B(2, 1), E(1, 0) có tọa độ gần nhau hơn so với C(4, 3), D(5, 4). Do đó, một cách phân cụm hợp lý là C1 = {A, B, E} và C2 = {C, D}.
Các phương án khác không hợp lý bằng, ví dụ: Phương án B đưa C vào cùng cụm với A và E, trong khi B và D lại ở cùng một cụm, điều này không phù hợp với vị trí tương đối của các điểm. Tương tự với các phương án C và D.
Lời giải:
Đáp án đúng: A
K-means là thuật toán phân cụm dựa trên khoảng cách, thường sử dụng khoảng cách Euclidean. Do đó, nó hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng, tức là có dạng hình cầu. Các cụm dài và mảnh, các cụm có điểm phân bố ngẫu nhiên hoặc các cụm có hình dạng bất kỳ có thể không được phân cụm hiệu quả bằng K-means do thuật toán này giả định các cụm có hình dạng tương tự nhau và có xu hướng hình cầu.
Lời giải:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm dữ liệu, trong đó mục tiêu là chia n đối tượng thành k cụm, sao cho mỗi đối tượng thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách nào đó, thường là khoảng cách Euclidean) với tâm của cụm đó.
Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.
Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.
Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.
Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.
Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.
Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.
Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.
Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.
Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.
Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.
Lời giải:
Đáp án đúng: A
Thuật toán liên kết đơn (Single Linkage) định nghĩa khoảng cách giữa hai cụm là khoảng cách nhỏ nhất giữa hai điểm bất kỳ thuộc hai cụm đó. Trong trường hợp này, ta cần tìm khoảng cách giữa cụm C = {x1, x2} và điểm x3. Dựa vào ma trận không tương tự (dissimilarity matrix) (đề bài không cung cấp, nhưng ta có thể hiểu là ma trận khoảng cách), ta cần tìm min(d(x1, x3), d(x2, x3)). Giả sử d(x1, x3) = 2 và d(x2, x3) = 3 (ví dụ). Vậy min(2, 3) = 2. Do đó, khoảng cách giữa cụm C và x3 bằng 2.
Lời giải:
Đáp án đúng: A
Để xác định các cụm sau khi cắt ngưỡng 2.5, ta xem xét giá trị của từng điểm dữ liệu x1, x2, x3, x4, x5 so với ngưỡng này.
- x1, x2, x3 có giá trị nhỏ hơn hoặc bằng 2.5, nên chúng thuộc về một cụm.
- x4 và x5 có giá trị lớn hơn 2.5, nên chúng thuộc về một cụm khác.
Vậy, các cụm sinh ra là: C1 = {x1, x2, x3}; C2 = {x4, x5}
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy
89 tài liệu310 lượt tải

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin
125 tài liệu441 lượt tải

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông
104 tài liệu687 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán
103 tài liệu589 lượt tải

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp
377 tài liệu1030 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
99 tài liệu1062 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng