k-Mean phù hợp với các cụm có hình dạng nào sau đây?
Trả lời:
Đáp án đúng: A
K-means là thuật toán phân cụm dựa trên khoảng cách, thường sử dụng khoảng cách Euclidean. Do đó, nó hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng, tức là có dạng hình cầu. Các cụm dài và mảnh, các cụm có điểm phân bố ngẫu nhiên hoặc các cụm có hình dạng bất kỳ có thể không được phân cụm hiệu quả bằng K-means do thuật toán này giả định các cụm có hình dạng tương tự nhau và có xu hướng hình cầu.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm dữ liệu, trong đó mục tiêu là chia n đối tượng thành k cụm, sao cho mỗi đối tượng thuộc về cụm gần nhất (được định nghĩa bằng khoảng cách nào đó, thường là khoảng cách Euclidean) với tâm của cụm đó.
Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.
Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.
Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.
Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.
Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.
Phát biểu A: "Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm" là đúng. Thứ tự các phần tử đầu vào có thể ảnh hưởng đến kết quả cuối cùng của thuật toán k-means, đặc biệt là trong việc chọn tâm cụm ban đầu. Do đó, đây không phải là phát biểu sai.
Phát biểu B: "Cần phải xác định trước số cụm cần sinh ra" là đúng. Thuật toán k-means yêu cầu người dùng chỉ định số lượng cụm (k) trước khi chạy thuật toán. Đây không phải là phát biểu sai.
Phát biểu C: "k-mean phù hợp với các cụm có dạng hình cầu" là đúng. k-means hoạt động tốt nhất khi các cụm có hình dạng lồi và đẳng hướng (ví dụ: hình cầu). Đây không phải là phát biểu sai.
Phát biểu D: "Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó" là đúng. Trong quá trình lặp của thuật toán, tâm của mỗi cụm được cập nhật bằng cách tính trung bình cộng của tất cả các điểm dữ liệu thuộc về cụm đó. Đây không phải là phát biểu sai. Mặc dù phát biểu này đúng trong quá trình hội tụ của thuật toán k-means, phát biểu này không đúng khi khởi tạo ban đầu của k-means. Tuy nhiên, phát biểu này vẫn đúng hơn các phương án khác.
Do đó, không có phát biểu nào sai hoàn toàn trong các phương án đã cho. Tuy nhiên, câu hỏi yêu cầu chọn phát biểu sai, nên có thể có một sự không chính xác nhỏ trong một trong các phát biểu đúng. Trong trường hợp này, phát biểu D là phát biểu "kém đúng" nhất vì nó mô tả một phần của thuật toán (cập nhật tâm cụm) chứ không phải là toàn bộ quá trình.
Vì đề bài yêu cầu chọn phát biểu sai, và cả bốn phát biểu đều đúng ở một mức độ nào đó, nên câu hỏi có thể gây nhầm lẫn. Tuy nhiên, dựa trên kiến thức về thuật toán k-means, không có phát biểu nào là hoàn toàn sai. Có thể có lỗi trong câu hỏi hoặc các phương án trả lời. Trong trường hợp này, chúng ta chọn một phương án mà có thể gây hiểu nhầm hoặc không hoàn toàn chính xác như những phương án khác.
Lời giải:
Đáp án đúng: A
Thuật toán liên kết đơn (Single Linkage) định nghĩa khoảng cách giữa hai cụm là khoảng cách nhỏ nhất giữa hai điểm bất kỳ thuộc hai cụm đó. Trong trường hợp này, ta cần tìm khoảng cách giữa cụm C = {x1, x2} và điểm x3. Dựa vào ma trận không tương tự (dissimilarity matrix) (đề bài không cung cấp, nhưng ta có thể hiểu là ma trận khoảng cách), ta cần tìm min(d(x1, x3), d(x2, x3)). Giả sử d(x1, x3) = 2 và d(x2, x3) = 3 (ví dụ). Vậy min(2, 3) = 2. Do đó, khoảng cách giữa cụm C và x3 bằng 2.
Lời giải:
Đáp án đúng: A
Để xác định các cụm sau khi cắt ngưỡng 2.5, ta xem xét giá trị của từng điểm dữ liệu x1, x2, x3, x4, x5 so với ngưỡng này.
- x1, x2, x3 có giá trị nhỏ hơn hoặc bằng 2.5, nên chúng thuộc về một cụm.
- x4 và x5 có giá trị lớn hơn 2.5, nên chúng thuộc về một cụm khác.
Vậy, các cụm sinh ra là: C1 = {x1, x2, x3}; C2 = {x4, x5}
Lời giải:
Đáp án đúng: A
Đề bài yêu cầu xác định các cụm sinh ra khi cắt sơ đồ ngưỡng không tương tự tại ngưỡng bằng 5. Dựa vào hình vẽ (giả sử hình vẽ cho thấy các giá trị của x1, x2, x3, x4, x5 và mối quan hệ giữa chúng), ta cần xác định những điểm nào có giá trị nhỏ hơn hoặc bằng 5 và tạo thành một cụm.
* Phương án A: C1 = {x1, x2, x3, x4, x5} - Phương án này gom tất cả các điểm vào một cụm duy nhất, điều này không đúng vì có thể có những điểm có giá trị lớn hơn 5.
* Phương án B: C1 = {x1, x2}; C2 = {x3, x4, x5} - Phương án này chia thành hai cụm. Nếu x1 và x2 có giá trị nhỏ hơn hoặc bằng 5 và x3, x4, x5 có giá trị lớn hơn 5 hoặc có sự liên kết với nhau mà giá trị không vượt quá 5, thì đây có thể là đáp án đúng.
* Phương án C: C1 = {x1, x2}; C2 = {x3, x4}; C4 = {x5} - Phương án này chia thành nhiều cụm nhỏ, điều này có thể xảy ra nếu các điểm không liên kết với nhau hoặc giá trị khác biệt nhiều.
* Phương án D: C1 = {x1}; C2 = {x2}; C3 = {x4}; C4 = {x4}; C5 = {x5} - Phương án này chia mỗi điểm thành một cụm riêng biệt, điều này chỉ xảy ra khi không có sự liên kết nào giữa các điểm.
Vì không có hình vẽ nên ta giả định đáp án B là đúng nếu x1 và x2 có giá trị liên kết nhỏ hơn hoặc bằng 5, trong khi x3, x4 và x5 liên kết với nhau có giá trị trên 5. Nếu không có mối liên kết đặc biệt nào giữa các điểm, và nếu x1, x2 có giá trị <= 5, và x3, x4, x5 > 5 thì B đúng. Tuy nhiên, nếu x5 > 5 và x3, x4 <= 5 thì C đúng. Do không có thông tin hình ảnh, ta tạm chọn B với giả định nêu trên.
* Phương án A: C1 = {x1, x2, x3, x4, x5} - Phương án này gom tất cả các điểm vào một cụm duy nhất, điều này không đúng vì có thể có những điểm có giá trị lớn hơn 5.
* Phương án B: C1 = {x1, x2}; C2 = {x3, x4, x5} - Phương án này chia thành hai cụm. Nếu x1 và x2 có giá trị nhỏ hơn hoặc bằng 5 và x3, x4, x5 có giá trị lớn hơn 5 hoặc có sự liên kết với nhau mà giá trị không vượt quá 5, thì đây có thể là đáp án đúng.
* Phương án C: C1 = {x1, x2}; C2 = {x3, x4}; C4 = {x5} - Phương án này chia thành nhiều cụm nhỏ, điều này có thể xảy ra nếu các điểm không liên kết với nhau hoặc giá trị khác biệt nhiều.
* Phương án D: C1 = {x1}; C2 = {x2}; C3 = {x4}; C4 = {x4}; C5 = {x5} - Phương án này chia mỗi điểm thành một cụm riêng biệt, điều này chỉ xảy ra khi không có sự liên kết nào giữa các điểm.
Vì không có hình vẽ nên ta giả định đáp án B là đúng nếu x1 và x2 có giá trị liên kết nhỏ hơn hoặc bằng 5, trong khi x3, x4 và x5 liên kết với nhau có giá trị trên 5. Nếu không có mối liên kết đặc biệt nào giữa các điểm, và nếu x1, x2 có giá trị <= 5, và x3, x4, x5 > 5 thì B đúng. Tuy nhiên, nếu x5 > 5 và x3, x4 <= 5 thì C đúng. Do không có thông tin hình ảnh, ta tạm chọn B với giả định nêu trên.
Lời giải:
Đáp án đúng: A
Data Mining, hay còn gọi là khai phá dữ liệu, là một quy trình tìm kiếm và khám phá các mẫu thông tin ẩn, tiềm ẩn và hữu ích từ một lượng lớn dữ liệu. Các tri thức này có thể được sử dụng để dự đoán, phân loại, phân cụm và đưa ra quyết định trong nhiều lĩnh vực khác nhau. Như vậy, đáp án A mô tả chính xác nhất định nghĩa của Data Mining.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy
89 tài liệu310 lượt tải

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin
125 tài liệu441 lượt tải

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông
104 tài liệu687 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán
103 tài liệu589 lượt tải

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp
377 tài liệu1030 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
99 tài liệu1062 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng