Cho cụm C gồm các điểm A(1, 1), B(2, 4), C(6,1). Giả sử tâm của cụm là vector trung bình. Tâm của cụm là:
Trả lời:
Đáp án đúng: A
Để tìm tâm của cụm C, ta cần tính vector trung bình của các điểm A(1, 1), B(2, 4), C(6, 1).
Tâm của cụm mC được tính như sau:
mC = ((xA + xB + xC) / 3 ; (yA + yB + yC) / 3)
mC = ((1 + 2 + 6) / 3 ; (1 + 4 + 1) / 3)
mC = (9/3 ; 6/3)
mC = (3 ; 2)
Vậy, tâm của cụm là (3 ; 2).
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Thuật toán K-means là một thuật toán clustering (phân cụm) phổ biến. Các nhược điểm thường gặp của thuật toán này bao gồm:
- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.
Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.
- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.
Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.
Lời giải:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm lặp đi lặp lại nhằm chia dữ liệu thành k cụm, trong đó mỗi điểm dữ liệu thuộc về cụm có khoảng cách gần nhất đến tâm của cụm đó. Quá trình lặp này bao gồm hai bước chính: gán các điểm dữ liệu vào cụm gần nhất và cập nhật tâm cụm. Thuật toán dừng lại khi việc gán các điểm dữ liệu vào các cụm không còn thay đổi nữa, tức là không thể gán (hoặc gán lại) một điểm nào vào một cụm khác mà làm giảm tổng khoảng cách từ các điểm đến tâm cụm tương ứng của chúng. Các đáp án còn lại không phải là điều kiện dừng của thuật toán k-means:
- Số cụm sinh ra là k: Đây là một tham số đầu vào của thuật toán, không phải điều kiện dừng.
- Tùy theo yêu cầu của người dùng: Mặc dù người dùng có thể đặt số lần lặp tối đa, nhưng điều kiện dừng chính vẫn là sự hội tụ của các cụm.
- Khi tất cả các phần tử đã được gán vào k cụm: Điều này luôn đúng trong quá trình thuật toán chạy, không phải là điều kiện để thuật toán dừng lại.
- Số cụm sinh ra là k: Đây là một tham số đầu vào của thuật toán, không phải điều kiện dừng.
- Tùy theo yêu cầu của người dùng: Mặc dù người dùng có thể đặt số lần lặp tối đa, nhưng điều kiện dừng chính vẫn là sự hội tụ của các cụm.
- Khi tất cả các phần tử đã được gán vào k cụm: Điều này luôn đúng trong quá trình thuật toán chạy, không phải là điều kiện để thuật toán dừng lại.
Lời giải:
Đáp án đúng: A
Quá trình phân cụm phân cấp (hierarchical clustering) tạo ra một cấu trúc cây phân cấp, trong đó mỗi nút lá đại diện cho một điểm dữ liệu và các nút cha đại diện cho các cụm được hình thành bằng cách hợp nhất các cụm con. Cây này biểu diễn quá trình gom cụm theo từng bước, từ các điểm dữ liệu riêng lẻ đến một cụm duy nhất chứa tất cả các điểm. Do đó, kết quả của quá trình phân cụm phân cấp là một cây nhị phân (hoặc cây phân cấp) biểu diễn quá trình gom cụm. Các lựa chọn khác không mô tả đầy đủ hoặc chính xác kết quả của thuật toán phân cụm phân cấp:
- a. Một sơ đồ ngưỡng tương tự (hoặc không tương tự): Sơ đồ này có thể được sử dụng để xác định khi nào nên dừng quá trình gom cụm, nhưng nó không phải là kết quả chính của thuật toán.
- b. Một danh sách các cụm: Quá trình phân cụm phân cấp có thể tạo ra một danh sách các cụm tại một ngưỡng cụ thể, nhưng kết quả cốt lõi là cây phân cấp.
- d. k cụm được sinh ra, với k cho trước: Đây là kết quả của các thuật toán phân cụm khác, chẳng hạn như k-means, chứ không phải phân cụm phân cấp.
- a. Một sơ đồ ngưỡng tương tự (hoặc không tương tự): Sơ đồ này có thể được sử dụng để xác định khi nào nên dừng quá trình gom cụm, nhưng nó không phải là kết quả chính của thuật toán.
- b. Một danh sách các cụm: Quá trình phân cụm phân cấp có thể tạo ra một danh sách các cụm tại một ngưỡng cụ thể, nhưng kết quả cốt lõi là cây phân cấp.
- d. k cụm được sinh ra, với k cho trước: Đây là kết quả của các thuật toán phân cụm khác, chẳng hạn như k-means, chứ không phải phân cụm phân cấp.
Lời giải:
Đáp án đúng: A
Tiền xử lý dữ liệu (Data Preprocessing) là một bước quan trọng trong khai phá dữ liệu và học máy. Nó bao gồm các kỹ thuật để làm sạch, chuyển đổi và giảm dữ liệu để cải thiện chất lượng và hiệu suất của các mô hình học máy. Các bài toán chính bao gồm:
* Làm sạch dữ liệu (Data Cleaning): Xử lý các giá trị thiếu, loại bỏ nhiễu, sửa các giá trị không nhất quán.
* Tích hợp dữ liệu (Data Integration): Kết hợp dữ liệu từ nhiều nguồn khác nhau.
* Chuyển dạng dữ liệu (Data Transformation): Chuẩn hóa dữ liệu, rời rạc hóa dữ liệu.
* Rút gọn dữ liệu (Data Reduction): Giảm kích thước dữ liệu bằng cách loại bỏ các thuộc tính không liên quan hoặc sử dụng các kỹ thuật tổng hợp.
* Rời rạc hóa dữ liệu (Data Discretization): Chuyển đổi dữ liệu số thành dữ liệu rời rạc (ví dụ: chia khoảng giá trị).
Do đó, đáp án a là đáp án chính xác nhất.
* Làm sạch dữ liệu (Data Cleaning): Xử lý các giá trị thiếu, loại bỏ nhiễu, sửa các giá trị không nhất quán.
* Tích hợp dữ liệu (Data Integration): Kết hợp dữ liệu từ nhiều nguồn khác nhau.
* Chuyển dạng dữ liệu (Data Transformation): Chuẩn hóa dữ liệu, rời rạc hóa dữ liệu.
* Rút gọn dữ liệu (Data Reduction): Giảm kích thước dữ liệu bằng cách loại bỏ các thuộc tính không liên quan hoặc sử dụng các kỹ thuật tổng hợp.
* Rời rạc hóa dữ liệu (Data Discretization): Chuyển đổi dữ liệu số thành dữ liệu rời rạc (ví dụ: chia khoảng giá trị).
Do đó, đáp án a là đáp án chính xác nhất.
Lời giải:
Đáp án đúng: A
Để giải quyết bài toán này, ta cần thực hiện các bước sau:
1. Xác định kích thước các thùng: Vì có 12 giá trị và chia thành 3 thùng, mỗi thùng sẽ có 12/3 = 4 giá trị.
2. Phân chia dữ liệu vào các thùng:
- Thùng 1: 4, 8, 9, 15
- Thùng 2: 21, 21, 24, 25
- Thùng 3: 26, 28, 29, 34
3. Làm trơn theo biên (smoothing by bin boundaries): Giá trị trong mỗi thùng sẽ được thay thế bằng giá trị biên gần nhất của thùng đó.
- Thùng 1:
- 4 giữ nguyên.
- 8 gần 4 hơn 15, nên thay bằng 4.
- 9 gần 15 hơn 4, nên thay bằng 15.
- 15 giữ nguyên.
=> Thùng 1 sau khi làm trơn: 4, 4, 15, 15
- Thùng 2:
- 21 giữ nguyên.
- 21 giữ nguyên.
- 24 gần 21 hơn 25, nên thay bằng 21.
- 25 giữ nguyên.
=> Thùng 2 sau khi làm trơn: 21, 21, 21, 25.
- Thùng 3:
- 26 giữ nguyên.
- 28 gần 26 hơn 34, nên thay bằng 26.
- 29 gần 26 hơn 34, nên thay bằng 26.
- 34 giữ nguyên.
=> Thùng 3 sau khi làm trơn: 26, 26, 26, 34
Như vậy, đáp án đúng phải là: Bin 1: 4, 4, 15, 15; Bin 2: 21, 21, 21, 25; Bin 3: 26, 26, 26, 34.
Tuy nhiên, không có đáp án nào hoàn toàn trùng khớp với kết quả này. Đáp án gần đúng nhất là a. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34, mặc dù thùng 1 và thùng 2 chưa chính xác hoàn toàn sau khi làm trơn theo biên.
1. Xác định kích thước các thùng: Vì có 12 giá trị và chia thành 3 thùng, mỗi thùng sẽ có 12/3 = 4 giá trị.
2. Phân chia dữ liệu vào các thùng:
- Thùng 1: 4, 8, 9, 15
- Thùng 2: 21, 21, 24, 25
- Thùng 3: 26, 28, 29, 34
3. Làm trơn theo biên (smoothing by bin boundaries): Giá trị trong mỗi thùng sẽ được thay thế bằng giá trị biên gần nhất của thùng đó.
- Thùng 1:
- 4 giữ nguyên.
- 8 gần 4 hơn 15, nên thay bằng 4.
- 9 gần 15 hơn 4, nên thay bằng 15.
- 15 giữ nguyên.
=> Thùng 1 sau khi làm trơn: 4, 4, 15, 15
- Thùng 2:
- 21 giữ nguyên.
- 21 giữ nguyên.
- 24 gần 21 hơn 25, nên thay bằng 21.
- 25 giữ nguyên.
=> Thùng 2 sau khi làm trơn: 21, 21, 21, 25.
- Thùng 3:
- 26 giữ nguyên.
- 28 gần 26 hơn 34, nên thay bằng 26.
- 29 gần 26 hơn 34, nên thay bằng 26.
- 34 giữ nguyên.
=> Thùng 3 sau khi làm trơn: 26, 26, 26, 34
Như vậy, đáp án đúng phải là: Bin 1: 4, 4, 15, 15; Bin 2: 21, 21, 21, 25; Bin 3: 26, 26, 26, 34.
Tuy nhiên, không có đáp án nào hoàn toàn trùng khớp với kết quả này. Đáp án gần đúng nhất là a. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34, mặc dù thùng 1 và thùng 2 chưa chính xác hoàn toàn sau khi làm trơn theo biên.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng