Cho cụm C gồm các điểm A(1, 1), B(2, 1), C(3,1). Giả sử đại diện của cụm là một điểm (vector trung bình). Vetor trung bình của cụm là:
Trả lời:
Đáp án đúng: A
Điểm đại diện (vector trung bình) của một cụm điểm được tính bằng cách lấy trung bình cộng của các tọa độ tương ứng của các điểm trong cụm.
Trong trường hợp này, cụm C gồm các điểm A(1, 1), B(2, 1), C(3, 1).
Để tìm vector trung bình mC, ta tính như sau:
* Tọa độ x của mC = (1 + 2 + 3) / 3 = 6 / 3 = 2
* Tọa độ y của mC = (1 + 1 + 1) / 3 = 3 / 3 = 1
Vậy, mC = (2; 1).
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
K-Means là thuật toán phân cụm dựa trên khoảng cách, sử dụng khoảng cách Euclidean để đo lường sự tương đồng giữa các điểm dữ liệu và các tâm cụm. Do đó, K-Means hoạt động tốt nhất với các cụm có hình dạng lồi, đặc biệt là hình cầu, vì nó giả định rằng các cụm có dạng isotropic (đẳng hướng) và có phương sai bằng nhau.
Các lựa chọn khác không phù hợp vì:
- b. Cụm dài và mảnh: K-Means có thể gặp khó khăn với các cụm có hình dạng kéo dài hoặc không đều.
- c. Các cụm có các điểm phân bố ngẫu nhiên: Nếu dữ liệu phân bố ngẫu nhiên, K-Means có thể tạo ra các cụm không có ý nghĩa.
- d. Hình dạng bất kỳ: K-Means không thể xử lý tốt các cụm có hình dạng phức tạp hoặc không lồi.
Các lựa chọn khác không phù hợp vì:
- b. Cụm dài và mảnh: K-Means có thể gặp khó khăn với các cụm có hình dạng kéo dài hoặc không đều.
- c. Các cụm có các điểm phân bố ngẫu nhiên: Nếu dữ liệu phân bố ngẫu nhiên, K-Means có thể tạo ra các cụm không có ý nghĩa.
- d. Hình dạng bất kỳ: K-Means không thể xử lý tốt các cụm có hình dạng phức tạp hoặc không lồi.
Lời giải:
Đáp án đúng: A
Phương án a sai. Thuật toán phân cụm phân cấp (Hierarchical Clustering) không phụ thuộc vào trình tự đưa các phần tử vào phân cụm. Kết quả của thuật toán phân cụm phân cấp phụ thuộc vào ma trận khoảng cách (hoặc độ tương tự) giữa các phần tử và phương pháp liên kết (linkage method) được sử dụng (ví dụ: single linkage, complete linkage, average linkage). Các phương án còn lại đều đúng.
- Phương án b đúng. Việc cắt sơ đồ cây (dendrogram) tại một ngưỡng nhất định sẽ tạo ra các cụm.
- Phương án c đúng. Single Linkage và Complete Linkage là hai phương pháp liên kết phổ biến trong thuật toán phân cụm phân cấp.
- Phương án d đúng. Kết quả phân cụm chịu ảnh hưởng lớn từ việc lựa chọn đặc trưng, độ đo khoảng cách, đại diện cụm và thuật toán phân cụm.
- Phương án b đúng. Việc cắt sơ đồ cây (dendrogram) tại một ngưỡng nhất định sẽ tạo ra các cụm.
- Phương án c đúng. Single Linkage và Complete Linkage là hai phương pháp liên kết phổ biến trong thuật toán phân cụm phân cấp.
- Phương án d đúng. Kết quả phân cụm chịu ảnh hưởng lớn từ việc lựa chọn đặc trưng, độ đo khoảng cách, đại diện cụm và thuật toán phân cụm.
Lời giải:
Đáp án đúng: A
Data Integration (Tích hợp dữ liệu) là quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau thành một dạng thống nhất, cho phép người dùng hoặc ứng dụng truy cập và sử dụng dữ liệu này một cách hiệu quả.
* Phương án a: *"Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau"* - Đây là định nghĩa chính xác nhất về Data Integration, vì nó bao hàm việc thu thập và hợp nhất dữ liệu từ nhiều nguồn. Do đó, đây là đáp án đúng.
* Phương án b: *"Tích hợp thông tin khách hàng phục vụ quá trình Data Mining"* - Mặc dù tích hợp thông tin khách hàng có thể là một ứng dụng của Data Integration, nhưng nó không phải là định nghĩa bao quát cho toàn bộ quá trình.
* Phương án c: *"Phân chia dữ liệu phục vụ quá trình Data Mining"* - Trái ngược với Data Integration, phương án này mô tả việc phân chia dữ liệu, không phải tích hợp.
* Phương án d: *"Là bước thực hiện sau khi đã tìm kiếm tri thức mới từ dữ liệu"* - Data Integration thường được thực hiện trước khi Data Mining để đảm bảo dữ liệu được thu thập và chuẩn hóa.
* Phương án a: *"Cách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau"* - Đây là định nghĩa chính xác nhất về Data Integration, vì nó bao hàm việc thu thập và hợp nhất dữ liệu từ nhiều nguồn. Do đó, đây là đáp án đúng.
* Phương án b: *"Tích hợp thông tin khách hàng phục vụ quá trình Data Mining"* - Mặc dù tích hợp thông tin khách hàng có thể là một ứng dụng của Data Integration, nhưng nó không phải là định nghĩa bao quát cho toàn bộ quá trình.
* Phương án c: *"Phân chia dữ liệu phục vụ quá trình Data Mining"* - Trái ngược với Data Integration, phương án này mô tả việc phân chia dữ liệu, không phải tích hợp.
* Phương án d: *"Là bước thực hiện sau khi đã tìm kiếm tri thức mới từ dữ liệu"* - Data Integration thường được thực hiện trước khi Data Mining để đảm bảo dữ liệu được thu thập và chuẩn hóa.
Lời giải:
Đáp án đúng: A
Câu hỏi yêu cầu tìm phát biểu sai về tiền xử lý dữ liệu.
* a. Dữ liệu sau khi Tiền xử lí sẽ thành tri thức mới: Đây là phát biểu sai. Tiền xử lý dữ liệu là bước chuẩn bị dữ liệu, giúp dữ liệu sạch và phù hợp hơn cho các bước phân tích tiếp theo. Tri thức mới được tạo ra từ quá trình khai phá dữ liệu (data mining), sử dụng dữ liệu đã được tiền xử lý.
* b. Không có dữ liệu tốt, không thể có kết quả khai phá tốt: Đây là phát biểu đúng. Chất lượng dữ liệu đầu vào ảnh hưởng trực tiếp đến chất lượng kết quả khai phá.
* c. Phân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon: Đây là phát biểu đúng. Bill Inmon là một trong những người tiên phong trong lĩnh vực kho dữ liệu, và phát biểu này phản ánh đúng vai trò quan trọng của việc trích chọn, làm sạch và chuyển đổi dữ liệu trong quá trình xây dựng kho dữ liệu.
* d. Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạch: Đây là phát biểu đúng. Chất lượng dữ liệu được đánh giá dựa trên tính phù hợp của nó đối với mục đích sử dụng.
Vậy, đáp án sai là phương án a.
* a. Dữ liệu sau khi Tiền xử lí sẽ thành tri thức mới: Đây là phát biểu sai. Tiền xử lý dữ liệu là bước chuẩn bị dữ liệu, giúp dữ liệu sạch và phù hợp hơn cho các bước phân tích tiếp theo. Tri thức mới được tạo ra từ quá trình khai phá dữ liệu (data mining), sử dụng dữ liệu đã được tiền xử lý.
* b. Không có dữ liệu tốt, không thể có kết quả khai phá tốt: Đây là phát biểu đúng. Chất lượng dữ liệu đầu vào ảnh hưởng trực tiếp đến chất lượng kết quả khai phá.
* c. Phân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon: Đây là phát biểu đúng. Bill Inmon là một trong những người tiên phong trong lĩnh vực kho dữ liệu, và phát biểu này phản ánh đúng vai trò quan trọng của việc trích chọn, làm sạch và chuyển đổi dữ liệu trong quá trình xây dựng kho dữ liệu.
* d. Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạch: Đây là phát biểu đúng. Chất lượng dữ liệu được đánh giá dựa trên tính phù hợp của nó đối với mục đích sử dụng.
Vậy, đáp án sai là phương án a.
Lời giải:
Đáp án đúng: A
Phương pháp xếp thùng (Binning) là một kỹ thuật rời rạc hóa dữ liệu. Hai phương pháp chính trong xếp thùng là:
* Phân hoạch cân bằng bề rộng (Equal-width binning): Chia khoảng giá trị của dữ liệu thành các khoảng (thùng) có độ rộng bằng nhau.
* Phân hoạch cân bằng theo chiều sâu (Equal-depth binning): Chia dữ liệu thành các thùng sao cho mỗi thùng chứa số lượng bản ghi gần bằng nhau.
Các phương pháp làm trơn (smoothing) thường được áp dụng sau khi dữ liệu đã được chia vào các thùng. Các phương pháp làm trơn phổ biến bao gồm:
* Làm trơn theo giá trị trung bình (Smoothing by mean): Thay thế mỗi giá trị trong thùng bằng giá trị trung bình của thùng đó.
* Làm trơn theo biên (Smoothing by boundaries): Thay thế mỗi giá trị trong thùng bằng giá trị biên gần nhất (giá trị lớn nhất hoặc nhỏ nhất) của thùng đó.
Như vậy, đáp án a là chính xác nhất vì nó bao gồm hai phương pháp phân hoạch cơ bản của xếp thùng.
Các đáp án còn lại không hoàn toàn chính xác vì:
* Đáp án b chỉ đề cập đến một phương pháp phân hoạch (theo chiều sâu) và một phương pháp làm trơn (theo giá trị nhỏ nhất).
* Đáp án c chỉ đề cập đến các phương pháp làm trơn.
* Đáp án d cũng chỉ đề cập đến các phương pháp làm trơn.
* Phân hoạch cân bằng bề rộng (Equal-width binning): Chia khoảng giá trị của dữ liệu thành các khoảng (thùng) có độ rộng bằng nhau.
* Phân hoạch cân bằng theo chiều sâu (Equal-depth binning): Chia dữ liệu thành các thùng sao cho mỗi thùng chứa số lượng bản ghi gần bằng nhau.
Các phương pháp làm trơn (smoothing) thường được áp dụng sau khi dữ liệu đã được chia vào các thùng. Các phương pháp làm trơn phổ biến bao gồm:
* Làm trơn theo giá trị trung bình (Smoothing by mean): Thay thế mỗi giá trị trong thùng bằng giá trị trung bình của thùng đó.
* Làm trơn theo biên (Smoothing by boundaries): Thay thế mỗi giá trị trong thùng bằng giá trị biên gần nhất (giá trị lớn nhất hoặc nhỏ nhất) của thùng đó.
Như vậy, đáp án a là chính xác nhất vì nó bao gồm hai phương pháp phân hoạch cơ bản của xếp thùng.
Các đáp án còn lại không hoàn toàn chính xác vì:
* Đáp án b chỉ đề cập đến một phương pháp phân hoạch (theo chiều sâu) và một phương pháp làm trơn (theo giá trị nhỏ nhất).
* Đáp án c chỉ đề cập đến các phương pháp làm trơn.
* Đáp án d cũng chỉ đề cập đến các phương pháp làm trơn.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng