Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5, ?). Dấu hỏi là giá trị của thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có, hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:
Trả lời:
Đáp án đúng: A
Giá trị trung bình của các thuộc tính là (6 + 2 + 5 + 7 + 5) / 5 = 5. Vậy vị trí dấu hỏi điền giá trị 5.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
FP-Tree (Frequent Pattern Tree) là một cấu trúc cây được sử dụng trong khai phá dữ liệu để lưu trữ thông tin về các tập mục phổ biến.
* a. FP-Tree là cây nhị phân: Sai. FP-Tree là cây tổng quát (general tree) chứ không phải cây nhị phân. Mỗi nút trong FP-Tree có thể có nhiều nút con, tùy thuộc vào số lượng các mục khác nhau xuất hiện sau nó trong các giao dịch.
* b. FP-Tree là cây tổng quát: Đúng. FP-Tree có thể có nhiều nhánh từ một nút, không giới hạn ở hai nhánh như cây nhị phân.
* c. Khi thêm 1 giao dịch vào FP-Tree đều phải thêm bắt đầu từ gốc: Đúng. Khi thêm một giao dịch mới vào FP-Tree, ta bắt đầu từ nút gốc và duyệt theo các mục trong giao dịch.
* d. Bảng đầu mục – Header Table dùng để lưu 3 thông tin: Tên item, Số lượng item đó xuất hiện trong CSDL giao dịch và Con trỏ dùng để trỏ đến nút cùng tên được sinh ra đầu tiên: Đúng. Bảng Header Table chứa thông tin về mỗi mục, số lần xuất hiện và con trỏ đến nút đầu tiên của mục đó trong cây.
Vậy, khẳng định sai là FP-Tree là cây nhị phân.
* a. FP-Tree là cây nhị phân: Sai. FP-Tree là cây tổng quát (general tree) chứ không phải cây nhị phân. Mỗi nút trong FP-Tree có thể có nhiều nút con, tùy thuộc vào số lượng các mục khác nhau xuất hiện sau nó trong các giao dịch.
* b. FP-Tree là cây tổng quát: Đúng. FP-Tree có thể có nhiều nhánh từ một nút, không giới hạn ở hai nhánh như cây nhị phân.
* c. Khi thêm 1 giao dịch vào FP-Tree đều phải thêm bắt đầu từ gốc: Đúng. Khi thêm một giao dịch mới vào FP-Tree, ta bắt đầu từ nút gốc và duyệt theo các mục trong giao dịch.
* d. Bảng đầu mục – Header Table dùng để lưu 3 thông tin: Tên item, Số lượng item đó xuất hiện trong CSDL giao dịch và Con trỏ dùng để trỏ đến nút cùng tên được sinh ra đầu tiên: Đúng. Bảng Header Table chứa thông tin về mỗi mục, số lần xuất hiện và con trỏ đến nút đầu tiên của mục đó trong cây.
Vậy, khẳng định sai là FP-Tree là cây nhị phân.
Lời giải:
Đáp án đúng: A
Độ đo 'gần gũi' (proximity measure) là một độ đo được sử dụng để đánh giá mức độ tương đồng hoặc không tương đồng giữa hai đối tượng, thường được biểu diễn dưới dạng các vector đặc trưng. Trong các bài toán khai thác dữ liệu và học máy, độ đo này rất quan trọng để xác định các đối tượng tương tự nhau, ví dụ như trong các thuật toán phân cụm (clustering) hay tìm kiếm láng giềng gần nhất (nearest neighbor search).
* Phương án a chính xác nhất vì nó trực tiếp định nghĩa độ đo gần gũi là một độ đo chỉ ra mức độ tương tự hoặc không tương tự giữa hai vector đặc trưng.
* Phương án b quá chung chung, vì độ đo giữa 2 phần tử bất kỳ có thể bao gồm nhiều loại độ đo khác, không nhất thiết liên quan đến độ gần gũi.
* Phương án c đề cập đến khoảng cách, là một dạng cụ thể của độ đo gần gũi (ví dụ: khoảng cách Euclidean), nhưng không bao quát hết tất cả các loại độ đo gần gũi.
* Phương án d đúng một phần, vì độ đo gần gũi thường được sử dụng trong Data Mining để phân cụm dữ liệu, nhưng không phải là định nghĩa duy nhất của nó.
* Phương án a chính xác nhất vì nó trực tiếp định nghĩa độ đo gần gũi là một độ đo chỉ ra mức độ tương tự hoặc không tương tự giữa hai vector đặc trưng.
* Phương án b quá chung chung, vì độ đo giữa 2 phần tử bất kỳ có thể bao gồm nhiều loại độ đo khác, không nhất thiết liên quan đến độ gần gũi.
* Phương án c đề cập đến khoảng cách, là một dạng cụ thể của độ đo gần gũi (ví dụ: khoảng cách Euclidean), nhưng không bao quát hết tất cả các loại độ đo gần gũi.
* Phương án d đúng một phần, vì độ đo gần gũi thường được sử dụng trong Data Mining để phân cụm dữ liệu, nhưng không phải là định nghĩa duy nhất của nó.
Lời giải:
Đáp án đúng: A
Để giải bài toán này bằng thuật toán k-means, chúng ta cần thực hiện các bước lặp: khởi tạo các tâm cụm ban đầu, gán các điểm vào cụm gần nhất, và cập nhật tâm cụm. Tuy nhiên, vì đây là một bài trắc nghiệm, chúng ta có thể đánh giá nhanh các phương án dựa trên trực giác về khoảng cách giữa các điểm.
Phương án a: C1={A, B}; C2={C, D}
- A(1, 1), B(2, 1): Hai điểm này khá gần nhau.
- C(4, 3), D(5, 4): Hai điểm này cũng khá gần nhau.
Phương án này có vẻ hợp lý.
Phương án b: C1={A, C}; C2={B, D}
- A(1, 1), C(4, 3): Hai điểm này có vẻ xa nhau hơn.
- B(2, 1), D(5, 4): Hai điểm này cũng có vẻ xa nhau hơn.
Phương án này ít hợp lý hơn.
Phương án c: C1={A, B, C}; C2={D}
- A(1, 1), B(2, 1), C(4, 3): Ba điểm này có độ phân tán lớn hơn so với cụm {A, B}.
- D(5, 4): Một cụm chỉ có một điểm, có thể không phải là kết quả tốt nhất của k-means.
Phương án này ít hợp lý.
Phương án d: C1={A, B, D}; C2={C}
- A(1, 1), B(2, 1), D(5, 4): Ba điểm này có độ phân tán lớn.
- C(4, 3): Một cụm chỉ có một điểm, tương tự như phương án c.
Phương án này ít hợp lý.
Do đó, phương án a có vẻ là phương án hợp lý nhất, vì nó nhóm các điểm gần nhau vào cùng một cụm. Thuật toán k-means sẽ cố gắng giảm thiểu tổng khoảng cách từ mỗi điểm đến tâm cụm của nó, và phương án a dường như đạt được điều này tốt hơn các phương án khác.
Vậy đáp án đúng là a.
Phương án a: C1={A, B}; C2={C, D}
- A(1, 1), B(2, 1): Hai điểm này khá gần nhau.
- C(4, 3), D(5, 4): Hai điểm này cũng khá gần nhau.
Phương án này có vẻ hợp lý.
Phương án b: C1={A, C}; C2={B, D}
- A(1, 1), C(4, 3): Hai điểm này có vẻ xa nhau hơn.
- B(2, 1), D(5, 4): Hai điểm này cũng có vẻ xa nhau hơn.
Phương án này ít hợp lý hơn.
Phương án c: C1={A, B, C}; C2={D}
- A(1, 1), B(2, 1), C(4, 3): Ba điểm này có độ phân tán lớn hơn so với cụm {A, B}.
- D(5, 4): Một cụm chỉ có một điểm, có thể không phải là kết quả tốt nhất của k-means.
Phương án này ít hợp lý.
Phương án d: C1={A, B, D}; C2={C}
- A(1, 1), B(2, 1), D(5, 4): Ba điểm này có độ phân tán lớn.
- C(4, 3): Một cụm chỉ có một điểm, tương tự như phương án c.
Phương án này ít hợp lý.
Do đó, phương án a có vẻ là phương án hợp lý nhất, vì nó nhóm các điểm gần nhau vào cùng một cụm. Thuật toán k-means sẽ cố gắng giảm thiểu tổng khoảng cách từ mỗi điểm đến tâm cụm của nó, và phương án a dường như đạt được điều này tốt hơn các phương án khác.
Vậy đáp án đúng là a.
Lời giải:
Đáp án đúng: A
Để tìm tâm của cụm C, ta cần tính vector trung bình của các điểm A(1, 1), B(2, 4), C(6, 1).
Tâm của cụm mC được tính như sau:
mC = ((xA + xB + xC) / 3 ; (yA + yB + yC) / 3)
mC = ((1 + 2 + 6) / 3 ; (1 + 4 + 1) / 3)
mC = (9/3 ; 6/3)
mC = (3 ; 2)
Vậy, tâm của cụm là (3 ; 2).
Tâm của cụm mC được tính như sau:
mC = ((xA + xB + xC) / 3 ; (yA + yB + yC) / 3)
mC = ((1 + 2 + 6) / 3 ; (1 + 4 + 1) / 3)
mC = (9/3 ; 6/3)
mC = (3 ; 2)
Vậy, tâm của cụm là (3 ; 2).
Lời giải:
Đáp án đúng: A
Thuật toán K-means là một thuật toán clustering (phân cụm) phổ biến. Các nhược điểm thường gặp của thuật toán này bao gồm:
- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.
Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.
- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.
Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng