Khi chạy trên chế độ phân phối giả lập, hệ số sao chép được đặt thành:

Trả lời:

Đáp án đúng: B

Trong chế độ phân phối giả lập (pseudo-distributed mode) của Hadoop, tất cả các tiến trình Hadoop (NameNode, DataNode, ResourceManager, NodeManager, v.v.) chạy trên một nút đơn. Vì chỉ có một DataNode, hệ số sao chép (replication factor) mặc định được đặt thành 1. Điều này có nghĩa là mỗi khối dữ liệu chỉ được lưu trữ một bản duy nhất trên nút đó. Vậy đáp án đúng là B.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 30:

Sự khác biệt giữa chế độ độc lập và giả phân phối là:

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra sự hiểu biết về sự khác biệt giữa chế độ độc lập (Standalone mode) và chế độ giả phân tán (Pseudo-Distributed mode) trong Hadoop.

Chế độ độc lập (Standalone mode): Đây là chế độ đơn giản nhất, thường được sử dụng cho mục đích gỡ lỗi hoặc phát triển. Trong chế độ này, tất cả các tiến trình Hadoop (NameNode, DataNode, ResourceManager, NodeManager) đều chạy trên cùng một máy ảo Java (JVM). Nó không yêu cầu cấu hình phức tạp và không sử dụng HDFS.

Chế độ giả phân tán (Pseudo-Distributed mode): Trong chế độ này, tất cả các tiến trình Hadoop cũng chạy trên cùng một máy, nhưng mỗi tiến trình chạy trong một JVM riêng biệt. Nó vẫn sử dụng HDFS và yêu cầu cấu hình. Chế độ này được sử dụng để mô phỏng một cụm Hadoop thực tế trên một máy duy nhất.

Phân tích các lựa chọn:

A. Đứng một mình không thể sử dụng bản đồ giảm: Sai. Chế độ độc lập vẫn có thể sử dụng MapReduce.

B. Đứng riêng có một quy trình java duy nhất chạy trong đó: Đúng. Trong chế độ độc lập, tất cả các tiến trình Hadoop chạy trong cùng một JVM.

C. Chế độ phân tán giả không sử dụng HDFS: Sai. Chế độ giả phân tán sử dụng HDFS.

D. Chế độ phân tán giả cần hai hoặc nhiều máy vật lý: Sai. Chế độ giả phân tán chạy trên một máy duy nhất.

Do đó, đáp án đúng là B.

Câu 31:

Trong Hadoop, Snappy và LZO là những ví dụ về:

Lời giải:

Đáp án đúng: B

Snappy và LZO là các thuật toán nén dữ liệu được sử dụng trong Hadoop để giảm kích thước lưu trữ và tăng tốc độ truyền dữ liệu. Do đó, đáp án đúng là B. Các lựa chọn khác không mô tả đúng chức năng của Snappy và LZO trong Hadoop:
- A: Các cơ chế vận chuyển tệp liên quan đến việc di chuyển dữ liệu giữa các DataNode, không phải nén dữ liệu.
- C: Cơ chế sao chép dữ liệu dùng để tạo bản sao dữ liệu để đảm bảo tính sẵn sàng và độ tin cậy, khác với nén dữ liệu.
- D: Cơ chế đồng bộ hóa dữ liệu đảm bảo rằng dữ liệu trên các DataNode được cập nhật và nhất quán, không liên quan trực tiếp đến nén dữ liệu.

Câu 32:

Nếu địa chỉ IP hoặc tên máy chủ của DataNode thay đổi:

Lời giải:

Đáp án đúng: B

Khi địa chỉ IP hoặc tên máy chủ của DataNode thay đổi, NameNode cần cập nhật ánh xạ (mapping) giữa tên tệp (file name) và tên khối (block name). Điều này là do NameNode lưu trữ metadata về vị trí của các khối dữ liệu, và thông tin này bao gồm địa chỉ của DataNode nơi các khối đó được lưu trữ. Nếu địa chỉ IP hoặc tên máy chủ thay đổi, NameNode cần được thông báo để cập nhật thông tin này. Nếu không, NameNode sẽ không thể tìm thấy các khối dữ liệu này, dẫn đến mất dữ liệu hoặc lỗi trong quá trình truy cập dữ liệu.

Các phương án khác không đúng vì:
- B: Sai. NameNode *cần* cập nhật ánh xạ.
- C: Sai. Dữ liệu không bị mất vĩnh viễn, chỉ là NameNode cần cập nhật thông tin.
- D: Sai. Không cần thiết phải khởi động lại NameNode; thông thường, có các cơ chế để cập nhật thông tin này một cách linh hoạt.

Câu 33:

Tín hiệu nhịp tim được gửi từ:

Lời giải:

Đáp án đúng: B

Trong Hadoop MapReduce, TaskTracker gửi tín hiệu nhịp tim (heartbeat) đến JobTracker để thông báo về trạng thái hoạt động của nó và khả năng thực hiện các tác vụ. Điều này cho phép JobTracker theo dõi tình trạng của các TaskTracker và phân phối công việc một cách hiệu quả. Do đó, đáp án đúng là B.

Câu 34:

Công nghệ nào sau đây là cơ sở dữ liệu lưu trữ tài liệu?

Lời giải:

Đáp án đúng: D

CouchDB là một hệ quản trị cơ sở dữ liệu NoSQL mã nguồn mở, hướng tài liệu (document-oriented). Nó lưu trữ dữ liệu dưới dạng các tài liệu JSON (JavaScript Object Notation), cho phép truy vấn và lập chỉ mục linh hoạt.

HBase là một cơ sở dữ liệu NoSQL, cột-định hướng (column-oriented), được xây dựng trên Hadoop, thường được sử dụng cho lưu trữ và truy cập dữ liệu lớn.

Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cho phép truy vấn và phân tích dữ liệu lớn bằng ngôn ngữ giống SQL.

Cassandra là một cơ sở dữ liệu NoSQL phân tán, cột-định hướng, được thiết kế để xử lý lượng lớn dữ liệu trên nhiều máy chủ.

Câu 35:

HBASE là gì?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 36:

Khi ghi dữ liệu vào HDFS điều gì là đúng nếu hệ số sao chép là ba? (Chọn 2 câu trả lời)

Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)

Dữ liệu được lưu trữ trên mỗi Mã dữ liệu bằng một tệp riêng biệt chứa giá trị tổng kiểm tra

Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau

Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 37:

Con quỷ (demon) nào chịu trách nhiệm sao chép dữ liệu trong Hadoop?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Để áp dụng một bộ kết hợp, một thuộc tính phải được thỏa mãn bởi các giá trị được phát ra từ bộ ánh xạ là gì?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 39:

Dữ liệu của Big Data là loại nào?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Đồ Án Tốt Nghiệp Trí Tuệ Nhân Tạo Và Học Máy

ĐĂNG KÝ GÓI THI VIP

Truy cập hơn 100K đề thi thử và chính thức các năm
2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
Tải toàn bộ tài liệu trên TaiLieu.VN
Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.

Khi chạy trên chế độ phân phối giả lập, hệ số sao chép được đặt thành:

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

Câu hỏi liên quan

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu

ĐĂNG KÝ GÓI THI VIP