Khi lưu trữ tệp Hadoop, phát biểu nào sau đây là đúng? (Chọn hai câu trả lời)
Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc
Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn
MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ
Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc
Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa
Trả lời:
Đáp án đúng: B
Câu hỏi này kiểm tra kiến thức về lưu trữ (archiving) tệp trong Hadoop, cụ thể là các đặc điểm và mục đích của việc lưu trữ tệp trong hệ thống tệp phân tán Hadoop (HDFS). Dưới đây là phân tích từng lựa chọn:
* **Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc:** Điều này không đúng. Hadoop Archives sử dụng phần mở rộng `.har`.
* **Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn:** Điều này đúng. Mục đích chính của việc lưu trữ là giảm số lượng tệp nhỏ trong HDFS, vì quá nhiều tệp nhỏ có thể gây gánh nặng cho NameNode (nút quản lý siêu dữ liệu).
* **MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ:** Điều này đúng. Khi các tệp được lưu trữ, Hadoop vẫn có thể truy cập chúng bằng cách sử dụng đường dẫn gốc của chúng.
* **Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc:** Phát biểu này sai. "Liên hợp quốc" không liên quan đến HDFS hoặc MapReduce. Các tệp được lưu trữ vẫn nằm trong HDFS.
* **Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa:** Sai. Lưu trữ là để gộp các tệp nhỏ để quản lý hiệu quả hơn, chứ không phải để lưu trữ các tệp không thể truy cập được.
Vậy, đáp án đúng là **B. 2 & 3**.