Tất cả các tệp trong một thư mục trong HDFS có thể được hợp nhất với nhau bằng cách sử dụng:

Getmerge

Putmerge

Remerge

Mergeall

Trả lời:

Đáp án đúng: A

Lệnh getmerge trong Hadoop cho phép bạn hợp nhất tất cả các tệp trong một thư mục HDFS thành một tệp duy nhất trên hệ thống tệp cục bộ. Lệnh này hữu ích khi bạn muốn thu thập dữ liệu từ nhiều tệp nhỏ trong HDFS thành một tệp lớn hơn để xử lý dễ dàng hơn. Các lựa chọn khác không phải là các lệnh hoặc khái niệm hợp lệ trong Hadoop.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 1

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 15:

Khi bạn tăng số lượng tệp được lưu trữ trong HDFS, Bộ nhớ được yêu cầu bởi NameNode:

Lời giải:

Đáp án đúng: A

Khi số lượng tệp được lưu trữ trong HDFS tăng lên, NameNode cần lưu trữ nhiều metadata hơn về các tệp này, bao gồm tên tệp, quyền, kích thước, vị trí của các khối dữ liệu,... Do đó, bộ nhớ mà NameNode yêu cầu cũng tăng lên.

Câu 16:

Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ sinh thái Hadoop?

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về các hệ thống xử lý luồng (stream processing) trong hệ sinh thái Hadoop. Trong các lựa chọn được đưa ra:

* A. Solr: Là một nền tảng tìm kiếm, không phải hệ thống xử lý luồng.
* B. Tez: Là một framework thực thi cho Hadoop, cải thiện hiệu suất của các ứng dụng MapReduce. Nó không phải là một hệ thống xử lý luồng chuyên dụng, mà là một nền tảng để xây dựng các ứng dụng xử lý dữ liệu hàng loạt và tương tác.
* C. Spark: Là một nền tảng xử lý dữ liệu mạnh mẽ, cung cấp API cho cả xử lý hàng loạt và xử lý luồng (Spark Streaming hoặc Structured Streaming). Spark Streaming cho phép xử lý dữ liệu từ các luồng thời gian thực.
* D. Hive: Là một hệ thống data warehouse cho phép truy vấn và phân tích dữ liệu lớn được lưu trữ trong Hadoop. Nó không phải là một hệ thống xử lý luồng.

Do đó, đáp án chính xác nhất là Spark, vì nó cung cấp hệ thống xử lý luồng trong hệ sinh thái Hadoop.

Câu 17:

Khi khách hàng giao tiếp với hệ thống tệp HDFS, nó cần giao tiếp với:

Lời giải:

Đáp án đúng: C

Trong hệ thống tệp HDFS (Hadoop Distributed File System), NameNode quản lý siêu dữ liệu (metadata) của hệ thống tệp, bao gồm cấu trúc thư mục, thông tin về các khối dữ liệu và vị trí của chúng. DataNode lưu trữ các khối dữ liệu thực tế. Khi một khách hàng muốn đọc hoặc ghi dữ liệu vào HDFS, trước tiên nó phải giao tiếp với NameNode để lấy thông tin về vị trí của các khối dữ liệu cần thiết. Sau đó, nó sẽ giao tiếp trực tiếp với các DataNode chứa các khối dữ liệu đó để thực hiện các thao tác đọc/ghi. Do đó, khách hàng cần giao tiếp với cả NameNode và DataNode.

Câu 18:

Vai trò chính của NameNode phụ là:

Lời giải:

Đáp án đúng: D

NameNode phụ (Secondary NameNode) trong Hadoop có vai trò quan trọng trong việc quản lý siêu dữ liệu của hệ thống tệp. Chức năng chính của nó là định kỳ hợp nhất hình ảnh vùng tên (Namespace image) với nhật ký chỉnh sửa (Edit logs) từ NameNode chính. Quá trình này tạo ra một điểm kiểm tra (checkpoint) mới, giúp giảm thời gian khởi động lại NameNode chính trong trường hợp khẩn cấp và ngăn chặn nhật ký chỉnh sửa trở nên quá lớn, làm chậm quá trình phục hồi. Các lựa chọn khác không mô tả đúng vai trò của NameNode phụ:

* A. Sao chép siêu dữ liệu hệ thống tệp từ NameNode chính: Mặc dù NameNode phụ sao chép dữ liệu từ NameNode chính để thực hiện việc hợp nhất, nhưng đây không phải là vai trò *chính* của nó.
* B. Sao chép siêu dữ liệu hệ thống tệp từ NFS được lưu trữ bởi NameNode chính: NameNode không trực tiếp lưu trữ siêu dữ liệu trên NFS. Siêu dữ liệu được lưu trữ trên đĩa cục bộ và trong bộ nhớ.
* C. Theo dõi xem NameNode chính có đang hoạt động hay không: Việc theo dõi trạng thái của NameNode chính thường được thực hiện bởi các cơ chế khác, chẳng hạn như ZooKeeper trong cấu hình HA (High Availability).

Câu 19:

Đối với các tệp HDFS được truy cập thường xuyên, các khối được lưu vào bộ nhớ đệm:

Lời giải:

Đáp án đúng: A

Các khối dữ liệu HDFS được truy cập thường xuyên sẽ được lưu trữ trong bộ nhớ của DataNode (đáp án A). DataNode là nơi lưu trữ các khối dữ liệu thực tế trong hệ thống HDFS. Việc lưu trữ các khối thường xuyên truy cập trong bộ nhớ DataNode giúp tăng tốc độ truy cập dữ liệu, giảm độ trễ và cải thiện hiệu suất tổng thể của hệ thống.

NameNode (đáp án B) quản lý metadata của hệ thống tệp tin HDFS, bao gồm thông tin về các tệp tin, thư mục, quyền truy cập và vị trí của các khối dữ liệu. NameNode không lưu trữ dữ liệu thực tế.

Đáp án C không chính xác vì chỉ có DataNode lưu trữ dữ liệu đã được truy cập thường xuyên.

Đáp án D không chính xác vì DataNode sẽ lưu trữ thay vì ứng dụng khách.

Câu 20:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải: