Trong một cụm Hadoop, điều gì đúng với khối HDFS không còn khả dụng do hỏng đĩa hoặc lỗi máy?

Tiện ích nào được sử dụng để kiểm tra tình trạng của hệ thống tệp HDFS?

Lời giải:

Đáp án đúng: B

Tiện ích fsck (file system check) là công cụ được sử dụng để kiểm tra và sửa chữa các lỗi trong hệ thống tệp. Trong ngữ cảnh của HDFS (Hadoop Distributed File System), hdfs fsck được sử dụng để kiểm tra tính nhất quán và tình trạng của hệ thống tệp HDFS. Các tùy chọn khác không phải là các lệnh hoặc tiện ích hợp lệ được sử dụng để kiểm tra hệ thống tệp HDFS.

Câu 20:

Khi khách hàng giao tiếp với hệ thống tệp HDFS, nó cần giao tiếp với:

Lời giải:

Đáp án đúng: C

Trong hệ thống tệp HDFS (Hadoop Distributed File System), NameNode quản lý metadata của hệ thống tệp, bao gồm thông tin về các tệp và thư mục, cũng như vị trí của các khối dữ liệu (blocks) trên các DataNode. DataNode là nơi lưu trữ thực tế các khối dữ liệu. Khi một khách hàng muốn đọc hoặc ghi dữ liệu, nó cần phải giao tiếp với NameNode để biết vị trí của dữ liệu, sau đó giao tiếp trực tiếp với các DataNode để đọc/ghi dữ liệu đó. Do đó, khách hàng cần giao tiếp với cả NameNode và DataNode.

Câu 21:

Vai trò chính của NameNode phụ là:

Lời giải:

Đáp án đúng: D

NameNode phụ (Secondary NameNode) trong Hadoop có vai trò quan trọng trong việc bảo trì hệ thống tệp HDFS. Vai trò chính của nó là định kỳ hợp nhất hình ảnh vùng tên (namespace image) với nhật ký chỉnh sửa (edit logs) từ NameNode chính. Quá trình này giúp giảm thời gian khởi động lại của NameNode chính bằng cách giữ cho nhật ký chỉnh sửa không trở nên quá lớn. Nó cũng giúp tạo một điểm kiểm tra (checkpoint) cho siêu dữ liệu. Các lựa chọn khác không chính xác vì NameNode phụ không trực tiếp sao chép siêu dữ liệu theo thời gian thực, không liên quan đến NFS, và không trực tiếp theo dõi trạng thái hoạt động của NameNode chính (việc này thường do các cơ chế khác như ZooKeeper hoặc heartbeat đảm nhận).

Câu 22:

Theo liên kết HDFS:

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra kiến thức về kiến trúc của HDFS (Hadoop Distributed File System), đặc biệt là vai trò của NameNode và DataNode.

Phương án A không đúng vì trong kiến trúc HDFS có Federation, mỗi NameNode quản lý một NAMESPACE (một phần của hệ thống tệp tin).
Phương án B đúng vì kiến trúc HDFS Federation cho phép chia sẻ namespace trên nhiều NameNode.
Phương án C đúng vì nếu một NameNode gặp sự cố, chỉ có phần siêu dữ liệu mà nó quản lý bị mất khả năng truy cập, không ảnh hưởng đến toàn bộ hệ thống.
Phương án D đúng vì DataNode cần đăng ký với tất cả các NameNode để báo cáo về các khối dữ liệu mà nó đang lưu trữ.

Do đó, các phương án B, C, và D đều đúng, nhưng phương án A sai. Vì câu hỏi không yêu cầu chọn nhiều đáp án nên cần chọn đáp án đúng nhất dựa trên kiến thức nền tảng về HDFS. Phương án B mô tả chính xác nhất về cách NameNode hoạt động trong HDFS federation.

Câu 23:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải:

Đáp án đúng: B

Mục tiêu chính của HDFS High Availability (Tính sẵn sàng cao) là ngăn chặn NameNode chính trở thành điểm lỗi duy nhất. Nếu NameNode chính bị lỗi, hệ thống sẽ tự động chuyển sang một NameNode dự phòng, giúp giảm thiểu thời gian chết và đảm bảo tính liên tục của dịch vụ. Các tùy chọn khác cũng liên quan đến HA, nhưng tùy chọn D là mục tiêu cốt lõi.

Câu 24:

Thuộc tính được sử dụng để đặt hệ thống tệp mặc định cho Hadoop trong core-site.xml là:

Lời giải: