Khi ghi dữ liệu vào HDFS, điều gì là đúng nếu hệ số nhân bản là ba? (Chọn 2 câu trả lời)
Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)
Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum
Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau
Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra
Đáp án đúng: A
Câu hỏi liên quan đến hành vi ghi dữ liệu trong HDFS (Hadoop Distributed File System) với hệ số nhân bản (replication factor) là 3. Điều này có nghĩa là mỗi khối dữ liệu sẽ có 3 bản sao được lưu trữ trên các DataNode khác nhau.
Phương án 1: Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)
Đây là một đặc điểm quan trọng của HDFS khi cấu hình Rack Awareness. Mục tiêu là tăng tính sẵn sàng và độ tin cậy của dữ liệu. Bằng cách lưu trữ các bản sao trên các giá đỡ (rack) khác nhau, HDFS đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có thể truy cập được từ các giá đỡ khác. Điều này làm cho phương án 1 đúng.
Phương án 2: Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum
Mỗi khối dữ liệu trên DataNode sẽ được lưu trữ trong hai file: một file chứa data, và một file chứa metadata, trong đó có checksum. Checksum này được dùng để đảm bảo tính toàn vẹn của dữ liệu. Do đó, dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum là đúng.
Phương án 3: Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau
Đây là bản chất của việc nhân bản trong HDFS. Với hệ số nhân bản là 3, mỗi khối dữ liệu sẽ được sao chép và lưu trữ trên 3 DataNodes khác nhau. Điều này đảm bảo tính dự phòng và khả năng chịu lỗi. Do đó, phương án 3 đúng.
Phương án 4: Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra
Trong HDFS, client (khách hàng) chỉ nhận được thông báo thành công khi dữ liệu đã được ghi thành công vào *tất cả* các bản sao (trong trường hợp này là 3 bản sao) và checksum đã được xác minh. Việc ghi thành công chỉ một bản sao là không đủ để trả lại thành công cho client. Do đó, phương án 4 sai.
Kết luận:
Vậy, hai câu trả lời đúng là phương án 1 và phương án 3.