Trong một cụm Hadoop, điều gì đúng với khối HDFS không còn khả dụng do hỏng đĩa hoặc lỗi máy?
Đáp án đúng: B
Trong Hadoop, dữ liệu được lưu trữ trong các khối (blocks) và được sao chép (replicated) trên nhiều DataNode để đảm bảo tính sẵn sàng và độ tin cậy. Khi một khối HDFS trở nên không khả dụng do hỏng đĩa hoặc lỗi máy, nó không bị mất vĩnh viễn. Thay vào đó, hệ thống sẽ tự động sao chép khối đó từ các bản sao khác (nếu có) sang một DataNode khác còn hoạt động. NameNode đóng vai trò quản lý metadata và biết về vị trí của tất cả các khối dữ liệu. Khi một khối bị hỏng, NameNode sẽ kích hoạt quá trình sao chép để duy trì số lượng bản sao mong muốn.
Phương án A không đúng vì dữ liệu không bị mất vĩnh viễn, nó được sao chép.
Phương án B đúng vì hệ thống sẽ sao chép khối bị hỏng sang các máy khác để đảm bảo tính dự phòng.
Phương án C không đúng vì NameNode sẽ không cho phép client tiếp tục cố gắng đọc khối đã hỏng; nó sẽ chuyển hướng client đến một bản sao khác.
Phương án D không đúng vì MapReduce không bỏ qua khối bị hỏng. Nếu một khối bị lỗi trong quá trình xử lý MapReduce, tác vụ sẽ thất bại và có thể được thử lại trên một bản sao khác của khối đó.