Sự phân chia đầu vào được sử dụng trong MapReduce cho biết:
A.
Kích thước trung bình của các khối dữ liệu được sử dụng làm đầu vào cho chương trình
B.
Chi tiết vị trí nơi bắt đầu của toàn bộ bản ghi đầu tiên trong một khối và toàn bộ bản ghi cuối cùng trong khối kết thúc
C.
Tách dữ liệu đầu vào cho chương trình MapReduce thành kích thước đã được định cấu hình trong mapred-site.xml
D.
Không có
Trả lời:
Đáp án đúng: B
Sự phân chia đầu vào (Input Split) trong MapReduce là quá trình chia dữ liệu đầu vào thành các phần nhỏ hơn để xử lý song song bởi các Mapper. Mỗi Input Split đại diện cho một phần dữ liệu sẽ được một Mapper xử lý. Thông tin quan trọng của Input Split bao gồm vị trí bắt đầu và kết thúc của dữ liệu trong file đầu vào. Điều này đảm bảo rằng mỗi Mapper chỉ xử lý một phần dữ liệu riêng biệt và không có sự trùng lặp.
Phương án A sai vì kích thước trung bình của các khối dữ liệu không phải là định nghĩa chính xác của Input Split. Input Split chứa thông tin về vị trí bắt đầu và kết thúc của dữ liệu, chứ không phải kích thước trung bình.
Phương án B đúng vì nó mô tả chính xác chức năng của Input Split: chứa thông tin chi tiết về vị trí bắt đầu của bản ghi đầu tiên và vị trí kết thúc của bản ghi cuối cùng trong một khối dữ liệu.
Phương án C sai vì việc tách dữ liệu đầu vào thành kích thước cố định được cấu hình trong `mapred-site.xml` liên quan đến việc cấu hình InputFormat, chứ không phải là định nghĩa của Input Split.
Phương án D sai vì có một đáp án đúng (phương án B).