Sự phân chia đầu vào được sử dụng trong MapReduce cho biết
A.
Kích thước trung bình của các khối dữ liệu được sử dụng làm đầu vào cho chương trình
B.
Chi tiết vị trí nơi bắt đầu của toàn bộ bản ghi đầu tiên trong một khối và toàn bộ bản ghi cuối cùng trong khối kết thúc
C.
Tách dữ liệu đầu vào cho chương trình MapReduce thành kích thước đã được định cấu hình trong mapred-site.xml
D.
Không có
Trả lời:
Đáp án đúng: B
Sự phân chia đầu vào (Input Split) trong MapReduce có vai trò quan trọng trong việc xác định cách dữ liệu đầu vào được chia nhỏ để xử lý song song. Cụ thể, nó đảm bảo rằng mỗi mapper sẽ nhận được một phần dữ liệu hợp lý để xử lý. Phương án C mô tả chính xác điều này: dữ liệu đầu vào được chia thành các phần có kích thước được cấu hình trước (thường được thiết lập trong `mapred-site.xml` hoặc các cấu hình tương tự). Điều này giúp đảm bảo tính song song và hiệu quả trong quá trình xử lý. Các phương án khác không mô tả chính xác mục đích và chức năng của Input Split.
Phương án A không đúng vì Input Split không chỉ đơn thuần là kích thước trung bình của các khối dữ liệu. Nó còn bao gồm thông tin để truy cập dữ liệu.
Phương án B không đúng vì nó mô tả chi tiết quá trình phân tích bản ghi, nhưng không phải là mục đích chính của Input Split.
Phương án D hiển nhiên là không đúng vì Input Split có vai trò quan trọng trong MapReduce.