Trả lời:
Đáp án đúng: A
Thuật ngữ "Dữ liệu lớn" (Big Data) bắt đầu xuất hiện vào khoảng năm 1997, khi mà các nhà nghiên cứu bắt đầu nhận thấy sự gia tăng đáng kể về lượng dữ liệu được tạo ra và cần được xử lý. Do đó, đáp án chính xác là A.
Đáp án đúng: A
Câu hỏi này kiểm tra kiến thức về các công cụ hỗ trợ NoSQL. Trong số các lựa chọn được đưa ra:
Hadoop là một framework mã nguồn mở được sử dụng để lưu trữ và xử lý các tập dữ liệu lớn một cách phân tán trên các cụm máy tính. Nó bao gồm Hệ thống Tệp Phân tán Hadoop (HDFS) để lưu trữ và MapReduce để xử lý dữ liệu song song. Hadoop cũng có thể chạy trên hạ tầng Cloud Computing.
A. Đúng, Hadoop là một framework phân tán.
B. Đúng, thuật toán chính được sử dụng trong Hadoop là MapReduce.
C. Đúng, Hadoop có thể chạy trên hạ tầng Cloud Computing.
Do đó, đáp án D là đáp án đúng nhất vì nó bao gồm tất cả các khẳng định đúng về Hadoop.
Hadoop xử lý khối lượng lớn dữ liệu bằng cách phân chia dữ liệu thành các khối nhỏ hơn và phân tán chúng trên một cụm các máy tính. Mỗi máy tính trong cụm xử lý một phần của dữ liệu song song với các máy khác. Hadoop gửi mã đến dữ liệu (nguyên tắc "data locality") thay vì gửi dữ liệu đến mã, giảm thiểu việc truyền dữ liệu qua mạng và tăng tốc độ xử lý.