Tín hiệu nhịp tim được gửi từ:

JobTracker thành TaskTracker

TaskTracker to Job tracker

Trình theo dõi công việc đến NameNode

Trình theo dõi tác vụ đến NameNode

Trả lời:

Đáp án đúng: B

Trong Hadoop MapReduce, TaskTracker gửi tín hiệu nhịp tim (heartbeat) đến JobTracker để thông báo về trạng thái hoạt động của nó và khả năng thực hiện các tác vụ. Điều này cho phép JobTracker theo dõi tình trạng của các TaskTracker và phân phối công việc một cách hiệu quả. Do đó, đáp án đúng là B.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 34:

Công nghệ nào sau đây là cơ sở dữ liệu lưu trữ tài liệu?

Lời giải:

Đáp án đúng: D

CouchDB là một hệ quản trị cơ sở dữ liệu NoSQL mã nguồn mở, hướng tài liệu (document-oriented). Nó lưu trữ dữ liệu dưới dạng các tài liệu JSON (JavaScript Object Notation), cho phép truy vấn và lập chỉ mục linh hoạt.

HBase là một cơ sở dữ liệu NoSQL, cột-định hướng (column-oriented), được xây dựng trên Hadoop, thường được sử dụng cho lưu trữ và truy cập dữ liệu lớn.

Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cho phép truy vấn và phân tích dữ liệu lớn bằng ngôn ngữ giống SQL.

Cassandra là một cơ sở dữ liệu NoSQL phân tán, cột-định hướng, được thiết kế để xử lý lượng lớn dữ liệu trên nhiều máy chủ.

Câu 35:

HBASE là gì?

Lời giải:

Đáp án đúng: B

HBase là một cơ sở dữ liệu NoSQL, mã nguồn mở, phân tán, có khả năng mở rộng và chịu lỗi. Nó được xây dựng trên Hadoop Distributed File System (HDFS) và cung cấp một cách để lưu trữ và truy cập dữ liệu lớn một cách nhanh chóng. HBase được thiết kế để xử lý dữ liệu lớn và cung cấp khả năng truy cập ngẫu nhiên, thời gian thực vào dữ liệu.

Phân tích các đáp án:

Đáp án A: Sai. HBase không chỉ là một bộ Java API.
Đáp án B: Đúng. HBase là một phần của dự án Apache Hadoop, cung cấp giao diện để quét một lượng lớn dữ liệu sử dụng cơ sở hạ tầng Hadoop. Nó cho phép truy cập nhanh vào dữ liệu trong Hadoop.
Đáp án C: Đúng. HBase hoạt động như một giao diện cơ sở dữ liệu cho dữ liệu trên cụm Hadoop.
Đáp án D: Sai. HBase không cung cấp giao diện giống SQL để xử lý dữ liệu. Thay vào đó, nó sử dụng API riêng để truy cập và thao tác dữ liệu.

Vì cả B và C đều đúng, nhưng C chính xác hơn khi mô tả bản chất của HBase như một "cơ sở dữ liệu" giao tiếp với dữ liệu cụm Hadoop.

Câu 36:

Khi ghi dữ liệu vào HDFS điều gì là đúng nếu hệ số sao chép là ba? (Chọn 2 câu trả lời)

Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)

Dữ liệu được lưu trữ trên mỗi Mã dữ liệu bằng một tệp riêng biệt chứa giá trị tổng kiểm tra

Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau

Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về cơ chế ghi dữ liệu vào HDFS với hệ số sao chép (replication factor). Cụ thể:

* Lựa chọn 1: "Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)" - Đúng. Trong môi trường Hadoop có nhiều rack (giá đỡ), HDFS cố gắng phân phối các bản sao dữ liệu trên các rack khác nhau để tăng khả năng chịu lỗi. Nếu hệ số sao chép là 3, HDFS sẽ cố gắng lưu trữ mỗi bản sao trên một rack khác nhau. Điều này giúp hệ thống vẫn hoạt động nếu một rack bị lỗi.

* Lựa chọn 2: "Dữ liệu được lưu trữ trên mỗi Mã dữ liệu bằng một tệp riêng biệt chứa giá trị tổng kiểm tra" - Đúng. HDFS lưu trữ dữ liệu và metadata (ví dụ như checksum) riêng biệt. Checksum được sử dụng để đảm bảo tính toàn vẹn dữ liệu.

* Lựa chọn 3: "Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau" - Đúng. Với hệ số sao chép là 3, mỗi khối dữ liệu sẽ có 3 bản sao, và mỗi bản sao được lưu trữ trên một DataNode khác nhau. Đây là cách HDFS đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu.

* Lựa chọn 4: "Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra" - Sai. Client chỉ nhận được thông báo thành công sau khi tất cả các bản sao (dựa trên hệ số sao chép) của một khối dữ liệu đã được ghi thành công và kiểm tra checksum. Việc trả về thành công chỉ sau khi ghi bản sao đầu tiên sẽ không đảm bảo tính toàn vẹn và sẵn sàng của dữ liệu.

Vậy đáp án đúng là B. 2 & 3

Câu 37:

Con quỷ (demon) nào chịu trách nhiệm sao chép dữ liệu trong Hadoop?

Lời giải:

Đáp án đúng: D

Trong Hadoop, DataNode chịu trách nhiệm lưu trữ các khối dữ liệu (data blocks) trên các nút (nodes) riêng lẻ trong cụm (cluster). Để đảm bảo tính sẵn sàng và chịu lỗi của dữ liệu, Hadoop sao chép mỗi khối dữ liệu thành nhiều bản sao (replicas) và lưu trữ chúng trên các DataNode khác nhau. Quá trình sao chép này do chính các DataNode thực hiện theo hướng dẫn từ NameNode.

Các lựa chọn khác không đúng vì:

HDFS: Là hệ thống tệp phân tán, không phải là một daemon.
Task Tracker: Theo dõi việc thực thi các tác vụ MapReduce trên các nút dữ liệu.
Job Tracker: Điều phối các công việc MapReduce trên toàn bộ cụm.
NameNode: Quản lý metadata của hệ thống tệp HDFS, không trực tiếp sao chép dữ liệu.

Câu 38:

Để áp dụng một bộ kết hợp, một thuộc tính phải được thỏa mãn bởi các giá trị được phát ra từ bộ ánh xạ là gì?

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về bộ kết hợp (Combiner) trong MapReduce. Bộ kết hợp là một chức năng tùy chọn giúp giảm lượng dữ liệu được truyền qua mạng bằng cách thực hiện các hoạt động giảm cục bộ trên mỗi nút ánh xạ (Mapper) trước khi dữ liệu được gửi đến bộ giảm (Reducer).

Để một bộ kết hợp có thể được áp dụng, đầu ra của bộ ánh xạ và bộ kết hợp phải có cùng kiểu cặp giá trị khóa-giá trị. Hơn nữa, các giá trị phải thỏa mãn thuộc tính liên kết và giao hoán (associative and commutative properties). Tính chất liên kết cho phép các phép toán được nhóm lại mà không ảnh hưởng đến kết quả, và tính chất giao hoán cho phép thay đổi thứ tự của các toán hạng mà không ảnh hưởng đến kết quả. Điều này đảm bảo rằng việc giảm cục bộ bằng bộ kết hợp sẽ cho kết quả tương đương với việc giảm trên toàn bộ dữ liệu sau khi dữ liệu đã được chuyển đến bộ giảm.

Các lựa chọn khác không đúng vì:

A: Bộ kết hợp không phải lúc nào cũng có thể được áp dụng cho mọi dữ liệu. Nó chỉ có thể được áp dụng nếu các giá trị thỏa mãn các thuộc tính cần thiết.
B: Đầu ra của bộ ánh xạ và bộ kết hợp phải cùng một cặp giá trị khóa và *phải* đồng nhất (cùng kiểu dữ liệu), chứ không phải "có thể không đồng nhất".

Câu 39:

Dữ liệu của Big Data là loại nào?

Lời giải: