Job tracker runs on:

Namenode

Datanode

Secondary namenode

Secondary datanode

Trả lời:

Đáp án đúng: A

Trong Hadoop 1.x, JobTracker là một dịch vụ chạy trên NameNode, chịu trách nhiệm quản lý và điều phối các công việc MapReduce trên toàn cluster. Nó nhận các job từ client, chia nhỏ chúng thành các task, và giao các task này cho các TaskTracker (chạy trên DataNode) để thực thi. Do đó, đáp án đúng là A.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 28:

Công nghệ nào được sử dụng để nhập và xuất dữ liệu trong Hadoop?

Lời giải:

Đáp án đúng: C

Đáp án đúng là C. Sqoop.

Giải thích:

Sqoop là một công cụ dòng lệnh được thiết kế để truyền dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS) như MySQL, PostgreSQL, Oracle, SQL Server, v.v. Nó cho phép nhập dữ liệu từ RDBMS vào Hadoop (HDFS, Hive, HBase) và xuất dữ liệu từ Hadoop trở lại RDBMS một cách hiệu quả.
HBase là một cơ sở dữ liệu NoSQL, cột-định hướng, chạy trên đỉnh của Hadoop. Nó không phải là một công cụ để nhập/xuất dữ liệu nói chung.
Avro là một định dạng tuần tự hóa dữ liệu. Nó được sử dụng để lưu trữ dữ liệu một cách hiệu quả và có thể được sử dụng với Hadoop, nhưng nó không phải là một công cụ nhập/xuất dữ liệu.
ZooKeeper là một dịch vụ điều phối tập trung để quản lý cấu hình, tên, cung cấp đồng bộ hóa phân tán và các dịch vụ nhóm. Nó không liên quan đến việc nhập/xuất dữ liệu.

Câu 29:

Cái nào sau đây lưu trữ dữ liệu?

Lời giải:

Đáp án đúng: B

Trong Hadoop Distributed File System (HDFS), DataNode là thành phần chịu trách nhiệm lưu trữ dữ liệu thực tế. Dữ liệu được chia thành các khối và phân tán trên nhiều DataNode trong cụm.

NameNode: Quản lý metadata của hệ thống tệp, bao gồm cấu trúc thư mục, thông tin về các khối dữ liệu và vị trí của chúng trên các DataNode. NameNode không lưu trữ dữ liệu thực tế.

Master Node: Thuật ngữ "Master Node" chung chung và có thể áp dụng cho nhiều hệ thống khác nhau. Trong ngữ cảnh HDFS, NameNode có thể được coi là một loại Master Node, nhưng DataNode mới là nơi lưu trữ dữ liệu.

Do đó, đáp án đúng là B. Data node.

Câu 30:

Nút nào sau đây quản lý các nút khác?

Lời giải:

Đáp án đúng: A

Trong hệ thống phân tán như Hadoop, NameNode đóng vai trò trung tâm, chịu trách nhiệm quản lý không gian tên của hệ thống tệp (file system) và điều phối truy cập tệp từ các DataNode. Nó lưu trữ metadata (dữ liệu về dữ liệu) như tên tệp, thư mục, quyền truy cập và vị trí của các khối dữ liệu trên các DataNode. Do đó, NameNode chính là nút quản lý các nút khác (DataNode).

Câu 31:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:

Đáp án đúng: C

Hadoop xử lý khối lượng lớn dữ liệu bằng cách:

Sử dụng song song nhiều máy: Hadoop phân phối dữ liệu và công việc xử lý trên một cụm các máy tính, cho phép xử lý song song và tăng tốc độ xử lý tổng thể.

Thiết kế cho lượng lớn dữ liệu: Hadoop được thiết kế để xử lý dữ liệu lớn (Big Data) bằng cách sử dụng phần cứng thông thường (commodity hardware) và kiến trúc MPP (Massively Parallel Processing).

Gửi mã đến dữ liệu: Hadoop di chuyển mã chương trình đến gần nơi lưu trữ dữ liệu thay vì di chuyển dữ liệu đến nơi có mã. Điều này giảm thiểu việc truyền dữ liệu qua mạng, giúp tăng hiệu quả xử lý.

Do đó, các phương án A, B và C đều đúng.

Phương án D sai vì bộ nhớ đệm phức tạp trên NameNode không phải là yếu tố chính giúp Hadoop xử lý dữ liệu lớn, mà là khả năng phân tán và xử lý song song dữ liệu trên nhiều node.

Câu 32:

Khi lưu trữ tệp Hadoop, câu nào sau đây là đúng? (Chọn hai câu trả lời)

Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc. Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn

MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ

Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập các tệp nhỏ, gốc

Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra kiến thức về cách lưu trữ tệp trong Hadoop, cụ thể là các đặc điểm và mục đích của việc lưu trữ tệp. Chúng ta cần chọn hai câu đúng trong các lựa chọn được đưa ra.

* "Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc. Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn": Câu này đúng. Hadoop lưu trữ các tệp nhỏ lại với nhau thành các tệp lớn hơn có phần mở rộng .arc để giảm số lượng tệp mà NameNode phải quản lý, từ đó cải thiện hiệu suất.

* "MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ": Câu này đúng. Sau khi các tệp nhỏ được lưu trữ, MapReduce vẫn có thể truy cập chúng bằng tên tệp gốc. Hadoop lưu trữ metadata về các tệp gốc, cho phép truy cập chúng một cách minh bạch.

* "Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập các tệp nhỏ, gốc": Câu này sai. Không có yêu cầu nào về việc lưu trữ tệp tại Liên hợp quốc (United Nations). Các tệp được lưu trữ trong HDFS.

* "Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa": Câu này sai. Mục đích của việc lưu trữ không phải là để lưu các tệp không còn truy cập được. Ngược lại, nó được sử dụng để tối ưu hóa việc lưu trữ và truy cập các tệp nhỏ trong HDFS.

Vậy, hai câu đúng là câu thứ nhất và câu thứ hai. Do đó, đáp án đúng là B.

Câu 33:

Câu nào sau đây là đúng đối với các cặp <key, value> của một công việc MapReduce?</key,>

Lời giải: