Một công việc đang chạy trong hadoop:

Bị giết bằng lệnh

Không bao giờ có thể bị giết bằng một lệnh

Chỉ có thể bị giết bằng cách tắt NameNode

Được tạm dừng và chạy lại

Trả lời:

Đáp án đúng: A

Trong Hadoop, một công việc đang chạy có thể bị dừng (killed) thông qua một lệnh. Các công cụ quản lý tài nguyên của Hadoop như YARN cung cấp các lệnh để người dùng hoặc quản trị viên có thể dừng một job đang thực thi. Việc tắt NameNode là một hành động có ảnh hưởng lớn đến toàn bộ cluster và không phải là cách thông thường để dừng một job cụ thể. Job không bị tạm dừng và chạy lại theo mặc định khi muốn dừng nó; thay vào đó, nó sẽ bị hủy bỏ hoàn toàn.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 24:

Số lượng nhiệm vụ mà trình theo dõi tác vụ có thể chấp nhận phụ thuộc vào:

Lời giải:

Đáp án đúng: C

Số lượng nhiệm vụ mà một TaskTracker (trình theo dõi tác vụ) có thể chấp nhận không phải là vô hạn, cũng không phụ thuộc vào bộ nhớ tối đa của nút một cách trực tiếp, cũng không phải do JobTracker quyết định một cách tùy ý. Thay vào đó, nó phụ thuộc vào số lượng khe (slots) được cấu hình trong TaskTracker đó. Mỗi khe có thể chạy một tác vụ (task) duy nhất. Do đó, số lượng khe cắm trực tiếp xác định số lượng tác vụ mà TaskTracker có thể thực hiện đồng thời.

* A. Bộ nhớ tối đa có sẵn trong nút: Bộ nhớ có vai trò quan trọng trong việc thực thi tác vụ, nhưng số lượng tác vụ không trực tiếp phụ thuộc vào tổng bộ nhớ mà phụ thuộc vào số lượng khe cắm.
* B. Không giới hạn: Điều này không đúng vì tài nguyên của TaskTracker là có hạn.
* C. Số lượng khe cắm được định cấu hình trong đó: Đây là đáp án chính xác. Số lượng khe cắm xác định số lượng tác vụ tối đa mà TaskTracker có thể xử lý đồng thời.
* D. Theo quyết định của JobTracker: JobTracker có vai trò điều phối và giao việc, nhưng số lượng tác vụ mà TaskTracker *có thể* chấp nhận bị giới hạn bởi cấu hình của chính nó (số lượng khe cắm).

Câu 25:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:

Lời giải:

Đáp án đúng: C

Hadoop và HPC đều sử dụng nhiều máy để xử lý dữ liệu. Tuy nhiên, Hadoop được thiết kế để xử lý khối lượng dữ liệu lớn hơn (Big Data) trên một số lượng máy lớn hơn so với HPC. HPC thường tập trung vào việc xử lý các tác vụ tính toán chuyên sâu với tốc độ cao, trong khi Hadoop tập trung vào khả năng mở rộng và khả năng chịu lỗi.

* A. Có thể xử lý khối lượng dữ liệu lớn hơn: Đúng. Hadoop được thiết kế để xử lý petabyte dữ liệu, lớn hơn nhiều so với khả năng của HPC truyền thống.
* B. Có thể chạy trên một số lượng máy lớn hơn HPC cluster: Đúng. Hadoop có thể mở rộng quy mô đến hàng ngàn máy chủ, trong khi HPC thường giới hạn ở một vài trăm hoặc nghìn máy.
* C. Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC: Sai. HPC thường được tối ưu hóa cho tốc độ xử lý cao, trong khi Hadoop tập trung vào khả năng mở rộng và chịu lỗi.
* D. Không thể chạy các công việc tính toán chuyên sâu: Sai. Hadoop có thể chạy các công việc tính toán chuyên sâu, nhưng nó không phải là điểm mạnh của Hadoop so với HPC.

Vì vậy, đáp án đúng nhất là A và B. Tuy nhiên, vì câu hỏi chỉ yêu cầu chọn MỘT đáp án, và phương án B thể hiện rõ hơn sự khác biệt cốt lõi về mặt kiến trúc và khả năng mở rộng giữa Hadoop và HPC, nên B được chọn làm đáp án tối ưu nhất.

Câu 26:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải:

Đáp án đúng: C

Tính năng định vị dữ liệu (Data Locality) trong Hadoop là một yếu tố quan trọng để tối ưu hóa hiệu suất. Nó có nghĩa là Hadoop cố gắng đưa quá trình tính toán đến gần dữ liệu nhất có thể, thay vì di chuyển dữ liệu đến nơi tính toán. Điều này giúp giảm thiểu việc truyền dữ liệu qua mạng, vốn là một hoạt động tốn kém về thời gian và băng thông. Do đó, đáp án đúng là C: Đồng định vị dữ liệu với các nút tính toán. Các đáp án khác không mô tả đúng ý nghĩa của Data Locality:

- A. Lưu trữ cùng một dữ liệu trên nhiều nút: Đây là tính năng sao lưu dữ liệu (replication) để đảm bảo tính sẵn sàng và độ tin cậy, không phải là định vị dữ liệu.
- B. Chuyển vị trí dữ liệu từ nút này sang nút khác: Đây là điều Hadoop cố gắng tránh bằng cách sử dụng định vị dữ liệu.
- D. Phân phối dữ liệu trên nhiều nút: Đây là cách Hadoop lưu trữ dữ liệu, nhưng không giải thích tại sao Hadoop lại phân phối dữ liệu như vậy. Định vị dữ liệu giải thích lý do: để các nút tính toán có thể truy cập dữ liệu cục bộ một cách hiệu quả.

Câu 27:

Các tệp HDFS được thiết kế cho:

Lời giải:

Đáp án đúng: B

Các tệp trong HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ dữ liệu lớn và được truy cập theo kiểu ghi một lần, đọc nhiều lần. Điều này có nghĩa là:

* A. Sai: HDFS không được thiết kế cho việc nhiều người viết và sửa đổi tệp một cách tùy ý. Việc này có thể dẫn đến xung đột và làm hỏng dữ liệu.
* B. Sai: Mặc dù có thể thực hiện việc ghi nối vào cuối tệp, nhưng đây không phải là thiết kế chính của HDFS.
* C. Đúng: Các tệp HDFS được thiết kế để ghi một lần duy nhất. Sau khi tệp đã được ghi, nó thường không được sửa đổi nữa. Điều này giúp đơn giản hóa việc quản lý dữ liệu và đảm bảo tính nhất quán.
* D. Sai: HDFS không được thiết kế cho việc truy cập dữ liệu có độ trễ thấp. Nó được tối ưu hóa cho việc xử lý dữ liệu lớn theo lô.

Do đó, đáp án C là đáp án đúng nhất.

Câu 28:

Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố?

Lời giải:

Đáp án đúng: A

Trong Hadoop, NameNode là thành phần quan trọng quản lý siêu dữ liệu của hệ thống tệp. Để đảm bảo khả năng chống chịu lỗi (fault tolerance) cho NameNode, Hadoop sử dụng các cơ chế sau:

Sao lưu siêu dữ liệu hệ thống tệp vào đĩa cục bộ: NameNode lưu trữ siêu dữ liệu (metadata) của hệ thống tệp HDFS (Hadoop Distributed File System) trên đĩa cục bộ. Việc này cho phép NameNode phục hồi trạng thái của hệ thống tệp trong trường hợp gặp sự cố.
Gắn kết NFS từ xa: Ngoài việc lưu trữ siêu dữ liệu trên đĩa cục bộ, NameNode còn có thể sao lưu siêu dữ liệu vào một hệ thống tệp mạng (Network File System - NFS) từ xa. Điều này cung cấp một bản sao lưu dự phòng trong trường hợp cả NameNode và đĩa cục bộ đều gặp sự cố.

Các phương án khác không phải là cơ chế chính để đảm bảo khả năng chống chịu lỗi cho NameNode:

Lưu trữ siêu dữ liệu trên đám mây có thể là một giải pháp sao lưu, nhưng không phải là cơ chế mặc định được Hadoop sử dụng.
Việc sử dụng máy có nhiều CPU (12 CPU) không trực tiếp đảm bảo khả năng chống chịu lỗi.
Sử dụng phần cứng đắt tiền và đáng tin cậy có thể giảm thiểu rủi ro hỏng hóc, nhưng không phải là một cơ chế sao lưu hoặc phục hồi tích hợp sẵn trong Hadoop.

Câu 29:

Khi chạy trên chế độ phân phối giả lập, hệ số sao chép được đặt thành:

Lời giải: