HDFS là viết tắt của:

Hệ thống tệp phân tán cao (Highly distributed file system)

Hệ thống tệp được hướng dẫn Hadoop (Hadoop directed file system)

Vỏ tệp phân tán cao (Highly distributed file shell)

Hệ thống tệp phân tán Hadoop (Hadoop distributed file system)

Trả lời:

Đáp án đúng: D

HDFS là viết tắt của Hadoop Distributed File System, có nghĩa là Hệ thống tệp phân tán Hadoop. Đây là một hệ thống tệp được thiết kế để lưu trữ và xử lý các bộ dữ liệu lớn trên các cụm máy tính commodity. Do đó, đáp án D là đáp án chính xác.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 3

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 14:

Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:

Lời giải:

Đáp án đúng: C

Trong Hadoop HDFS, lệnh setrep được sử dụng để thay đổi hệ số sao chép (replication factor) của một tệp. Các lệnh khác như changerep, rerep, và xrep không phải là các lệnh HDFS hợp lệ để thực hiện chức năng này.

Câu 15:

Job tracker runs on:

Lời giải:

Đáp án đúng: A

JobTracker là một dịch vụ quan trọng trong Hadoop 1.x, chịu trách nhiệm quản lý và điều phối các MapReduce jobs. Nó chạy trên NameNode. Cụ thể, JobTracker nhận các yêu cầu thực thi MapReduce jobs từ client, phân công các task (Map và Reduce tasks) cho các TaskTracker chạy trên các DataNode khác nhau, theo dõi tiến độ của các task, và xử lý các lỗi. Do đó, đáp án đúng là A.

Câu 16:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. "Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop":

Lời giải:

Đáp án đúng: C

So sánh Hadoop và HPC (High-Performance Computing):

A. Có thể xử lý khối lượng dữ liệu lớn hơn: Hadoop được thiết kế để xử lý dữ liệu cực lớn (Big Data) bằng cách chia nhỏ dữ liệu và xử lý song song trên nhiều máy. Trong khi HPC cũng có thể xử lý dữ liệu lớn, Hadoop thường vượt trội hơn về khả năng mở rộng và quản lý dữ liệu phân tán.

B. Có thể chạy trên một số lượng máy lớn hơn HPC cluster: Hadoop có khả năng mở rộng rất lớn, có thể chạy trên hàng ngàn máy tính trong một cluster. HPC cluster thường có số lượng máy ít hơn, tập trung vào hiệu suất tính toán trên mỗi máy.

C. Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC: HPC thường có băng thông mạng cao hơn và tập trung vào việc giảm thiểu độ trễ, do đó có thể xử lý dữ liệu nhanh hơn khi có đủ băng thông. Hadoop, với kiến trúc phân tán, có thể bị giới hạn bởi băng thông mạng.

D. Không thể chạy các công việc tính toán chuyên sâu: Hadoop có thể chạy các công việc tính toán chuyên sâu, nhưng HPC thường phù hợp hơn cho các công việc đòi hỏi tính toán phức tạp và độ trễ thấp. Tuy nhiên, Hadoop có thể được sử dụng để chạy các công việc tính toán song song, chẳng hạn như MapReduce.

Trong các lựa chọn trên, B là đáp án đúng nhất vì Hadoop được thiết kế để chạy trên một số lượng lớn máy tính hơn so với HPC cluster, cho phép xử lý dữ liệu phân tán hiệu quả hơn.

Câu 17:

Khi lưu trữ tệp Hadoop, phát biểu nào sau đây là đúng? (Chọn hai câu trả lời)

Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc

Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn

MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ

Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc

Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra kiến thức về lưu trữ (archiving) tệp trong Hadoop, cụ thể là các đặc điểm và mục đích của việc lưu trữ tệp trong hệ thống tệp phân tán Hadoop (HDFS). Dưới đây là phân tích từng lựa chọn:

* Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc: Điều này không đúng. Hadoop Archives sử dụng phần mở rộng `.har`.
* Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn: Điều này đúng. Mục đích chính của việc lưu trữ là giảm số lượng tệp nhỏ trong HDFS, vì quá nhiều tệp nhỏ có thể gây gánh nặng cho NameNode (nút quản lý siêu dữ liệu).
* MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ: Điều này đúng. Khi các tệp được lưu trữ, Hadoop vẫn có thể truy cập chúng bằng cách sử dụng đường dẫn gốc của chúng.
* Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc: Phát biểu này sai. "Liên hợp quốc" không liên quan đến HDFS hoặc MapReduce. Các tệp được lưu trữ vẫn nằm trong HDFS.
* Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa: Sai. Lưu trữ là để gộp các tệp nhỏ để quản lý hiệu quả hơn, chứ không phải để lưu trữ các tệp không thể truy cập được.

Vậy, đáp án đúng là B. 2 & 3.

Câu 18:

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:

Đáp án đúng: B

Khi một node dự phòng được sử dụng trong một cụm, nó sẽ thay thế cho một node bị lỗi. Trong các lựa chọn đưa ra:

* Node kiểm tra (Check point node): Không liên quan trực tiếp đến việc dự phòng trong cụm.
* Node tên phụ (Secondary name node): Cung cấp bản sao của metadata từ NameNode chính và hỗ trợ trong quá trình khôi phục, nhưng không trực tiếp thay thế NameNode chính khi nó bị lỗi. NameNode dự phòng (standby NameNode) mới là thành phần thay thế NameNode chính.
* DataNode phụ (Secondary data node): Không tồn tại khái niệm này. DataNode lưu trữ dữ liệu thực tế và không có node "phụ" nào đảm nhận vai trò dự phòng cho DataNode khác.
* Nhận thức về giá đỡ (Rack awareness): Đây là một tính năng quan trọng trong kiến trúc cụm, giúp cải thiện độ tin cậy và hiệu suất bằng cách phân phối dữ liệu trên các giá đỡ khác nhau. Điều này rất quan trọng để đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có sẵn từ các giá đỡ khác.

Vì vậy, khi một node dự phòng được sử dụng để thay thế, thì việc *không* cần đến "DataNode phụ" là chính xác vì khái niệm này không tồn tại. Tuy nhiên, câu hỏi có vẻ không rõ ràng vì các lựa chọn khác cũng không hoàn toàn cần thiết trong *mọi* trường hợp sử dụng node dự phòng.

Tuy nhiên, nếu xem xét câu hỏi trong bối cảnh chung nhất về dự phòng trong Hadoop (ví dụ: NameNode HA), thì Secondary NameNode không trực tiếp thay thế NameNode chính khi nó lỗi. Do đó, đáp án B có vẻ phù hợp hơn.

Lưu ý quan trọng: Để trả lời chính xác nhất, cần hiểu rõ ngữ cảnh cụ thể của câu hỏi (ví dụ: loại cụm nào, cơ chế dự phòng nào đang được sử dụng).

Câu 19:

Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:

Lời giải: