Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:

changerep

rerep

setrep

xrep

Trả lời:

Đáp án đúng: C

Trong Hadoop HDFS, lệnh setrep được sử dụng để thay đổi hệ số sao chép (replication factor) của một tệp. Các lệnh khác như changerep, rerep, và xrep không phải là các lệnh HDFS hợp lệ để thực hiện chức năng này.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 3

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 15:

Job tracker runs on:

Lời giải:

Đáp án đúng: A

JobTracker là một dịch vụ quan trọng trong Hadoop 1.x, chịu trách nhiệm quản lý và điều phối các MapReduce jobs. Nó chạy trên NameNode. Cụ thể, JobTracker nhận các yêu cầu thực thi MapReduce jobs từ client, phân công các task (Map và Reduce tasks) cho các TaskTracker chạy trên các DataNode khác nhau, theo dõi tiến độ của các task, và xử lý các lỗi. Do đó, đáp án đúng là A.

Câu 16:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. "Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop":

Lời giải:

Đáp án đúng: C

So sánh Hadoop và HPC (High-Performance Computing):

A. Có thể xử lý khối lượng dữ liệu lớn hơn: Hadoop được thiết kế để xử lý dữ liệu cực lớn (Big Data) bằng cách chia nhỏ dữ liệu và xử lý song song trên nhiều máy. Trong khi HPC cũng có thể xử lý dữ liệu lớn, Hadoop thường vượt trội hơn về khả năng mở rộng và quản lý dữ liệu phân tán.

B. Có thể chạy trên một số lượng máy lớn hơn HPC cluster: Hadoop có khả năng mở rộng rất lớn, có thể chạy trên hàng ngàn máy tính trong một cluster. HPC cluster thường có số lượng máy ít hơn, tập trung vào hiệu suất tính toán trên mỗi máy.

C. Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC: HPC thường có băng thông mạng cao hơn và tập trung vào việc giảm thiểu độ trễ, do đó có thể xử lý dữ liệu nhanh hơn khi có đủ băng thông. Hadoop, với kiến trúc phân tán, có thể bị giới hạn bởi băng thông mạng.

D. Không thể chạy các công việc tính toán chuyên sâu: Hadoop có thể chạy các công việc tính toán chuyên sâu, nhưng HPC thường phù hợp hơn cho các công việc đòi hỏi tính toán phức tạp và độ trễ thấp. Tuy nhiên, Hadoop có thể được sử dụng để chạy các công việc tính toán song song, chẳng hạn như MapReduce.

Trong các lựa chọn trên, B là đáp án đúng nhất vì Hadoop được thiết kế để chạy trên một số lượng lớn máy tính hơn so với HPC cluster, cho phép xử lý dữ liệu phân tán hiệu quả hơn.

Câu 17:

Khi lưu trữ tệp Hadoop, phát biểu nào sau đây là đúng? (Chọn hai câu trả lời)

Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc

Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn

MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ

Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc

Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra kiến thức về lưu trữ (archiving) tệp trong Hadoop, cụ thể là các đặc điểm và mục đích của việc lưu trữ tệp trong hệ thống tệp phân tán Hadoop (HDFS). Dưới đây là phân tích từng lựa chọn:

* Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc: Điều này không đúng. Hadoop Archives sử dụng phần mở rộng `.har`.
* Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn: Điều này đúng. Mục đích chính của việc lưu trữ là giảm số lượng tệp nhỏ trong HDFS, vì quá nhiều tệp nhỏ có thể gây gánh nặng cho NameNode (nút quản lý siêu dữ liệu).
* MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ: Điều này đúng. Khi các tệp được lưu trữ, Hadoop vẫn có thể truy cập chúng bằng cách sử dụng đường dẫn gốc của chúng.
* Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc: Phát biểu này sai. "Liên hợp quốc" không liên quan đến HDFS hoặc MapReduce. Các tệp được lưu trữ vẫn nằm trong HDFS.
* Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa: Sai. Lưu trữ là để gộp các tệp nhỏ để quản lý hiệu quả hơn, chứ không phải để lưu trữ các tệp không thể truy cập được.

Vậy, đáp án đúng là B. 2 & 3.

Câu 18:

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:

Đáp án đúng: B

Khi một node dự phòng được sử dụng trong một cụm, nó sẽ thay thế cho một node bị lỗi. Trong các lựa chọn đưa ra:

* Node kiểm tra (Check point node): Không liên quan trực tiếp đến việc dự phòng trong cụm.
* Node tên phụ (Secondary name node): Cung cấp bản sao của metadata từ NameNode chính và hỗ trợ trong quá trình khôi phục, nhưng không trực tiếp thay thế NameNode chính khi nó bị lỗi. NameNode dự phòng (standby NameNode) mới là thành phần thay thế NameNode chính.
* DataNode phụ (Secondary data node): Không tồn tại khái niệm này. DataNode lưu trữ dữ liệu thực tế và không có node "phụ" nào đảm nhận vai trò dự phòng cho DataNode khác.
* Nhận thức về giá đỡ (Rack awareness): Đây là một tính năng quan trọng trong kiến trúc cụm, giúp cải thiện độ tin cậy và hiệu suất bằng cách phân phối dữ liệu trên các giá đỡ khác nhau. Điều này rất quan trọng để đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có sẵn từ các giá đỡ khác.

Vì vậy, khi một node dự phòng được sử dụng để thay thế, thì việc *không* cần đến "DataNode phụ" là chính xác vì khái niệm này không tồn tại. Tuy nhiên, câu hỏi có vẻ không rõ ràng vì các lựa chọn khác cũng không hoàn toàn cần thiết trong *mọi* trường hợp sử dụng node dự phòng.

Tuy nhiên, nếu xem xét câu hỏi trong bối cảnh chung nhất về dự phòng trong Hadoop (ví dụ: NameNode HA), thì Secondary NameNode không trực tiếp thay thế NameNode chính khi nó lỗi. Do đó, đáp án B có vẻ phù hợp hơn.

Lưu ý quan trọng: Để trả lời chính xác nhất, cần hiểu rõ ngữ cảnh cụ thể của câu hỏi (ví dụ: loại cụm nào, cơ chế dự phòng nào đang được sử dụng).

Câu 19:

Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:

Lời giải:

Đáp án đúng: D

Khi một ứng dụng khách (client) muốn truy cập một tệp trong Hadoop Distributed File System (HDFS), nó sẽ liên hệ với NameNode. NameNode, đóng vai trò là trung tâm quản lý metadata của hệ thống tệp, sẽ cung cấp cho client thông tin cần thiết để truy cập dữ liệu thực tế. Thông tin này bao gồm:

ID của các khối (blocks) mà tệp được chia thành.

Tên máy chủ (hostname) của tất cả các DataNode đang lưu trữ các khối đó. Điều này cho phép client biết chính xác nơi dữ liệu của tệp được lưu trữ và cách truy cập nó trực tiếp từ các DataNode.

Các lựa chọn khác không chính xác vì:

A. Kích thước của tệp được yêu cầu: Kích thước tệp có thể quan trọng, nhưng NameNode chủ yếu trả về thông tin vị trí dữ liệu (ID khối và DataNode).

B. ID khối của tệp được yêu cầu: Chỉ ID khối là không đủ, cần cả thông tin về DataNode để ứng dụng khách biết nơi tìm các khối đó.

C. ID khối và tên máy chủ của *bất kỳ* DataNode nào chứa khối đó: "Bất kỳ" là không chính xác. NameNode cung cấp thông tin về *tất cả* các DataNode chứa các bản sao của khối, để đảm bảo tính sẵn sàng và khả năng chịu lỗi.

Câu 20:

Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

Lời giải: