Khi lưu trữ tệp Hadoop, phát biểu nào sau đây là đúng? (Chọn hai câu trả lời) Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:

Đáp án đúng: B

Khi một node dự phòng được sử dụng trong một cụm, nó sẽ thay thế cho một node bị lỗi. Trong các lựa chọn đưa ra:

* Node kiểm tra (Check point node): Không liên quan trực tiếp đến việc dự phòng trong cụm.
* Node tên phụ (Secondary name node): Cung cấp bản sao của metadata từ NameNode chính và hỗ trợ trong quá trình khôi phục, nhưng không trực tiếp thay thế NameNode chính khi nó bị lỗi. NameNode dự phòng (standby NameNode) mới là thành phần thay thế NameNode chính.
* DataNode phụ (Secondary data node): Không tồn tại khái niệm này. DataNode lưu trữ dữ liệu thực tế và không có node "phụ" nào đảm nhận vai trò dự phòng cho DataNode khác.
* Nhận thức về giá đỡ (Rack awareness): Đây là một tính năng quan trọng trong kiến trúc cụm, giúp cải thiện độ tin cậy và hiệu suất bằng cách phân phối dữ liệu trên các giá đỡ khác nhau. Điều này rất quan trọng để đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có sẵn từ các giá đỡ khác.

Vì vậy, khi một node dự phòng được sử dụng để thay thế, thì việc *không* cần đến "DataNode phụ" là chính xác vì khái niệm này không tồn tại. Tuy nhiên, câu hỏi có vẻ không rõ ràng vì các lựa chọn khác cũng không hoàn toàn cần thiết trong *mọi* trường hợp sử dụng node dự phòng.

Tuy nhiên, nếu xem xét câu hỏi trong bối cảnh chung nhất về dự phòng trong Hadoop (ví dụ: NameNode HA), thì Secondary NameNode không trực tiếp thay thế NameNode chính khi nó lỗi. Do đó, đáp án B có vẻ phù hợp hơn.

Lưu ý quan trọng: Để trả lời chính xác nhất, cần hiểu rõ ngữ cảnh cụ thể của câu hỏi (ví dụ: loại cụm nào, cơ chế dự phòng nào đang được sử dụng).

Câu 19:

Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:

Lời giải:

Đáp án đúng: D

Khi một ứng dụng khách (client) muốn truy cập một tệp trong Hadoop Distributed File System (HDFS), nó sẽ liên hệ với NameNode. NameNode, đóng vai trò là trung tâm quản lý metadata của hệ thống tệp, sẽ cung cấp cho client thông tin cần thiết để truy cập dữ liệu thực tế. Thông tin này bao gồm:

ID của các khối (blocks) mà tệp được chia thành.

Tên máy chủ (hostname) của tất cả các DataNode đang lưu trữ các khối đó. Điều này cho phép client biết chính xác nơi dữ liệu của tệp được lưu trữ và cách truy cập nó trực tiếp từ các DataNode.

Các lựa chọn khác không chính xác vì:

A. Kích thước của tệp được yêu cầu: Kích thước tệp có thể quan trọng, nhưng NameNode chủ yếu trả về thông tin vị trí dữ liệu (ID khối và DataNode).

B. ID khối của tệp được yêu cầu: Chỉ ID khối là không đủ, cần cả thông tin về DataNode để ứng dụng khách biết nơi tìm các khối đó.

C. ID khối và tên máy chủ của *bất kỳ* DataNode nào chứa khối đó: "Bất kỳ" là không chính xác. NameNode cung cấp thông tin về *tất cả* các DataNode chứa các bản sao của khối, để đảm bảo tính sẵn sàng và khả năng chịu lỗi.

Câu 20:

Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

Lời giải:

Đáp án đúng: D

Lệnh hdfs dfs -copyFromLocal (hoặc dạng viết tắt hdfs dfs -put) được sử dụng để sao chép tệp từ hệ thống tệp cục bộ vào hệ thống tệp Hadoop (HDFS). Trong các lựa chọn đưa ra, đáp án D (copyFromLocal) là chính xác, vì nó tuân theo đúng cú pháp lệnh (không phân biệt chữ hoa chữ thường trong tên lệnh HDFS). Các lựa chọn khác không phải là lệnh HDFS hợp lệ để sao chép tệp từ hệ thống cục bộ.

Câu 21:

Loại dữ liệu mà Hadoop có thể xử lý là:

Lời giải:

Đáp án đúng: D

Hadoop có khả năng xử lý nhiều loại dữ liệu khác nhau, bao gồm dữ liệu có cấu trúc (structured), bán cấu trúc (semi-structured) và không có cấu trúc (unstructured). Do đó, đáp án D là chính xác nhất.

* Dữ liệu có cấu trúc (Structured): Dữ liệu này có định dạng rõ ràng, thường được lưu trữ trong các cơ sở dữ liệu quan hệ (RDBMS) với các hàng và cột được xác định rõ ràng. Ví dụ: bảng dữ liệu khách hàng, bảng sản phẩm.
* Dữ liệu bán cấu trúc (Semi-structured): Dữ liệu này không có cấu trúc cố định như dữ liệu có cấu trúc, nhưng nó chứa các thẻ hoặc dấu hiệu để phân tách các phần tử dữ liệu. Ví dụ: dữ liệu JSON, XML.
* Dữ liệu không có cấu trúc (Unstructured): Dữ liệu này không có cấu trúc xác định trước và khó phân tích bằng các phương pháp truyền thống. Ví dụ: văn bản, hình ảnh, video, âm thanh.

Câu 22:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải:

Đáp án đúng: B

Mục tiêu chính của HDFS High Availability (Tính sẵn sàng cao) là đảm bảo rằng hệ thống có thể tiếp tục hoạt động ngay cả khi một thành phần bị lỗi. Trong trường hợp của HDFS, NameNode là một thành phần quan trọng, vì nó quản lý không gian tên của hệ thống tệp và ánh xạ giữa các khối dữ liệu và DataNodes. Nếu NameNode bị lỗi, toàn bộ hệ thống tệp sẽ trở nên không khả dụng. Do đó, mục tiêu chính của HDFS HA là ngăn chặn NameNode trở thành một điểm lỗi duy nhất (single point of failure).

Phương án A không chính xác vì HDFS HA không tập trung vào việc tạo bản sao nhanh hơn, mà là có sẵn một NameNode dự phòng.

Phương án B không chính xác vì nó chỉ tập trung vào thời gian khôi phục, mặc dù đây là một khía cạnh quan trọng, nhưng mục tiêu chính là ngăn chặn sự cố xảy ra ngay từ đầu.

Phương án C không chính xác vì HA không trực tiếp ngăn chặn việc mất dữ liệu do lỗi NameNode. Việc mất dữ liệu thường được giải quyết bằng cách sao chép dữ liệu thành nhiều bản sao trên các DataNode khác nhau.

Phương án D là chính xác vì HDFS HA được thiết kế để có một NameNode dự phòng (Standby NameNode) luôn sẵn sàng tiếp quản nếu NameNode chính (Active NameNode) bị lỗi. Điều này đảm bảo rằng hệ thống tệp vẫn khả dụng, ngay cả khi NameNode chính gặp sự cố.

Câu 23:

Trong NameNode, lượng bộ nhớ cần thiết là:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 24:

Nhận thức về giá trong NameNode có nghĩa là:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Điều nào sau đây không phải là mục tiêu của HDFS?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP