Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

CopyFromLocal

copyfromlocal

CopyLocal

copyFromLocal

Trả lời:

Đáp án đúng: D

Lệnh hdfs dfs -copyFromLocal (hoặc dạng viết tắt hdfs dfs -put) được sử dụng để sao chép tệp từ hệ thống tệp cục bộ vào hệ thống tệp Hadoop (HDFS). Trong các lựa chọn đưa ra, đáp án D (copyFromLocal) là chính xác, vì nó tuân theo đúng cú pháp lệnh (không phân biệt chữ hoa chữ thường trong tên lệnh HDFS). Các lựa chọn khác không phải là lệnh HDFS hợp lệ để sao chép tệp từ hệ thống cục bộ.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 3

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 21:

Loại dữ liệu mà Hadoop có thể xử lý là:

Lời giải:

Đáp án đúng: D

Hadoop có khả năng xử lý nhiều loại dữ liệu khác nhau, bao gồm dữ liệu có cấu trúc (structured), bán cấu trúc (semi-structured) và không có cấu trúc (unstructured). Do đó, đáp án D là chính xác nhất.

* Dữ liệu có cấu trúc (Structured): Dữ liệu này có định dạng rõ ràng, thường được lưu trữ trong các cơ sở dữ liệu quan hệ (RDBMS) với các hàng và cột được xác định rõ ràng. Ví dụ: bảng dữ liệu khách hàng, bảng sản phẩm.
* Dữ liệu bán cấu trúc (Semi-structured): Dữ liệu này không có cấu trúc cố định như dữ liệu có cấu trúc, nhưng nó chứa các thẻ hoặc dấu hiệu để phân tách các phần tử dữ liệu. Ví dụ: dữ liệu JSON, XML.
* Dữ liệu không có cấu trúc (Unstructured): Dữ liệu này không có cấu trúc xác định trước và khó phân tích bằng các phương pháp truyền thống. Ví dụ: văn bản, hình ảnh, video, âm thanh.

Câu 22:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải:

Đáp án đúng: B

Mục tiêu chính của HDFS High Availability (Tính sẵn sàng cao) là đảm bảo rằng hệ thống có thể tiếp tục hoạt động ngay cả khi một thành phần bị lỗi. Trong trường hợp của HDFS, NameNode là một thành phần quan trọng, vì nó quản lý không gian tên của hệ thống tệp và ánh xạ giữa các khối dữ liệu và DataNodes. Nếu NameNode bị lỗi, toàn bộ hệ thống tệp sẽ trở nên không khả dụng. Do đó, mục tiêu chính của HDFS HA là ngăn chặn NameNode trở thành một điểm lỗi duy nhất (single point of failure).

Phương án A không chính xác vì HDFS HA không tập trung vào việc tạo bản sao nhanh hơn, mà là có sẵn một NameNode dự phòng.

Phương án B không chính xác vì nó chỉ tập trung vào thời gian khôi phục, mặc dù đây là một khía cạnh quan trọng, nhưng mục tiêu chính là ngăn chặn sự cố xảy ra ngay từ đầu.

Phương án C không chính xác vì HA không trực tiếp ngăn chặn việc mất dữ liệu do lỗi NameNode. Việc mất dữ liệu thường được giải quyết bằng cách sao chép dữ liệu thành nhiều bản sao trên các DataNode khác nhau.

Phương án D là chính xác vì HDFS HA được thiết kế để có một NameNode dự phòng (Standby NameNode) luôn sẵn sàng tiếp quản nếu NameNode chính (Active NameNode) bị lỗi. Điều này đảm bảo rằng hệ thống tệp vẫn khả dụng, ngay cả khi NameNode chính gặp sự cố.

Câu 23:

Trong NameNode, lượng bộ nhớ cần thiết là:

Lời giải:

Đáp án đúng: A

Trong Hadoop, NameNode lưu trữ metadata về hệ thống tệp, bao gồm thông tin về các khối dữ liệu và vị trí của chúng. Lượng bộ nhớ cần thiết cho NameNode phụ thuộc vào số lượng tệp và khối dữ liệu trong hệ thống. Do NameNode phải lưu trữ tất cả metadata trong bộ nhớ, nên dung lượng bộ nhớ cần thiết có thể lớn hơn nhiều so với các DataNode. Tuy nhiên, không có một tỷ lệ cố định nào như gấp đôi hay một nửa dung lượng của DataNode. Lượng bộ nhớ cần thiết phụ thuộc chủ yếu vào số lượng khối dữ liệu mà NameNode quản lý. Do đó, đáp án D là chính xác nhất.

Câu 24:

Nhận thức về giá trong NameNode có nghĩa là:

Lời giải:

Đáp án đúng: A

Nhận thức về giá (Rack Awareness) trong Hadoop NameNode là một tính năng quan trọng giúp cải thiện hiệu suất và độ tin cậy của hệ thống. Khi NameNode "nhận thức" về cấu trúc giá (rack) của các DataNode, nó có thể đưa ra các quyết định thông minh hơn về việc lưu trữ và truy xuất dữ liệu.

* Phương án A: Sai. NameNode không nhất thiết phải biết tổng số giá đỡ có sẵn, mà quan trọng hơn là nó biết DataNode nào thuộc giá đỡ nào.
* Phương án B: Đúng. Đây là ý chính của nhận thức về giá. NameNode duy trì một ánh xạ giữa các DataNode và giá đỡ mà chúng thuộc về. Thông tin này cho phép nó tối ưu hóa việc sao chép dữ liệu, đảm bảo rằng các bản sao được phân tán trên các giá đỡ khác nhau để tránh mất dữ liệu nếu một giá đỡ bị lỗi.
* Phương án C: Sai. Số lượng nút trong mỗi rack không phải là yếu tố chính mà NameNode quan tâm. Điều quan trọng là biết nút nào thuộc rack nào.
* Phương án D: Sai. Mặc dù NameNode biết DataNode nào không khả dụng, nhưng đây không phải là bản chất của "nhận thức về giá". Nhận thức về giá tập trung vào việc hiểu cấu trúc mạng vật lý của cụm.

Vì vậy, đáp án đúng nhất là B: Nó nhận thức được ánh xạ giữa nút và giá đỡ.

Câu 25:

Điều nào sau đây không phải là mục tiêu của HDFS?

Lời giải:

Đáp án đúng: C

HDFS (Hadoop Distributed File System) là một hệ thống tệp phân tán được thiết kế để lưu trữ và xử lý các tập dữ liệu lớn. Các mục tiêu chính của HDFS bao gồm:

* Phát hiện lỗi và khôi phục: HDFS được thiết kế để chịu lỗi và có khả năng tự phục hồi từ các lỗi phần cứng.
* Xử lý tập dữ liệu khổng lồ: HDFS có thể lưu trữ và xử lý các tập dữ liệu có kích thước lên đến hàng petabyte.
* Cung cấp băng thông mạng cao để di chuyển dữ liệu: HDFS được thiết kế để cung cấp băng thông mạng cao để cho phép di chuyển dữ liệu nhanh chóng giữa các nút trong cụm.

Phương án C, "Ngăn chặn việc xóa dữ liệu", không phải là một mục tiêu trực tiếp của HDFS. HDFS không ngăn chặn người dùng xóa dữ liệu. Thay vào đó, nó tập trung vào việc đảm bảo rằng dữ liệu được lưu trữ một cách đáng tin cậy và có thể truy cập được, ngay cả khi có lỗi xảy ra. Việc quản lý và bảo vệ dữ liệu (bao gồm cả việc ngăn chặn xóa trái phép) thường được xử lý bởi các lớp ứng dụng hoặc hệ thống quản lý quyền riêng biệt.

Do đó, đáp án đúng là C.

Câu 26:

hadoop fs –expunge:

Lời giải: