hadoop fs -expunge:

Cung cấp danh sách các DataNode

Được sử dụng để xóa một tệp

Được sử dụng để trao đổi một tệp giữa hai DataNode

Dọn sạch thùng rác

Trả lời:

Đáp án đúng: D

Lệnh `hadoop fs -expunge` trong Hadoop được sử dụng để dọn dẹp thùng rác (Trash). Khi bạn xóa một tệp hoặc thư mục trong HDFS (Hadoop Distributed File System), nó không bị xóa ngay lập tức mà được chuyển vào thùng rác. Lệnh `hadoop fs -expunge` sẽ xóa vĩnh viễn các tệp và thư mục trong thùng rác, giúp giải phóng dung lượng lưu trữ. Các lựa chọn khác không đúng vì: - A: Lệnh này không cung cấp danh sách các DataNode. - B: Lệnh này không trực tiếp xóa một tệp, mà xóa các tệp đã nằm trong thùng rác. - C: Lệnh này không được sử dụng để trao đổi tệp giữa các DataNode.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 15:

Hadoop giải quyết bài toán chịu lỗi thông qua kỹ thuật gì? Chọn đáp án SAI:

Lời giải:

Đáp án đúng: C

Câu hỏi yêu cầu tìm phương án SAI trong các kỹ thuật mà Hadoop sử dụng để giải quyết bài toán chịu lỗi.

* A. Kỹ thuật dư thừa: Đúng. Hadoop sử dụng kỹ thuật dư thừa dữ liệu (replication) để đảm bảo tính sẵn sàng của dữ liệu.
* B. Các tệp tin được phân mảnh, các mảnh được nhân bản ra các node khác trên cụm: Đúng. Đây là một phần quan trọng của cơ chế chịu lỗi của HDFS (Hadoop Distributed File System). Dữ liệu được chia thành các khối (blocks) và các khối này được nhân bản trên nhiều node khác nhau.
* C. Các tệp tin được phân mảnh, các mảnh được lưu trữ tin cậy trên ổ cứng theo cơ chế RAID: SAI. Hadoop không sử dụng RAID ở mức độ lưu trữ dữ liệu phân tán. Thay vào đó, nó sử dụng nhân bản dữ liệu trên nhiều node để đảm bảo tính sẵn sàng. Việc sử dụng RAID có thể được thực hiện ở cấp độ từng node riêng lẻ, nhưng không phải là cơ chế chính để Hadoop chịu lỗi ở cấp độ cụm.
* D. các công việc cần tính toán được phân mảnh thành các tác vụ độc lập: Đúng. MapReduce chia công việc thành các tác vụ nhỏ, nếu một tác vụ thất bại, nó có thể được thực hiện lại trên một node khác.

Vậy, đáp án SAI là C. Các tệp tin được phân mảnh, các mảnh được lưu trữ tin cậy trên ổ cứng theo cơ chế RAID

Câu 16:

Hadoop giải quyết bài toán khả mở bằng cách nào? Chọn đáp án sai:

Lời giải:

Đáp án đúng: B

Câu hỏi yêu cầu tìm đáp án *sai* về cách Hadoop giải quyết bài toán khả mở. Hadoop giải quyết bài toán này bằng cách:

* Thiết kế phân tán: Hadoop được thiết kế để chạy trên một cụm các máy chủ, cho phép xử lý dữ liệu song song.
* Phân chia vai trò: Các node trong cụm Hadoop thường được gán vai trò riêng biệt: một số node thực hiện tính toán (ví dụ: MapReduce), trong khi các node khác lưu trữ dữ liệu (HDFS).
* Khả năng mở rộng linh hoạt: Hadoop có thể được mở rộng bằng cách thêm các node vào cụm. Các node mới này không nhất thiết phải có cấu hình hoặc độ tin cậy cao. Việc này giúp giảm chi phí và tăng tính linh hoạt của hệ thống. Hadoop có thể chạy trên các phần cứng commodity.

Như vậy, các phương án A, B, D đều đúng. Phương án C sai vì Hadoop có thể chạy trên các cụm máy chủ, mà trong đó các node có thể chỉ đóng vai trò tính toán HOẶC lưu trữ, không phải lúc nào cũng đóng cả hai vai trò.

Câu 17:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:

Đáp án đúng: C

Câu hỏi kiểm tra kiến thức về cách Hadoop xử lý dữ liệu lớn. Hadoop có khả năng xử lý dữ liệu lớn nhờ vào việc:

Xử lý song song: Hadoop phân chia công việc và thực hiện song song trên nhiều máy tính trong cluster. Điều này giúp tăng tốc độ xử lý dữ liệu đáng kể so với việc xử lý tuần tự trên một máy duy nhất.

MPP (Massively Parallel Processing): Hadoop được thiết kế để tận dụng kiến trúc MPP, trong đó nhiều bộ xử lý hoạt động đồng thời trên các phần khác nhau của dữ liệu.

Chuyển mã đến dữ liệu: Thay vì di chuyển dữ liệu lớn đến nơi chứa mã xử lý, Hadoop di chuyển mã xử lý đến nơi lưu trữ dữ liệu. Điều này giúp giảm thiểu việc truyền dữ liệu qua mạng, một yếu tố có thể gây tắc nghẽn và làm chậm quá trình xử lý.

Phân tích các đáp án:

A: Đúng. Hadoop sử dụng song song rất nhiều máy để tối ưu hóa việc xử lý dữ liệu.

B: Đúng. Hadoop được thiết kế đặc biệt để xử lý lượng lớn dữ liệu bằng cách tận dụng phần cứng MPP.

C: Đúng. Hadoop gửi mã đến dữ liệu thay vì gửi dữ liệu đến mã.

D: Sai. Hadoop không sử dụng các kỹ thuật bộ nhớ đệm phức tạp trên NameNode để tăng tốc độ xử lý dữ liệu. NameNode chủ yếu quản lý metadata của hệ thống tệp tin phân tán HDFS.

Vì A, B và C đều đúng và mô tả các khía cạnh khác nhau về cách Hadoop xử lý dữ liệu lớn, nên không có đáp án duy nhất đúng nhất. Tuy nhiên, nếu phải chọn một đáp án bao quát nhất, thì A, B và C đều thể hiện đúng cách Hadoop giải quyết vấn đề về khối lượng dữ liệu lớn.

Câu 18:

Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa bởi dòng lệnh?

Lời giải:

Đáp án đúng: D

Khi một tệp bị xóa trong HDFS bằng dòng lệnh và thùng rác (Trash) được bật, tệp đó không bị xóa vĩnh viễn ngay lập tức. Thay vào đó, nó được chuyển vào thư mục thùng rác của người dùng đã thực hiện việc xóa. Điều này cho phép người dùng có cơ hội khôi phục tệp nếu họ vô tình xóa nó. Thư mục thùng rác thường nằm trong thư mục home của người dùng trên HDFS. Nếu thùng rác không được bật, tệp sẽ bị xóa vĩnh viễn.

Câu 19:

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:

Đáp án đúng: C

Khi một node dự phòng (standby node) được sử dụng trong một cụm (cluster), mục tiêu chính là để đảm bảo tính sẵn sàng cao (high availability) và khả năng chịu lỗi (fault tolerance). Các thành phần như Node tên phụ (Secondary NameNode) và DataNode phụ (Secondary DataNode), cùng với việc nhận thức về giá đỡ (Rack awareness), đều đóng vai trò quan trọng trong việc đảm bảo dữ liệu không bị mất và hệ thống vẫn hoạt động khi có sự cố xảy ra.

* Node kiểm tra (Check point node): Node kiểm tra không phải là một thành phần bắt buộc trong một cụm sử dụng node dự phòng. Checkpoint node được sử dụng để tạo điểm khôi phục, nhưng hệ thống vẫn có thể hoạt động mà không cần nó.
* Node tên phụ (Secondary name node): Node tên phụ hỗ trợ NameNode chính bằng cách tạo checkpoint định kỳ cho siêu dữ liệu.
* DataNode phụ (Secondary data node): Không có khái niệm "DataNode phụ" trong Hadoop. Các DataNode lưu trữ các khối dữ liệu thực tế.
* Nhận thức về giá đỡ (Rack awareness): Rack awareness là một tính năng quan trọng giúp đảm bảo dữ liệu được phân tán trên các giá đỡ khác nhau, giảm thiểu rủi ro mất dữ liệu nếu một giá đỡ bị lỗi.

Vì vậy, node dự phòng được sử dụng trong một cụm thì không cần Node kiểm tra (Check point node).

Câu 20:

Chạy Start-dfs.sh kết quả là:

Lời giải: