Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải:

Đáp án đúng: C

Tính năng định vị dữ liệu (Data Locality) trong Hadoop là một yếu tố quan trọng để tối ưu hóa hiệu suất. Nó có nghĩa là Hadoop cố gắng đưa quá trình tính toán đến gần dữ liệu nhất có thể, thay vì di chuyển dữ liệu đến nơi tính toán. Điều này giúp giảm thiểu việc truyền dữ liệu qua mạng, vốn là một hoạt động tốn kém về thời gian và băng thông. Do đó, đáp án đúng là C: Đồng định vị dữ liệu với các nút tính toán. Các đáp án khác không mô tả đúng ý nghĩa của Data Locality:

- A. Lưu trữ cùng một dữ liệu trên nhiều nút: Đây là tính năng sao lưu dữ liệu (replication) để đảm bảo tính sẵn sàng và độ tin cậy, không phải là định vị dữ liệu.
- B. Chuyển vị trí dữ liệu từ nút này sang nút khác: Đây là điều Hadoop cố gắng tránh bằng cách sử dụng định vị dữ liệu.
- D. Phân phối dữ liệu trên nhiều nút: Đây là cách Hadoop lưu trữ dữ liệu, nhưng không giải thích tại sao Hadoop lại phân phối dữ liệu như vậy. Định vị dữ liệu giải thích lý do: để các nút tính toán có thể truy cập dữ liệu cục bộ một cách hiệu quả.

Câu 27:

Các tệp HDFS được thiết kế cho:

Lời giải:

Đáp án đúng: B

Các tệp trong HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ dữ liệu lớn và được truy cập theo kiểu ghi một lần, đọc nhiều lần. Điều này có nghĩa là:

* A. Sai: HDFS không được thiết kế cho việc nhiều người viết và sửa đổi tệp một cách tùy ý. Việc này có thể dẫn đến xung đột và làm hỏng dữ liệu.
* B. Sai: Mặc dù có thể thực hiện việc ghi nối vào cuối tệp, nhưng đây không phải là thiết kế chính của HDFS.
* C. Đúng: Các tệp HDFS được thiết kế để ghi một lần duy nhất. Sau khi tệp đã được ghi, nó thường không được sửa đổi nữa. Điều này giúp đơn giản hóa việc quản lý dữ liệu và đảm bảo tính nhất quán.
* D. Sai: HDFS không được thiết kế cho việc truy cập dữ liệu có độ trễ thấp. Nó được tối ưu hóa cho việc xử lý dữ liệu lớn theo lô.

Do đó, đáp án C là đáp án đúng nhất.

Câu 28:

Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố?

Lời giải:

Đáp án đúng: A

Trong Hadoop, NameNode là thành phần quan trọng quản lý siêu dữ liệu của hệ thống tệp. Để đảm bảo khả năng chống chịu lỗi (fault tolerance) cho NameNode, Hadoop sử dụng các cơ chế sau:

Sao lưu siêu dữ liệu hệ thống tệp vào đĩa cục bộ: NameNode lưu trữ siêu dữ liệu (metadata) của hệ thống tệp HDFS (Hadoop Distributed File System) trên đĩa cục bộ. Việc này cho phép NameNode phục hồi trạng thái của hệ thống tệp trong trường hợp gặp sự cố.
Gắn kết NFS từ xa: Ngoài việc lưu trữ siêu dữ liệu trên đĩa cục bộ, NameNode còn có thể sao lưu siêu dữ liệu vào một hệ thống tệp mạng (Network File System - NFS) từ xa. Điều này cung cấp một bản sao lưu dự phòng trong trường hợp cả NameNode và đĩa cục bộ đều gặp sự cố.

Các phương án khác không phải là cơ chế chính để đảm bảo khả năng chống chịu lỗi cho NameNode:

Lưu trữ siêu dữ liệu trên đám mây có thể là một giải pháp sao lưu, nhưng không phải là cơ chế mặc định được Hadoop sử dụng.
Việc sử dụng máy có nhiều CPU (12 CPU) không trực tiếp đảm bảo khả năng chống chịu lỗi.
Sử dụng phần cứng đắt tiền và đáng tin cậy có thể giảm thiểu rủi ro hỏng hóc, nhưng không phải là một cơ chế sao lưu hoặc phục hồi tích hợp sẵn trong Hadoop.

Câu 29:

Khi chạy trên chế độ phân phối giả lập, hệ số sao chép được đặt thành:

Lời giải:

Đáp án đúng: B

Trong chế độ phân phối giả lập (pseudo-distributed mode) của Hadoop, tất cả các tiến trình Hadoop (NameNode, DataNode, ResourceManager, NodeManager, v.v.) chạy trên một nút đơn. Vì chỉ có một DataNode, hệ số sao chép (replication factor) mặc định được đặt thành 1. Điều này có nghĩa là mỗi khối dữ liệu chỉ được lưu trữ một bản duy nhất trên nút đó.

Vậy đáp án đúng là B.

Câu 30:

Sự khác biệt giữa chế độ độc lập và giả phân phối là:

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra sự hiểu biết về sự khác biệt giữa chế độ độc lập (Standalone mode) và chế độ giả phân tán (Pseudo-Distributed mode) trong Hadoop.

Chế độ độc lập (Standalone mode): Đây là chế độ đơn giản nhất, thường được sử dụng cho mục đích gỡ lỗi hoặc phát triển. Trong chế độ này, tất cả các tiến trình Hadoop (NameNode, DataNode, ResourceManager, NodeManager) đều chạy trên cùng một máy ảo Java (JVM). Nó không yêu cầu cấu hình phức tạp và không sử dụng HDFS.

Chế độ giả phân tán (Pseudo-Distributed mode): Trong chế độ này, tất cả các tiến trình Hadoop cũng chạy trên cùng một máy, nhưng mỗi tiến trình chạy trong một JVM riêng biệt. Nó vẫn sử dụng HDFS và yêu cầu cấu hình. Chế độ này được sử dụng để mô phỏng một cụm Hadoop thực tế trên một máy duy nhất.

Phân tích các lựa chọn:

A. Đứng một mình không thể sử dụng bản đồ giảm: Sai. Chế độ độc lập vẫn có thể sử dụng MapReduce.

B. Đứng riêng có một quy trình java duy nhất chạy trong đó: Đúng. Trong chế độ độc lập, tất cả các tiến trình Hadoop chạy trong cùng một JVM.

C. Chế độ phân tán giả không sử dụng HDFS: Sai. Chế độ giả phân tán sử dụng HDFS.

D. Chế độ phân tán giả cần hai hoặc nhiều máy vật lý: Sai. Chế độ giả phân tán chạy trên một máy duy nhất.

Do đó, đáp án đúng là B.

Câu 31:

Trong Hadoop, Snappy và LZO là những ví dụ về:

Lời giải: