Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải:

Đáp án đúng: C

Tính năng "định vị dữ liệu" (data locality) trong Hadoop là một khái niệm quan trọng nhằm tối ưu hóa hiệu suất xử lý dữ liệu. Thay vì di chuyển dữ liệu đến nơi các nút tính toán đang hoạt động, Hadoop cố gắng đưa các tác vụ tính toán đến gần dữ liệu nhất có thể. Điều này giúp giảm thiểu việc truyền dữ liệu qua mạng, vốn là một hoạt động tốn kém về thời gian và tài nguyên. Do đó, đáp án đúng là "Đồng định vị dữ liệu với các nút tính toán". Các đáp án khác không mô tả chính xác khái niệm này.

Câu 15:

Các tệp HDFS được thiết kế cho:

Lời giải:

Đáp án đúng: B

Các tệp trong HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ dữ liệu lớn và được truy cập theo kiểu ghi một lần và đọc nhiều lần. Điều này có nghĩa là dữ liệu thường được ghi vào tệp một lần và sau đó được đọc nhiều lần, nhưng không được sửa đổi tùy ý.

Phương án A không đúng vì HDFS không được thiết kế cho việc nhiều người cùng ghi và sửa đổi dữ liệu một cách tùy ý, điều này có thể dẫn đến xung đột và khó khăn trong việc quản lý dữ liệu.

Phương án B gần đúng, nhưng phương án C chính xác hơn. HDFS được tối ưu hóa cho việc ghi một lần và đọc nhiều lần hơn là chỉ nối vào cuối tệp.

Phương án C là đáp án chính xác. HDFS được thiết kế để dữ liệu được ghi vào tệp một lần duy nhất. Sau khi ghi, dữ liệu sẽ được đọc nhiều lần nhưng không được sửa đổi trực tiếp.

Phương án D không đúng vì HDFS không được thiết kế để truy cập dữ liệu có độ trễ thấp. Nó được thiết kế để lưu trữ và xử lý dữ liệu lớn, do đó độ trễ truy cập có thể cao hơn so với các hệ thống lưu trữ khác.

Câu 16:

DataNode và NameNode là tương ứng:

Lời giải:

Đáp án đúng: B

Trong kiến trúc Hadoop, NameNode đóng vai trò là nút chính (master node), chịu trách nhiệm quản lý không gian tên của hệ thống tệp tin và điều phối truy cập tệp tin từ các DataNode. DataNode đóng vai trò là nút công nhân (worker node), lưu trữ các khối dữ liệu thực tế và phục vụ dữ liệu theo yêu cầu của NameNode.

Câu 17:

Trong đĩa cục bộ của NameNode, các tệp được lưu trữ liên tục là:

Lời giải:

Đáp án đúng: A

NameNode lưu trữ hai loại tệp liên tục trên đĩa cục bộ: hình ảnh không gian tên (Namespace Image) và nhật ký chỉnh sửa (Edit Log). Hình ảnh không gian tên là một bản chụp nhanh của hệ thống tệp Hadoop tại một thời điểm nhất định. Nhật ký chỉnh sửa ghi lại tất cả các thay đổi được thực hiện đối với hệ thống tệp sau khi tạo hình ảnh không gian tên cuối cùng. Các thay đổi này bao gồm việc tạo tệp, xóa tệp và sửa đổi siêu dữ liệu tệp. Khi NameNode khởi động, nó tải hình ảnh không gian tên từ đĩa và sau đó áp dụng tất cả các chỉnh sửa từ nhật ký chỉnh sửa để đưa hệ thống tệp về trạng thái hiện tại. Vì vậy, đáp án đúng là A.

Câu 18:

Hadoop sử dụng những cơ chế nào để làm cho NameNode có khả năng chống lại sự cố?

Lời giải:

Đáp án đúng: A

Hadoop sử dụng hai cơ chế chính để đảm bảo khả năng chống chịu lỗi cho NameNode:

Sao lưu siêu dữ liệu (metadata) hệ thống tệp vào đĩa cục bộ: NameNode định kỳ ghi lại trạng thái của hệ thống tệp (ví dụ: cấu trúc thư mục, quyền truy cập, v.v.) vào một tệp trên đĩa cục bộ. Điều này đảm bảo rằng nếu NameNode gặp sự cố, nó có thể khôi phục trạng thái hệ thống tệp từ bản sao lưu này.

Gắn kết NFS từ xa (Network File System): NameNode có thể sao lưu siêu dữ liệu vào một hệ thống tệp NFS được gắn kết từ xa. Điều này cung cấp thêm một lớp bảo vệ bằng cách lưu trữ bản sao của siêu dữ liệu trên một máy chủ khác, giảm nguy cơ mất dữ liệu nếu máy chủ NameNode chính bị lỗi.

Các lựa chọn khác không liên quan trực tiếp đến khả năng chịu lỗi của NameNode trong Hadoop:

Lưu trữ siêu dữ liệu trên đám mây có thể là một lựa chọn sao lưu, nhưng không phải là cơ chế mặc định hoặc tiêu chuẩn được Hadoop sử dụng cho khả năng chịu lỗi NameNode.

Số lượng CPU không ảnh hưởng trực tiếp đến khả năng chịu lỗi.

Sử dụng phần cứng đắt tiền có thể tăng độ tin cậy, nhưng không giải quyết vấn đề mất dữ liệu trong trường hợp lỗi phần cứng hoặc phần mềm. Hadoop được thiết kế để chạy trên phần cứng commodity (tiêu chuẩn) và cung cấp khả năng chịu lỗi thông qua các cơ chế phần mềm.

Câu 19:

Trong Hadoop 2.x, liên kết HDFS phát hành có nghĩa là:

Lời giải: