Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:

Hệ thống nào cho phép đọc ghi dữ liệu tại vị trí ngẫu nhiên, thời gian thực tới hàng terabyte dữ liệu:

Lời giải:

Đáp án đúng: A

Hệ thống Hbase là một cơ sở dữ liệu NoSQL mã nguồn mở, phân tán và có khả năng mở rộng, được xây dựng trên Hadoop. Nó cung cấp khả năng truy cập đọc/ghi ngẫu nhiên, thời gian thực vào lượng dữ liệu lớn (hàng terabyte trở lên). Hbase được thiết kế để lưu trữ và xử lý các tập dữ liệu lớn, thưa thớt (sparse datasets).

Các lựa chọn khác không phù hợp vì:

* Flume: Là một hệ thống dùng để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu log từ nhiều nguồn khác nhau đến kho lưu trữ tập trung như HDFS.
* Pig: Là một nền tảng cấp cao để tạo các chương trình MapReduce. Nó đơn giản hóa việc viết các truy vấn phức tạp trên Hadoop.
* HDFS (Hadoop Distributed File System): Là một hệ thống tệp phân tán được thiết kế để lưu trữ lượng lớn dữ liệu, nhưng nó không tối ưu cho việc truy cập đọc/ghi ngẫu nhiên, thời gian thực.

Câu 9:

Khi một jobTracker lên lịch, một công việc sẽ được tìm kiếm đầu tiên:

Lời giải:

Đáp án đúng: A

Khi JobTracker lên lịch một công việc, nó ưu tiên tìm kiếm một nút có vị trí trống trên cùng giá đỡ (rack) với DataNode chứa dữ liệu mà công việc đó cần xử lý. Điều này giúp giảm thiểu lưu lượng mạng liên rack, tăng tốc độ xử lý và hiệu quả tổng thể của hệ thống Hadoop.

* Tại sao các lựa chọn khác không đúng:
* B: Chọn "bất kỳ nút nào trên cùng giá đỡ" có vẻ hợp lý, nhưng lựa chọn A chính xác hơn vì nó nhấn mạnh việc tìm kiếm một vị trí *trống* trên cùng rack, tối ưu hóa việc sử dụng tài nguyên.
* C: Chọn nút trên rack liền kề sẽ làm tăng độ trễ mạng so với việc chọn nút trên cùng rack.
* D: Chọn bất kỳ nút nào trong cụm không tối ưu hóa vị trí dữ liệu và có thể dẫn đến truyền dữ liệu tốn kém qua mạng.

Câu 10:

Khi một máy được khai báo là datanode, dung lượng ổ đĩa trong đó:

Lời giải:

Đáp án đúng: B

Khi một máy được khai báo là Datanode trong Hadoop, dung lượng ổ đĩa của nó có thể được sử dụng cho cả lưu trữ HDFS (Hadoop Distributed File System) và các mục đích lưu trữ khác không liên quan đến HDFS. Điều này có nghĩa là, ngoài việc lưu trữ các khối dữ liệu của HDFS, bạn vẫn có thể sử dụng không gian còn lại trên ổ đĩa đó cho các tệp tin và dữ liệu khác mà không cần đến Hadoop.

* Phương án A sai vì dung lượng ổ đĩa không chỉ giới hạn cho việc lưu trữ HDFS.
* Phương án C sai vì các tệp tin trên ổ đĩa vẫn có thể được truy cập bằng các lệnh thông thường của hệ điều hành, không nhất thiết phải thông qua các lệnh Hadoop (nếu chúng không thuộc HDFS).
* Phương án D sai vì HDFS hoàn toàn có thể lưu trữ các tệp văn bản.

Do đó, phương án B là chính xác nhất.

Câu 11:

Mô tả cách thức một client đọc dữ liệu trên HDFS:

Lời giải:

Đáp án đúng: D

Quá trình đọc dữ liệu trên HDFS diễn ra như sau:

Client gửi yêu cầu đến Namenode: Client muốn đọc dữ liệu, nó gửi yêu cầu đến Namenode để biết vị trí của các chunk dữ liệu tạo nên file cần đọc.

Namenode cung cấp thông tin vị trí: Namenode, dựa vào metadata nó quản lý, sẽ trả về cho client danh sách các Datanode đang chứa các chunk dữ liệu cần thiết.

Client kết nối và đọc dữ liệu từ Datanode: Client sử dụng thông tin nhận được từ Namenode để kết nối trực tiếp đến các Datanode chứa dữ liệu. Client sẽ kết nối song song đến nhiều Datanode để đọc các chunk dữ liệu khác nhau, giúp tăng tốc độ đọc.

Dữ liệu được trả về Client: Các Datanode gửi dữ liệu trực tiếp về cho Client.

Như vậy, đáp án D mô tả chính xác quy trình này.

Câu 12:

NameNode biết rằng DataNode đang hoạt động bằng cách sử dụng một cơ chế được gọi là:

Lời giải:

Đáp án đúng: A

NameNode theo dõi trạng thái hoạt động của DataNode bằng cách sử dụng cơ chế Heartbeat. DataNode định kỳ gửi thông điệp Heartbeat đến NameNode để báo hiệu rằng nó vẫn đang hoạt động và có sẵn để phục vụ dữ liệu. Nếu NameNode không nhận được Heartbeat từ một DataNode trong một khoảng thời gian nhất định, nó sẽ đánh dấu DataNode đó là đã chết (dead) và sẽ bắt đầu quá trình sao chép các khối dữ liệu được lưu trữ trên DataNode đó sang các DataNode khác để đảm bảo tính sẵn sàng của dữ liệu. Các tùy chọn khác không phải là thuật ngữ hoặc cơ chế được sử dụng trong Hadoop.

Câu 13:

NameNode mất bản sao duy nhất của tệp fsimage. Chúng ta có thể khôi phục điều này từ:

Lời giải: