Nút nào sau đây quản lý các nút khác?

NameNode

DataNode

SlaveNode

Không có đáp án nào đúng

Trả lời:

Đáp án đúng: A

NameNode trong Hadoop đóng vai trò là nút trung tâm quản lý không gian tên hệ thống tệp và điều phối quyền truy cập của các DataNode vào các tệp. Nó duy trì cây thư mục và siêu dữ liệu cho tất cả các tệp và thư mục trong hệ thống tệp Hadoop (HDFS). DataNode lưu trữ dữ liệu thực tế, và SlaveNode không phải là một thuật ngữ tiêu chuẩn trong Hadoop.

100+ câu hỏi trắc nghiệm Dữ liệu lớn giải thích chi tiết từng câu - Phần 1

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 41:

Có thể ghi là gì?

Lời giải:

Đáp án đúng: C

Câu hỏi yêu cầu xác định mục đích sử dụng của "Writes" trong ngữ cảnh Java.

* Phương án A: Mô tả "Writes" như một giao diện Java để truyền dữ liệu trực tuyến đến các máy chủ từ xa. Điều này có thể đúng trong một số trường hợp cụ thể, nhưng không phải là định nghĩa chung nhất hoặc duy nhất của "Writes".
* Phương án B: Mô tả "Writes" như một giao diện Java để ghi HDFS (Hadoop Distributed File System). Điều này cũng có thể đúng trong một ngữ cảnh cụ thể của Hadoop, nhưng không phải là định nghĩa chung nhất.
* Phương án C: Mô tả "Writes" như một giao diện Java để xử lý MapReduce. Điều này chính xác. Trong Hadoop MapReduce, một `OutputFormat` (và các lớp liên quan) định nghĩa cách dữ liệu đầu ra từ các mapper và reducer được ghi vào lưu trữ (ví dụ: HDFS). Các `RecordWriter` được sử dụng để ghi các bản ghi đầu ra thực tế. Do đó, có một mối liên hệ chặt chẽ giữa việc ghi dữ liệu và xử lý MapReduce. Các "Writes" đóng vai trò là một phần quan trọng trong quá trình này.
* Phương án D: Vì phương án C đúng, phương án này sai.

Vậy đáp án đúng là C. Writes là một giao diện Java cần được triển khai để xử lý MapReduce.

Câu 42:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:

Đáp án đúng: C

Hadoop xử lý khối lượng lớn dữ liệu bằng cách:

Sử dụng song song rất nhiều máy: Hadoop chạy trên một cluster các máy tính, cho phép xử lý dữ liệu song song và phân tán, tăng tốc đáng kể so với xử lý trên một máy đơn lẻ.

Tận dụng phần cứng MPP (Massively Parallel Processing): Hadoop được thiết kế để hoạt động hiệu quả trên các hệ thống MPP, nơi nhiều bộ xử lý làm việc cùng nhau để giải quyết một vấn đề.

Gửi mã đến dữ liệu (Data Locality): Thay vì di chuyển lượng lớn dữ liệu đến nơi có mã xử lý, Hadoop di chuyển mã xử lý đến gần dữ liệu nhất có thể. Điều này giảm thiểu việc truyền dữ liệu qua mạng, một yếu tố quan trọng khi làm việc với big data.

Phương án D không đúng vì NameNode quản lý metadata (dữ liệu về dữ liệu) chứ không trực tiếp xử lý dữ liệu. Việc sử dụng bộ nhớ đệm trên NameNode giúp tăng tốc truy cập metadata, nhưng không phải là yếu tố chính trong việc xử lý khối lượng lớn dữ liệu.

Câu 43:

Khi ghi dữ liệu vào HDFS điều gì là đúng nếu hệ số sao chép là ba? (Chọn 2 câu trả lời)

1 - Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware).

2 - Dữ liệu được lưu trữ trên mỗi Mã dữ liệu bằng một tệp riêng biệt chứa giá trị tổng kiểm tra.

3 - Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau.

4 - Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra.

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về cách HDFS hoạt động với hệ số sao chép.

* Ý 1: Đúng. Khi Rack Aware được kích hoạt (và thường là như vậy trong các cụm HDFS lớn), HDFS cố gắng đặt các bản sao dữ liệu trên các giá đỡ (rack) khác nhau để tăng khả năng chịu lỗi. Với hệ số sao chép là 3, HDFS sẽ cố gắng ghi dữ liệu lên 3 DataNode trên 3 rack khác nhau.
* Ý 2: Sai. Mặc dù dữ liệu được lưu trữ trên mỗi DataNode, nhưng việc lưu trữ bao gồm cả dữ liệu và thông tin kiểm tra tính toàn vẹn (checksum), tuy nhiên, không nhất thiết phải là các tệp riêng biệt. Checksum có thể được lưu trữ cùng với dữ liệu trong cùng một tệp hoặc trong các tệp metadata liên quan.
* Ý 3: Đúng. Hệ số sao chép 3 có nghĩa là dữ liệu được sao chép thành 3 bản và lưu trữ trên 3 DataNode khác nhau.
* Ý 4: Sai. Client chỉ nhận được thông báo thành công khi tất cả các bản sao (trong trường hợp này là 3 bản) đã được ghi thành công và checksum đã được xác minh. Việc trả về thành công sau khi chỉ ghi khối đầu tiên sẽ dẫn đến mất dữ liệu nếu các bản sao khác không thành công.

Vậy, các đáp án đúng là 1 & 3.

Câu 44:

Nhiệm vụ nào sau đây là trong số các nhiệm vụ của các DataNode trong HDFS?

E - Quản lý không gian tên hệ thống tệp.

Lời giải:

Đáp án đúng: D

DataNode trong HDFS chịu trách nhiệm lưu trữ các khối dữ liệu thực tế và phục vụ các yêu cầu đọc/ghi dữ liệu từ client và NameNode. Các nhiệm vụ chính của DataNode bao gồm: lưu trữ các khối dữ liệu, truy xuất các khối dữ liệu theo yêu cầu, báo cáo định kỳ về trạng thái của các khối dữ liệu mà nó đang lưu trữ cho NameNode (block reports), và thực hiện các thao tác đọc/ghi dữ liệu trên đĩa. Do đó, đáp án D là chính xác.

Câu 45:

Giao diện org.apache.hadoop.io.Writes khai báo hai phương thức nào? (Chọn 2 câu trả lời.)

Lời giải:

Đáp án đúng: A

Giao diện `org.apache.hadoop.io.Writable` trong Hadoop định nghĩa cách các đối tượng có thể được tuần tự hóa thành luồng byte để lưu trữ trên đĩa hoặc truyền qua mạng, và cách chúng có thể được giải tuần tự hóa từ luồng byte đó. Hai phương thức chính được khai báo trong giao diện này là `write(DataOutput out)` và `readFields(DataInput in)`. Phương thức `write` chịu trách nhiệm viết trạng thái của đối tượng vào `DataOutput`, trong khi `readFields` chịu trách nhiệm đọc trạng thái của đối tượng từ `DataInput`. Do đó, đáp án đúng là B (2 & 3)

Câu 46:

Câu nào sau đây là đúng đối với các cặp <key, value> của một công việc MapReduce?</key,>

Lời giải: