JobTracker chạy trên

NameNode

DataNode

Secondary NameNode

Secondary DataNode

Trả lời:

Đáp án đúng: A

JobTracker là một tiến trình quan trọng trong Hadoop 1.x, chịu trách nhiệm quản lý các công việc MapReduce. Nó chạy trên NameNode. NameNode là trung tâm quản lý của hệ thống tệp Hadoop (HDFS), lưu trữ metadata về các tệp và thư mục trong hệ thống. JobTracker làm việc với NameNode để xác định vị trí dữ liệu và lên lịch các tác vụ cho các DataNode.

100+ câu hỏi trắc nghiệm Dữ liệu lớn giải thích chi tiết từng câu - Phần 1

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 39:

Tùy chọn nào sau đây không phải là tùy chọn lập lịch có sẵn trong YARN?

Lời giải:

Đáp án đúng: A

YARN (Yet Another Resource Negotiator) là một hệ thống quản lý tài nguyên cluster. Nó cung cấp các tùy chọn lập lịch khác nhau để quản lý và phân bổ tài nguyên cho các ứng dụng. Ba tùy chọn lập lịch phổ biến trong YARN là: Fair Scheduler (Lập lịch trình công bằng), Capacity Scheduler (Bộ lập lịch dung lượng) và FIFO Scheduler (Máy quét FIFO, thực chất là FIFO Queue).

* Fair Scheduler (Lập lịch trình công bằng): Phân bổ tài nguyên một cách công bằng giữa các ứng dụng đang chạy. Nếu chỉ có một ứng dụng, nó sẽ sử dụng toàn bộ cluster. Khi có các ứng dụng khác được gửi, nó sẽ chia sẻ tài nguyên, sao cho mỗi ứng dụng đều nhận được một phần tài nguyên công bằng.
* Capacity Scheduler (Bộ lập lịch dung lượng): Cho phép nhiều tổ chức chia sẻ một cluster Hadoop trong khi vẫn đảm bảo mỗi tổ chức có thể truy cập một dung lượng nhất định của cluster. Điều này được thực hiện bằng cách thiết lập các hàng đợi (queues) với dung lượng tối thiểu được đảm bảo.
* FIFO Scheduler (Máy quét FIFO): Ứng dụng được thực hiện theo thứ tự đến trước phục vụ trước (First-In-First-Out). Ứng dụng đến trước sẽ được cấp tài nguyên trước.

"Bộ lập lịch cân bằng" (Bộ lập lịch cân bằng) không phải là một tùy chọn lập lịch chính thức hoặc được công nhận trong YARN. Do đó, đây là tùy chọn không có sẵn.

Câu 40:

Nút nào sau đây quản lý các nút khác?

Lời giải:

Đáp án đúng: A

NameNode trong Hadoop đóng vai trò là nút trung tâm quản lý không gian tên hệ thống tệp và điều phối quyền truy cập của các DataNode vào các tệp. Nó duy trì cây thư mục và siêu dữ liệu cho tất cả các tệp và thư mục trong hệ thống tệp Hadoop (HDFS). DataNode lưu trữ dữ liệu thực tế, và SlaveNode không phải là một thuật ngữ tiêu chuẩn trong Hadoop.

Câu 41:

Có thể ghi là gì?

Lời giải:

Đáp án đúng: C

Câu hỏi yêu cầu xác định mục đích sử dụng của "Writes" trong ngữ cảnh Java.

* Phương án A: Mô tả "Writes" như một giao diện Java để truyền dữ liệu trực tuyến đến các máy chủ từ xa. Điều này có thể đúng trong một số trường hợp cụ thể, nhưng không phải là định nghĩa chung nhất hoặc duy nhất của "Writes".
* Phương án B: Mô tả "Writes" như một giao diện Java để ghi HDFS (Hadoop Distributed File System). Điều này cũng có thể đúng trong một ngữ cảnh cụ thể của Hadoop, nhưng không phải là định nghĩa chung nhất.
* Phương án C: Mô tả "Writes" như một giao diện Java để xử lý MapReduce. Điều này chính xác. Trong Hadoop MapReduce, một `OutputFormat` (và các lớp liên quan) định nghĩa cách dữ liệu đầu ra từ các mapper và reducer được ghi vào lưu trữ (ví dụ: HDFS). Các `RecordWriter` được sử dụng để ghi các bản ghi đầu ra thực tế. Do đó, có một mối liên hệ chặt chẽ giữa việc ghi dữ liệu và xử lý MapReduce. Các "Writes" đóng vai trò là một phần quan trọng trong quá trình này.
* Phương án D: Vì phương án C đúng, phương án này sai.

Vậy đáp án đúng là C. Writes là một giao diện Java cần được triển khai để xử lý MapReduce.

Câu 42:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:

Đáp án đúng: C

Hadoop xử lý khối lượng lớn dữ liệu bằng cách:

Sử dụng song song rất nhiều máy: Hadoop chạy trên một cluster các máy tính, cho phép xử lý dữ liệu song song và phân tán, tăng tốc đáng kể so với xử lý trên một máy đơn lẻ.

Tận dụng phần cứng MPP (Massively Parallel Processing): Hadoop được thiết kế để hoạt động hiệu quả trên các hệ thống MPP, nơi nhiều bộ xử lý làm việc cùng nhau để giải quyết một vấn đề.

Gửi mã đến dữ liệu (Data Locality): Thay vì di chuyển lượng lớn dữ liệu đến nơi có mã xử lý, Hadoop di chuyển mã xử lý đến gần dữ liệu nhất có thể. Điều này giảm thiểu việc truyền dữ liệu qua mạng, một yếu tố quan trọng khi làm việc với big data.

Phương án D không đúng vì NameNode quản lý metadata (dữ liệu về dữ liệu) chứ không trực tiếp xử lý dữ liệu. Việc sử dụng bộ nhớ đệm trên NameNode giúp tăng tốc truy cập metadata, nhưng không phải là yếu tố chính trong việc xử lý khối lượng lớn dữ liệu.

Câu 43:

Khi ghi dữ liệu vào HDFS điều gì là đúng nếu hệ số sao chép là ba? (Chọn 2 câu trả lời)

1 - Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware).

2 - Dữ liệu được lưu trữ trên mỗi Mã dữ liệu bằng một tệp riêng biệt chứa giá trị tổng kiểm tra.

3 - Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau.

4 - Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra.

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về cách HDFS hoạt động với hệ số sao chép.

* Ý 1: Đúng. Khi Rack Aware được kích hoạt (và thường là như vậy trong các cụm HDFS lớn), HDFS cố gắng đặt các bản sao dữ liệu trên các giá đỡ (rack) khác nhau để tăng khả năng chịu lỗi. Với hệ số sao chép là 3, HDFS sẽ cố gắng ghi dữ liệu lên 3 DataNode trên 3 rack khác nhau.
* Ý 2: Sai. Mặc dù dữ liệu được lưu trữ trên mỗi DataNode, nhưng việc lưu trữ bao gồm cả dữ liệu và thông tin kiểm tra tính toàn vẹn (checksum), tuy nhiên, không nhất thiết phải là các tệp riêng biệt. Checksum có thể được lưu trữ cùng với dữ liệu trong cùng một tệp hoặc trong các tệp metadata liên quan.
* Ý 3: Đúng. Hệ số sao chép 3 có nghĩa là dữ liệu được sao chép thành 3 bản và lưu trữ trên 3 DataNode khác nhau.
* Ý 4: Sai. Client chỉ nhận được thông báo thành công khi tất cả các bản sao (trong trường hợp này là 3 bản) đã được ghi thành công và checksum đã được xác minh. Việc trả về thành công sau khi chỉ ghi khối đầu tiên sẽ dẫn đến mất dữ liệu nếu các bản sao khác không thành công.

Vậy, các đáp án đúng là 1 & 3.

Câu 44:

Nhiệm vụ nào sau đây là trong số các nhiệm vụ của các DataNode trong HDFS?

E - Quản lý không gian tên hệ thống tệp.

Lời giải: