Chạy Start-dfs.sh kết quả là:

Bắt đầu NameNode và DataNode

Chỉ NameNode bắt đầu

Chỉ bắt đầu datanode

Khởi động NameNode và trình quản lý tài nguyên

Trả lời:

Đáp án đúng: A

start-dfs.sh là một script được sử dụng trong Hadoop để khởi động các thành phần cơ bản của Hadoop Distributed File System (HDFS). Khi chạy script này, nó sẽ thực hiện việc khởi động NameNode và DataNode. NameNode là node quản lý metadata của hệ thống tệp tin, còn DataNode là node lưu trữ dữ liệu thực tế.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 21:

Lệnh "hadoop fs -test -z URI" cho kết quả 0 nếu:

Lời giải:

Đáp án đúng: D

Lệnh `hadoop fs -test -z URI` được sử dụng để kiểm tra xem một tệp có độ dài bằng 0 hay không. Nếu tệp tồn tại và có độ dài bằng 0, lệnh sẽ trả về mã thoát (exit code) là 0. Nếu không, nó sẽ trả về một mã thoát khác 0.

* A. Nếu đường dẫn là một thư mục: Lệnh này không kiểm tra xem đường dẫn có phải là thư mục hay không.
* B. Nếu đường dẫn là một tệp: Lệnh này kiểm tra đường dẫn là một tệp và độ dài của nó.
* C. Nếu đường dẫn không trống: Lệnh này kiểm tra xem tệp có độ dài bằng 0, không phải là kiểm tra xem đường dẫn có tồn tại hay không.
* D. Nếu tệp có độ dài bằng 0: Đây là đáp án chính xác. Lệnh `-z` dùng để kiểm tra xem tệp có độ dài bằng 0 hay không.

Vậy đáp án đúng là D. Nếu tệp có độ dài bằng 0.

Câu 22:

Để hủy lưu trữ một tệp đã được lưu trữ trong Hadoop, hãy sử dụng lệnh:

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về các lệnh thao tác với file lưu trữ trong Hadoop. Trong Hadoop, tệp tin được lưu trữ bằng định dạng HAR (Hadoop Archive). Để giải nén hoặc hủy lưu trữ một tệp HAR, ta sử dụng lệnh unhar.

A. Unrar: Lệnh này dùng để giải nén file .rar, không phải định dạng HAR của Hadoop.

B. Unhar: Đây là lệnh đúng để hủy lưu trữ tệp HAR trong Hadoop.

C. Cp: Lệnh này dùng để sao chép tệp, không phải để hủy lưu trữ.

D. Cphar: Không phải là một lệnh hợp lệ trong Hadoop.

Câu 23:

Một công việc đang chạy trong hadoop:

Lời giải:

Đáp án đúng: A

Trong Hadoop, một công việc đang chạy có thể bị dừng (killed) thông qua một lệnh. Các công cụ quản lý tài nguyên của Hadoop như YARN cung cấp các lệnh để người dùng hoặc quản trị viên có thể dừng một job đang thực thi. Việc tắt NameNode là một hành động có ảnh hưởng lớn đến toàn bộ cluster và không phải là cách thông thường để dừng một job cụ thể. Job không bị tạm dừng và chạy lại theo mặc định khi muốn dừng nó; thay vào đó, nó sẽ bị hủy bỏ hoàn toàn.

Câu 24:

Số lượng nhiệm vụ mà trình theo dõi tác vụ có thể chấp nhận phụ thuộc vào:

Lời giải:

Đáp án đúng: C

Số lượng nhiệm vụ mà một TaskTracker (trình theo dõi tác vụ) có thể chấp nhận không phải là vô hạn, cũng không phụ thuộc vào bộ nhớ tối đa của nút một cách trực tiếp, cũng không phải do JobTracker quyết định một cách tùy ý. Thay vào đó, nó phụ thuộc vào số lượng khe (slots) được cấu hình trong TaskTracker đó. Mỗi khe có thể chạy một tác vụ (task) duy nhất. Do đó, số lượng khe cắm trực tiếp xác định số lượng tác vụ mà TaskTracker có thể thực hiện đồng thời.

* A. Bộ nhớ tối đa có sẵn trong nút: Bộ nhớ có vai trò quan trọng trong việc thực thi tác vụ, nhưng số lượng tác vụ không trực tiếp phụ thuộc vào tổng bộ nhớ mà phụ thuộc vào số lượng khe cắm.
* B. Không giới hạn: Điều này không đúng vì tài nguyên của TaskTracker là có hạn.
* C. Số lượng khe cắm được định cấu hình trong đó: Đây là đáp án chính xác. Số lượng khe cắm xác định số lượng tác vụ tối đa mà TaskTracker có thể xử lý đồng thời.
* D. Theo quyết định của JobTracker: JobTracker có vai trò điều phối và giao việc, nhưng số lượng tác vụ mà TaskTracker *có thể* chấp nhận bị giới hạn bởi cấu hình của chính nó (số lượng khe cắm).

Câu 25:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:

Lời giải:

Đáp án đúng: C

Hadoop và HPC đều sử dụng nhiều máy để xử lý dữ liệu. Tuy nhiên, Hadoop được thiết kế để xử lý khối lượng dữ liệu lớn hơn (Big Data) trên một số lượng máy lớn hơn so với HPC. HPC thường tập trung vào việc xử lý các tác vụ tính toán chuyên sâu với tốc độ cao, trong khi Hadoop tập trung vào khả năng mở rộng và khả năng chịu lỗi.

* A. Có thể xử lý khối lượng dữ liệu lớn hơn: Đúng. Hadoop được thiết kế để xử lý petabyte dữ liệu, lớn hơn nhiều so với khả năng của HPC truyền thống.
* B. Có thể chạy trên một số lượng máy lớn hơn HPC cluster: Đúng. Hadoop có thể mở rộng quy mô đến hàng ngàn máy chủ, trong khi HPC thường giới hạn ở một vài trăm hoặc nghìn máy.
* C. Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC: Sai. HPC thường được tối ưu hóa cho tốc độ xử lý cao, trong khi Hadoop tập trung vào khả năng mở rộng và chịu lỗi.
* D. Không thể chạy các công việc tính toán chuyên sâu: Sai. Hadoop có thể chạy các công việc tính toán chuyên sâu, nhưng nó không phải là điểm mạnh của Hadoop so với HPC.

Vì vậy, đáp án đúng nhất là A và B. Tuy nhiên, vì câu hỏi chỉ yêu cầu chọn MỘT đáp án, và phương án B thể hiện rõ hơn sự khác biệt cốt lõi về mặt kiến trúc và khả năng mở rộng giữa Hadoop và HPC, nên B được chọn làm đáp án tối ưu nhất.

Câu 26:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải: