Công việc khung hadoop được viết bằng:

C++

Python

Java

Trả lời:

Đáp án đúng: C

Hadoop framework được viết bằng Java. Java là ngôn ngữ chính được sử dụng để phát triển Hadoop và các thành phần liên quan của nó. Mặc dù có các thư viện và công cụ cho phép sử dụng các ngôn ngữ khác như Python hoặc C++ để tương tác với Hadoop, nhưng lõi của Hadoop framework vẫn là Java.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 21:

Lệnh hadfs được sử dụng để:

Lời giải:

Đáp án đúng: B

Lệnh `hdfs` là giao diện dòng lệnh để tương tác với Hadoop Distributed File System (HDFS). Trong đó, lệnh `hadoop fs -copyFromLocal` (hoặc các biến thể như `hdfs dfs -copyFromLocal` hoặc `hdfs dfs -put`) được sử dụng để sao chép tệp hoặc thư mục từ hệ thống tệp cục bộ (local file system) lên HDFS. Vì vậy, đáp án B là chính xác nhất vì nó bao gồm cả tệp và thư mục. Các đáp án khác không chính xác vì chúng mô tả hướng sao chép ngược lại hoặc chỉ đề cập đến tệp mà không đề cập đến thư mục.

Câu 22:

Thuộc tính nào dưới đây được định cấu hình trên hadoop-env.sh?

Lời giải:

Đáp án đúng: D

hadoop-env.sh là một script cấu hình quan trọng trong Hadoop, được sử dụng để thiết lập môi trường hoạt động cho Hadoop. Nó chủ yếu chứa các biến môi trường Java (ví dụ như JAVA_HOME, HADOOP_CLASSPATH) và các cấu hình liên quan đến JVM (Java Virtual Machine) được sử dụng bởi các tiến trình Hadoop.

* A. Yếu tố nhân rộng: Yếu tố nhân rộng (replication factor) là thuộc tính của HDFS, được cấu hình trong `hdfs-site.xml`, không phải `hadoop-env.sh`.
* B. Tên thư mục để lưu trữ tệp hdfs: Tên thư mục lưu trữ tệp HDFS được cấu hình trong `hdfs-site.xml` bằng thuộc tính `dfs.namenode.name.dir` và `dfs.datanode.data.dir`, không phải trong `hadoop-env.sh`.
* C. Máy chủ và cổng nơi tác vụ MapReduce chạy: Địa chỉ máy chủ và cổng cho MapReduce được cấu hình trong `mapred-site.xml` (hoặc `yarn-site.xml` nếu sử dụng YARN), không phải trong `hadoop-env.sh`.
* D. Các biến môi trường Java: Đây là đáp án đúng. `hadoop-env.sh` được sử dụng để đặt các biến môi trường liên quan đến Java, ví dụ như đường dẫn đến thư mục cài đặt Java (JAVA_HOME), các tùy chọn JVM, v.v. Các biến này cần thiết để Hadoop có thể chạy các tiến trình Java của nó.

Câu 23:

Bản chất của phần cứng cho NameNode phải là:

Lời giải:

Đáp án đúng: A

NameNode là thành phần quan trọng nhất trong Hadoop Distributed File System (HDFS). Nó quản lý metadata của hệ thống tệp, bao gồm thông tin về các tệp, thư mục, và vị trí của các khối dữ liệu trên các DataNode. Do đó, NameNode cần phần cứng mạnh mẽ để đảm bảo hiệu suất và độ tin cậy.

Phương án A đúng vì NameNode cần phần cứng cao cấp hơn (cao cấp hơn loại hàng hóa - commodity hardware) để xử lý lượng lớn metadata và các hoạt động quản lý. Các DataNode thường sử dụng phần cứng loại hàng hóa để lưu trữ dữ liệu.

Phương án B sai vì DataNode thường sử dụng phần cứng loại hàng hóa, không phải NameNode.

Phương án C sai vì phần cứng của NameNode rất quan trọng.

Phương án D sai vì tuy RAM là yếu tố quan trọng, nhưng không phải là yếu tố duy nhất. CPU và khả năng I/O cũng rất quan trọng đối với NameNode.

Câu 24:

Người giữ vườn thú (zookeeper):

Lời giải:

Đáp án đúng: A

ZooKeeper là một dịch vụ điều phối tập trung, duy trì thông tin cấu hình, đặt tên, cung cấp đồng bộ hóa phân tán và dịch vụ nhóm. Trong Hadoop, ZooKeeper được sử dụng để quản lý cụm, đặc biệt là để duy trì danh sách tất cả các thành phần và địa chỉ IP của chúng. Điều này giúp các thành phần khác trong cụm Hadoop có thể tìm và giao tiếp với nhau một cách dễ dàng và đáng tin cậy. Các lựa chọn khác không mô tả đúng vai trò của Zookeeper trong cụm Hadoop.

Câu 25:

Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:

Lời giải:

Đáp án đúng: D

Khi một ứng dụng khách (client) muốn truy cập một tệp trong Hadoop Distributed File System (HDFS), nó sẽ liên hệ với NameNode. NameNode, sau khi kiểm tra quyền truy cập và các điều kiện khác, sẽ cung cấp cho client thông tin về vị trí của các khối (blocks) tạo nên tệp đó. Thông tin này bao gồm:

Block ID: Định danh duy nhất của mỗi khối dữ liệu.

Tên máy chủ (hostname) của DataNode: Địa chỉ của DataNode nơi chứa khối dữ liệu đó. HDFS thường sao chép mỗi khối dữ liệu trên nhiều DataNode để đảm bảo tính sẵn sàng và chịu lỗi. Vì vậy, NameNode sẽ cung cấp danh sách các DataNode chứa bản sao của khối dữ liệu đó. Client có thể chọn một trong các DataNode này để truy xuất dữ liệu.

Do đó, đáp án chính xác là D. Các lựa chọn khác không đầy đủ hoặc không chính xác về thông tin mà NameNode cung cấp cho client.

Câu 26:

Công cụ Hadoop được sử dụng để phân tán dữ liệu một cách đồng nhất trên các DataNode được đặt tên là:

Lời giải: