Con quỷ (demon) nào chịu trách nhiệm sao chép dữ liệu trong Hadoop?

HDFS

Trình theo dõi tác vụ

Trình theo dõi công việc

NameNode

undefined.

DataNode

Trả lời:

Đáp án đúng: D

Trong Hadoop, DataNode chịu trách nhiệm lưu trữ các khối dữ liệu (data blocks) trên các nút (nodes) riêng lẻ trong cụm (cluster). Để đảm bảo tính sẵn sàng và chịu lỗi của dữ liệu, Hadoop sao chép mỗi khối dữ liệu thành nhiều bản sao (replicas) và lưu trữ chúng trên các DataNode khác nhau. Quá trình sao chép này do chính các DataNode thực hiện theo hướng dẫn từ NameNode.

Các lựa chọn khác không đúng vì:

HDFS: Là hệ thống tệp phân tán, không phải là một daemon.
Task Tracker: Theo dõi việc thực thi các tác vụ MapReduce trên các nút dữ liệu.
Job Tracker: Điều phối các công việc MapReduce trên toàn bộ cụm.
NameNode: Quản lý metadata của hệ thống tệp HDFS, không trực tiếp sao chép dữ liệu.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 38:

Để áp dụng một bộ kết hợp, một thuộc tính phải được thỏa mãn bởi các giá trị được phát ra từ bộ ánh xạ là gì?

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về bộ kết hợp (Combiner) trong MapReduce. Bộ kết hợp là một chức năng tùy chọn giúp giảm lượng dữ liệu được truyền qua mạng bằng cách thực hiện các hoạt động giảm cục bộ trên mỗi nút ánh xạ (Mapper) trước khi dữ liệu được gửi đến bộ giảm (Reducer).

Để một bộ kết hợp có thể được áp dụng, đầu ra của bộ ánh xạ và bộ kết hợp phải có cùng kiểu cặp giá trị khóa-giá trị. Hơn nữa, các giá trị phải thỏa mãn thuộc tính liên kết và giao hoán (associative and commutative properties). Tính chất liên kết cho phép các phép toán được nhóm lại mà không ảnh hưởng đến kết quả, và tính chất giao hoán cho phép thay đổi thứ tự của các toán hạng mà không ảnh hưởng đến kết quả. Điều này đảm bảo rằng việc giảm cục bộ bằng bộ kết hợp sẽ cho kết quả tương đương với việc giảm trên toàn bộ dữ liệu sau khi dữ liệu đã được chuyển đến bộ giảm.

Các lựa chọn khác không đúng vì:

A: Bộ kết hợp không phải lúc nào cũng có thể được áp dụng cho mọi dữ liệu. Nó chỉ có thể được áp dụng nếu các giá trị thỏa mãn các thuộc tính cần thiết.
B: Đầu ra của bộ ánh xạ và bộ kết hợp phải cùng một cặp giá trị khóa và *phải* đồng nhất (cùng kiểu dữ liệu), chứ không phải "có thể không đồng nhất".

Câu 39:

Dữ liệu của Big Data là loại nào?

Lời giải:

Đáp án đúng: D

Big Data bao gồm tất cả các loại dữ liệu: có cấu trúc (Structured Data), bán cấu trúc (Semi-Structured Data) và phi cấu trúc (Unstructured Data).

* Structured Data (Dữ liệu có cấu trúc): Dữ liệu được tổ chức theo một định dạng nhất định, dễ dàng lưu trữ và truy vấn trong các cơ sở dữ liệu quan hệ (RDBMS). Ví dụ: dữ liệu trong bảng tính, cơ sở dữ liệu SQL.
* Semi-Structured Data (Dữ liệu bán cấu trúc): Dữ liệu không tuân theo một lược đồ cố định như dữ liệu có cấu trúc, nhưng vẫn có một số thông tin để mô tả cấu trúc dữ liệu. Ví dụ: dữ liệu JSON, XML.
* Unstructured Data (Dữ liệu phi cấu trúc): Dữ liệu không có cấu trúc xác định, rất khó để xử lý và phân tích trực tiếp. Ví dụ: văn bản, hình ảnh, âm thanh, video, log files.

Câu 40:

NoSQL là?

Lời giải:

Đáp án đúng: A

NoSQL (Not Only SQL) là một loại cơ sở dữ liệu khác với cơ sở dữ liệu quan hệ truyền thống (SQL). NoSQL thường được sử dụng để xử lý dữ liệu lớn, dữ liệu phi cấu trúc hoặc bán cấu trúc, và yêu cầu khả năng mở rộng cao. Trong các lựa chọn trên, Database (cơ sở dữ liệu) là đáp án chính xác nhất vì NoSQL đề cập đến một loại hệ quản trị cơ sở dữ liệu. Các lựa chọn còn lại (Field, Document, Collection) là các thành phần bên trong một cơ sở dữ liệu NoSQL, chứ không phải là định nghĩa của NoSQL.

Câu 41:

Cloudera phát triển công cụ nào?

Lời giải:

Đáp án đúng: B

Cloudera là một công ty phần mềm cung cấp nền tảng dữ liệu và phân tích dựa trên Apache Hadoop. Trong số các công cụ được liệt kê:

HCatalog: Là một hệ thống quản lý bảng và siêu dữ liệu cho Hadoop, cho phép các công cụ khác nhau trong hệ sinh thái Hadoop (như Pig, Hive, MapReduce) dễ dàng truy cập dữ liệu.

HBase: Là một cơ sở dữ liệu NoSQL, được thiết kế để lưu trữ và truy cập dữ liệu lớn một cách nhanh chóng.

Impala: Là một công cụ truy vấn SQL song song trên dữ liệu được lưu trữ trong Hadoop. Cloudera đã phát triển Impala.

Oozie: Là một hệ thống workflow scheduler để quản lý các công việc Hadoop.

Vậy, đáp án đúng là C. Impala.

Câu 42:

Chọn đúng 5 đặc trưng cho Big Data?

Lời giải:

Đáp án đúng: A

Big Data thường được mô tả bằng 5V: Volume (khối lượng), Velocity (tốc độ), Variety (đa dạng), Veracity (độ xác thực) và Value (giá trị).

* Volume (Khối lượng): Đề cập đến lượng dữ liệu khổng lồ được tạo ra và lưu trữ.
* Velocity (Tốc độ): Tốc độ dữ liệu được tạo ra và xử lý rất nhanh.
* Variety (Đa dạng): Dữ liệu đến từ nhiều nguồn khác nhau và ở nhiều định dạng khác nhau (có cấu trúc, bán cấu trúc, phi cấu trúc).
* Veracity (Độ xác thực): Đề cập đến độ tin cậy và chính xác của dữ liệu.
* Value (Giá trị): Khả năng chuyển đổi dữ liệu thành thông tin có giá trị, phục vụ cho việc ra quyết định.

Vì vậy, đáp án A là đáp án chính xác nhất. Các đáp án còn lại chứa các yếu tố không thuộc 5V đặc trưng của Big Data (Videos, Variability, Visualization).

Câu 43:

Variety (Tính đa dạng) là đặc trưng về?

Lời giải: