Máy khách đọc dữ liệu từ hệ thống tệp HDFS trong Hadoop:

Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

Lời giải:

Đáp án đúng: D

Lệnh hdfs dfs -copyFromLocal được sử dụng để sao chép tệp từ hệ thống tệp cục bộ vào hệ thống tệp Hadoop (HDFS). Các biến thể khác như CopyFromLocal, CopyLocal, và copyfromlocal không phải là các lệnh hợp lệ trong HDFS. Do đó, đáp án đúng là copyFromLocal.

Câu 36:

Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:

Lời giải:

Đáp án đúng: C

Đáp án đúng là C. Flume.

Flume: Là một hệ thống phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký một cách hiệu quả từ nhiều nguồn khác nhau đến kho lưu trữ dữ liệu tập trung như Hadoop HDFS. Flume có thể xử lý dữ liệu phát trực tuyến (streaming data) một cách liên tục.
Oozie: Là một hệ thống điều phối công việc (workflow scheduler) để quản lý và lên lịch các công việc Hadoop.
Kafka: Là một nền tảng truyền tải thông điệp phân tán (distributed streaming platform) thường được sử dụng để xây dựng các pipeline dữ liệu thời gian thực (real-time data pipelines) và các ứng dụng phát trực tuyến (streaming applications). Mặc dù Kafka có thể lưu trữ dữ liệu, nhưng nó không trực tiếp nhập dữ liệu vào Hadoop theo cách mà Flume làm.
Hive: Là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cung cấp các chức năng tóm tắt, truy vấn và phân tích dữ liệu.

Câu 37:

Công nghệ nào được sử dụng để tuần tự hóa dữ liệu trong Hadoop?

Lời giải:

Đáp án đúng: B

Phân tích câu hỏi:

Câu hỏi này kiểm tra kiến thức về các công nghệ được sử dụng trong hệ sinh thái Hadoop, đặc biệt là công nghệ tuần tự hóa dữ liệu.

Đánh giá các phương án:

A. HBase: Là một hệ quản trị cơ sở dữ liệu NoSQL, lưu trữ dữ liệu dạng cột, không phải là công cụ tuần tự hóa dữ liệu.
B. Avro: Là một framework tuần tự hóa dữ liệu. Nó cung cấp cơ chế để chuyển đổi các đối tượng dữ liệu thành định dạng nhị phân, cho phép lưu trữ và truyền dữ liệu một cách hiệu quả. Avro được sử dụng rộng rãi trong Hadoop để tuần tự hóa dữ liệu, đặc biệt là cho dữ liệu được lưu trữ trong HDFS.
C. Sqoop: Là một công cụ để truyền dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS), không phải là công cụ tuần tự hóa dữ liệu.
D. Zookeeper: Là một dịch vụ điều phối tập trung, cung cấp khả năng đồng bộ hóa và quản lý cấu hình cho các ứng dụng phân tán, không phải là công cụ tuần tự hóa dữ liệu.

Kết luận:

Avro là công nghệ phù hợp nhất để tuần tự hóa dữ liệu trong Hadoop.

Câu 38:

Điều nào sau đây không đúng đối với Hadoop?

Lời giải:

Đáp án đúng: B

Câu hỏi yêu cầu tìm phát biểu không đúng về Hadoop.

A. Đây là một khung phân tán: Đúng. Hadoop là một framework mã nguồn mở được sử dụng để lưu trữ và xử lý các tập dữ liệu lớn một cách phân tán trên các cụm máy tính.
B. Thuật toán chính được sử dụng trong đó là Map Reduce: Đúng. MapReduce là một mô hình lập trình và một thuật toán quan trọng được Hadoop sử dụng để xử lý song song các tập dữ liệu lớn.
C. Nó chạy với đồ cứng hàng hóa: Đúng. Hadoop được thiết kế để chạy trên các phần cứng (máy tính) thông thường (commodity hardware), giúp giảm chi phí xây dựng và vận hành hệ thống.
D. Tất cả đều đúng: Sai, vì cả A, B và C đều đúng, nên D sai.

Do đó, đáp án đúng là D. Tất cả đều đúng, vì câu này khẳng định tất cả các đáp án A, B, C đều đúng, nhưng thực chất câu hỏi yêu cầu tìm câu không đúng.

Câu 39:

Bạn có thể chạy Bản đồ - Giảm công việc trực tiếp trên dữ liệu Avro không?

Lời giải:

Đáp án đúng: A

Avro chỉ định siêu dữ liệu cho phép truy cập dữ liệu dễ dàng hơn. Dữ liệu này không thể được sử dụng như một phần của quá trình thực thi thu nhỏ bản đồ, thay vì chỉ đặc tả đầu vào. Do đó, đáp án D là chính xác nhất. Avro là một định dạng tuần tự hóa dữ liệu được thiết kế để có thể đọc được bằng máy và hỗ trợ các lược đồ dữ liệu tiến hóa. Nó thường được sử dụng trong các hệ thống lớn để lưu trữ và trao đổi dữ liệu. Bản đồ - Giảm là một mô hình lập trình song song phân tán để xử lý lượng lớn dữ liệu. Avro có thể được sử dụng làm định dạng đầu vào và đầu ra cho các công việc MapReduce. Siêu dữ liệu Avro cho phép MapReduce truy cập dữ liệu một cách hiệu quả, nhưng bản thân siêu dữ liệu không được sử dụng trực tiếp trong quá trình xử lý MapReduce.

Câu 40:

Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa khỏi dòng lệnh?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 41:

Phát biểu nào sau đây là sai về Bộ nhớ đệm phân tán?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 42:

Loại nào không phải là CSDL NoSQL?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP