Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:

Công nghệ nào được sử dụng để tuần tự hóa dữ liệu trong Hadoop?

Lời giải:

Đáp án đúng: B

Phân tích câu hỏi:

Câu hỏi này kiểm tra kiến thức về các công nghệ được sử dụng trong hệ sinh thái Hadoop, đặc biệt là công nghệ tuần tự hóa dữ liệu.

Đánh giá các phương án:

A. HBase: Là một hệ quản trị cơ sở dữ liệu NoSQL, lưu trữ dữ liệu dạng cột, không phải là công cụ tuần tự hóa dữ liệu.
B. Avro: Là một framework tuần tự hóa dữ liệu. Nó cung cấp cơ chế để chuyển đổi các đối tượng dữ liệu thành định dạng nhị phân, cho phép lưu trữ và truyền dữ liệu một cách hiệu quả. Avro được sử dụng rộng rãi trong Hadoop để tuần tự hóa dữ liệu, đặc biệt là cho dữ liệu được lưu trữ trong HDFS.
C. Sqoop: Là một công cụ để truyền dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS), không phải là công cụ tuần tự hóa dữ liệu.
D. Zookeeper: Là một dịch vụ điều phối tập trung, cung cấp khả năng đồng bộ hóa và quản lý cấu hình cho các ứng dụng phân tán, không phải là công cụ tuần tự hóa dữ liệu.

Kết luận:

Avro là công nghệ phù hợp nhất để tuần tự hóa dữ liệu trong Hadoop.

Câu 38:

Điều nào sau đây không đúng đối với Hadoop?

Lời giải:

Đáp án đúng: B

Câu hỏi yêu cầu tìm phát biểu không đúng về Hadoop.

A. Đây là một khung phân tán: Đúng. Hadoop là một framework mã nguồn mở được sử dụng để lưu trữ và xử lý các tập dữ liệu lớn một cách phân tán trên các cụm máy tính.
B. Thuật toán chính được sử dụng trong đó là Map Reduce: Đúng. MapReduce là một mô hình lập trình và một thuật toán quan trọng được Hadoop sử dụng để xử lý song song các tập dữ liệu lớn.
C. Nó chạy với đồ cứng hàng hóa: Đúng. Hadoop được thiết kế để chạy trên các phần cứng (máy tính) thông thường (commodity hardware), giúp giảm chi phí xây dựng và vận hành hệ thống.
D. Tất cả đều đúng: Sai, vì cả A, B và C đều đúng, nên D sai.

Do đó, đáp án đúng là D. Tất cả đều đúng, vì câu này khẳng định tất cả các đáp án A, B, C đều đúng, nhưng thực chất câu hỏi yêu cầu tìm câu không đúng.

Câu 39:

Bạn có thể chạy Bản đồ - Giảm công việc trực tiếp trên dữ liệu Avro không?

Lời giải:

Đáp án đúng: A

Avro chỉ định siêu dữ liệu cho phép truy cập dữ liệu dễ dàng hơn. Dữ liệu này không thể được sử dụng như một phần của quá trình thực thi thu nhỏ bản đồ, thay vì chỉ đặc tả đầu vào. Do đó, đáp án D là chính xác nhất. Avro là một định dạng tuần tự hóa dữ liệu được thiết kế để có thể đọc được bằng máy và hỗ trợ các lược đồ dữ liệu tiến hóa. Nó thường được sử dụng trong các hệ thống lớn để lưu trữ và trao đổi dữ liệu. Bản đồ - Giảm là một mô hình lập trình song song phân tán để xử lý lượng lớn dữ liệu. Avro có thể được sử dụng làm định dạng đầu vào và đầu ra cho các công việc MapReduce. Siêu dữ liệu Avro cho phép MapReduce truy cập dữ liệu một cách hiệu quả, nhưng bản thân siêu dữ liệu không được sử dụng trực tiếp trong quá trình xử lý MapReduce.

Câu 40:

Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa khỏi dòng lệnh?

Lời giải:

Đáp án đúng: C

Trong HDFS (Hadoop Distributed File System), khi một tệp bị xóa khỏi dòng lệnh, nếu tính năng "thùng rác" (Trash) được bật, thì tệp đó sẽ không bị xóa vĩnh viễn ngay lập tức. Thay vào đó, nó sẽ được chuyển vào thư mục thùng rác riêng của người dùng đã thực hiện thao tác xóa. Điều này cho phép người dùng có thể khôi phục lại tệp đã xóa nếu cần thiết, trước khi nó bị xóa hoàn toàn sau một khoảng thời gian cấu hình trước.

Các lựa chọn khác không đúng vì:

A: Sai. Tệp không bị xóa vĩnh viễn ngay lập tức nếu thùng rác được bật.

B: Sai. Không có thư mục thùng rác chung cho tất cả người dùng. Mỗi người dùng có thư mục thùng rác riêng.

C: Sai. Tệp không bị xóa vĩnh viễn và không có việc ghi nhật ký các thuộc tính tệp vào tệp nhật ký trong trường hợp này.

Câu 41:

Phát biểu nào sau đây là sai về Bộ nhớ đệm phân tán?

Lời giải:

Đáp án đúng: C

Câu hỏi yêu cầu tìm phát biểu sai về Bộ nhớ đệm phân tán (Distributed Cache) trong Hadoop.

* Phương án A: Đúng. Hadoop framework chịu trách nhiệm phân phối các tệp trong Distributed Cache đến tất cả các map và reduce tasks.
* Phương án B: Đúng. Distributed Cache có thể chứa các loại tệp khác nhau, bao gồm tệp văn bản, tệp zip và JAR.
* Phương án C: Sai. Mặc dù Distributed Cache giúp giảm thiểu I/O đĩa, dữ liệu không hoàn toàn chỉ được lưu trong bộ nhớ. Các tệp được sao chép vào các nút, thường là trên đĩa, trước khi các tác vụ thực thi. Do đó, vẫn có I/O đĩa liên quan.
* Phương án D: Đúng. Hadoop framework sẽ sao chép các tệp trong Distributed Cache vào các nút trước khi bất kỳ nhiệm vụ nào của job được thực thi trên nút đó.

Vậy, đáp án sai là C.

Câu 42:

Loại nào không phải là CSDL NoSQL?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 43:

Đâu là đặc trưng quyết định việc triển khai Dữ liệu lớn?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 44:

Tích hợp dữ liệu là quá trình?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP