Hệ thống Apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào Hadoop?
Trả lời:
Đáp án đúng: C
Giải thích:
Câu hỏi này kiểm tra kiến thức về các thành phần khác nhau trong hệ sinh thái Hadoop, đặc biệt là các công cụ được sử dụng để xử lý dữ liệu phát trực tuyến.
- Oozie: Là một hệ thống điều phối công việc (workflow scheduler) cho Hadoop. Nó được sử dụng để quản lý và chạy các công việc (jobs) Hadoop phức tạp, không phải để thu thập dữ liệu phát trực tuyến.
- Kafka: Là một nền tảng phát trực tuyến phân tán. Nó được thiết kế để xử lý các luồng dữ liệu lớn trong thời gian thực, nhưng không trực tiếp nhập dữ liệu vào Hadoop. Kafka thường được sử dụng như một nguồn dữ liệu cho các hệ thống xử lý dữ liệu khác, bao gồm cả Hadoop.
- Flume: Là một dịch vụ phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu nhật ký (log data) từ nhiều nguồn khác nhau đến một kho lưu trữ dữ liệu tập trung, như Hadoop Distributed File System (HDFS). Do đó, Flume được thiết kế để nhập dữ liệu phát trực tuyến vào Hadoop.
- Hive: Là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cung cấp một giao diện giống SQL để truy vấn và phân tích dữ liệu được lưu trữ trong Hadoop. Nó không được sử dụng để nhập dữ liệu phát trực tuyến.
Đáp án đúng: C. Flume