Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:
Trả lời:
Đáp án đúng: C
Đáp án đúng là C. Flume.
- Flume: Là một hệ thống phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký một cách hiệu quả từ nhiều nguồn khác nhau đến kho lưu trữ dữ liệu tập trung như Hadoop HDFS. Flume có thể xử lý dữ liệu phát trực tuyến (streaming data) một cách liên tục.
- Oozie: Là một hệ thống điều phối công việc (workflow scheduler) để quản lý và lên lịch các công việc Hadoop.
- Kafka: Là một nền tảng truyền tải thông điệp phân tán (distributed streaming platform) thường được sử dụng để xây dựng các pipeline dữ liệu thời gian thực (real-time data pipelines) và các ứng dụng phát trực tuyến (streaming applications). Mặc dù Kafka có thể lưu trữ dữ liệu, nhưng nó không trực tiếp nhập dữ liệu vào Hadoop theo cách mà Flume làm.
- Hive: Là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cung cấp các chức năng tóm tắt, truy vấn và phân tích dữ liệu.