Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:
Trả lời:
Đáp án đúng: C
Đáp án đúng là C. Flume.
Giải thích:
- Flume là một hệ thống phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau đến kho lưu trữ dữ liệu tập trung như Hadoop HDFS. Flume được thiết kế đặc biệt để nhập dữ liệu phát trực tuyến (streaming data) vào Hadoop.
- Kafka là một nền tảng truyền dữ liệu phân tán, có khả năng mở rộng và chịu lỗi, thường được sử dụng cho việc xây dựng các pipeline dữ liệu thời gian thực và các ứng dụng phát trực tuyến. Tuy nhiên, nó không phải là một hệ thống chuyên dụng để nhập dữ liệu vào Hadoop như Flume.
- Oozie là một hệ thống workflow scheduler để quản lý các công việc Hadoop. Nó không liên quan trực tiếp đến việc nhập dữ liệu.
- Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cung cấp khả năng truy vấn và phân tích dữ liệu lớn được lưu trữ trong Hadoop. Nó không phải là một công cụ để nhập dữ liệu.