Bản chất DStream:
Đáp án đúng: A
Trong Spark Streaming, DStream (Discretized Stream) là một chuỗi liên tục các RDD (Resilient Distributed Datasets). Mỗi RDD trong DStream đại diện cho dữ liệu được xử lý trong một khoảng thời gian nhất định. Vì vậy, đáp án A là đáp án chính xác nhất.
Câu hỏi liên quan
Tham số dfs.datanode.du.reserved
dùng để dự trữ dung lượng đĩa cho DataNode, được cấu hình trong tệp hdfs-site.xml
. Tệp này chứa các cấu hình đặc thù cho HDFS, bao gồm các thuộc tính liên quan đến DataNode và NameNode.
hdfs-default.xml
: Chứa các cấu hình mặc định của HDFS.core-site.xml
: Chứa các cấu hình lõi, chẳng hạn như cấu hình Hadoop Common (ví dụ:fs.defaultFS
).mapred-site.xml
: Chứa các cấu hình cho MapReduce.
* Phương án A: Sai. HDFS không được thiết kế cho việc nhiều người cùng viết và sửa đổi tệp tùy ý. Điều này sẽ gây ra các vấn đề về đồng bộ và nhất quán dữ liệu.
* Phương án B: Sai. Mặc dù HDFS hỗ trợ việc thêm dữ liệu vào cuối tệp, nhưng đây không phải là mục đích thiết kế chính của nó.
* Phương án C: Đúng. HDFS được thiết kế chủ yếu cho việc ghi dữ liệu một lần và sau đó đọc nhiều lần. Điều này phù hợp với các ứng dụng xử lý dữ liệu hàng loạt, nơi dữ liệu thường được ghi một lần và sau đó được phân tích nhiều lần.
* Phương án D: Sai. HDFS không được thiết kế để truy cập dữ liệu có độ trễ thấp. Nó được tối ưu hóa cho việc xử lý dữ liệu lớn, ngay cả khi việc truy cập có độ trễ cao hơn.
Vì vậy, đáp án chính xác là C. Chỉ ghi thành tệp một lần.
Đáp án đúng là C. Spark.
Giải thích:
Spark là một framework tính toán cluster mã nguồn mở, nhanh chóng và đa năng. Nó cung cấp một hệ thống xử lý luồng (stream processing) mạnh mẽ, cho phép xử lý dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near real-time). Spark Streaming là một phần của Spark, được thiết kế để xử lý các luồng dữ liệu trực tiếp (live data streams) từ nhiều nguồn khác nhau như Kafka, Flume, Twitter, ZeroMQ hoặc các socket TCP.
Các lựa chọn khác không phù hợp vì những lý do sau:
- A. Solr: Solr là một nền tảng tìm kiếm (search platform) dựa trên Lucene, được sử dụng để lập chỉ mục (indexing) và tìm kiếm dữ liệu. Nó không phải là một hệ thống xử lý luồng.
- B. Tez: Tez là một framework thực thi dữ liệu (data execution framework) được xây dựng trên Hadoop, cho phép các ứng dụng xử lý dữ liệu quy mô lớn một cách hiệu quả hơn. Nó không trực tiếp cung cấp khả năng xử lý luồng.
- D. Hive: Hive là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cho phép truy vấn dữ liệu bằng SQL. Nó chủ yếu được sử dụng để xử lý dữ liệu theo lô (batch processing) thay vì xử lý luồng.
Lệnh start-dfs.sh
được sử dụng trong Hadoop để khởi động các thành phần cơ bản của hệ thống tệp phân tán Hadoop (HDFS). Khi chạy lệnh này, nó sẽ khởi động cả NameNode và DataNode. NameNode là nút chủ quản lý không gian tên hệ thống tệp và DataNode là các nút lưu trữ dữ liệu thực tế.
1. Standalone mode: Chế độ này Hadoop chạy trên một JVM duy nhất, thường được sử dụng cho mục đích gỡ lỗi (debug) và phát triển.
2. Pseudo-distributed mode: Hadoop chạy trên một máy duy nhất, nhưng mỗi daemon (NameNode, DataNode, ResourceManager, NodeManager) chạy trong một JVM riêng biệt. Chế độ này mô phỏng một cụm Hadoop nhỏ và thường được sử dụng cho mục đích thử nghiệm.
3. Fully-distributed mode: Hadoop chạy trên một cụm nhiều máy, với các daemon phân tán trên các máy khác nhau. Đây là chế độ triển khai thực tế cho các ứng dụng lớn.
"Globally distributed mode" không phải là một chế độ hoạt động chuẩn của Hadoop.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.