Bản chất DStream:

là một chuỗi liên tục RDD

Là một chuỗi liên tục DataFrame

Là một chuỗi liên tục DataSet

ko có đáp án đúng

Trả lời:

Đáp án đúng: A

Trong Spark Streaming, DStream (Discretized Stream) là một chuỗi liên tục các RDD (Resilient Distributed Datasets). Mỗi RDD trong DStream đại diện cho dữ liệu được xử lý trong một khoảng thời gian nhất định. Vì vậy, đáp án A là đáp án chính xác nhất.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 3

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 2:

Bạn có thể dự trữ lượng sử dụng đĩa trong một DataNode bằng cách định cấu hình dfs.datanode.du.reserved trong tệp nào sau đây

Lời giải:

Đáp án đúng: A

Tham số dfs.datanode.du.reserved dùng để dự trữ dung lượng đĩa cho DataNode, được cấu hình trong tệp hdfs-site.xml. Tệp này chứa các cấu hình đặc thù cho HDFS, bao gồm các thuộc tính liên quan đến DataNode và NameNode.

hdfs-default.xml: Chứa các cấu hình mặc định của HDFS.

core-site.xml: Chứa các cấu hình lõi, chẳng hạn như cấu hình Hadoop Common (ví dụ: fs.defaultFS).

mapred-site.xml: Chứa các cấu hình cho MapReduce.

Câu 3:

Các tệp HDFS được thiết kế cho

Lời giải:

Đáp án đúng: B

Các tệp HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ và xử lý các tệp dữ liệu lớn. Do đó, chúng được tối ưu hóa cho việc ghi một lần và sau đó đọc nhiều lần. Việc sửa đổi ngẫu nhiên trên các tệp này không được hỗ trợ hiệu quả.

* Phương án A: Sai. HDFS không được thiết kế cho việc nhiều người cùng viết và sửa đổi tệp tùy ý. Điều này sẽ gây ra các vấn đề về đồng bộ và nhất quán dữ liệu.
* Phương án B: Sai. Mặc dù HDFS hỗ trợ việc thêm dữ liệu vào cuối tệp, nhưng đây không phải là mục đích thiết kế chính của nó.
* Phương án C: Đúng. HDFS được thiết kế chủ yếu cho việc ghi dữ liệu một lần và sau đó đọc nhiều lần. Điều này phù hợp với các ứng dụng xử lý dữ liệu hàng loạt, nơi dữ liệu thường được ghi một lần và sau đó được phân tích nhiều lần.
* Phương án D: Sai. HDFS không được thiết kế để truy cập dữ liệu có độ trễ thấp. Nó được tối ưu hóa cho việc xử lý dữ liệu lớn, ngay cả khi việc truy cập có độ trễ cao hơn.

Vì vậy, đáp án chính xác là C. Chỉ ghi thành tệp một lần.

Câu 4:

Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ sinh thái Hadoop?

Lời giải:

Đáp án đúng: C

Đáp án đúng là C. Spark.

Giải thích:

Spark là một framework tính toán cluster mã nguồn mở, nhanh chóng và đa năng. Nó cung cấp một hệ thống xử lý luồng (stream processing) mạnh mẽ, cho phép xử lý dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near real-time). Spark Streaming là một phần của Spark, được thiết kế để xử lý các luồng dữ liệu trực tiếp (live data streams) từ nhiều nguồn khác nhau như Kafka, Flume, Twitter, ZeroMQ hoặc các socket TCP.

Các lựa chọn khác không phù hợp vì những lý do sau:

A. Solr: Solr là một nền tảng tìm kiếm (search platform) dựa trên Lucene, được sử dụng để lập chỉ mục (indexing) và tìm kiếm dữ liệu. Nó không phải là một hệ thống xử lý luồng.
B. Tez: Tez là một framework thực thi dữ liệu (data execution framework) được xây dựng trên Hadoop, cho phép các ứng dụng xử lý dữ liệu quy mô lớn một cách hiệu quả hơn. Nó không trực tiếp cung cấp khả năng xử lý luồng.
D. Hive: Hive là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cho phép truy vấn dữ liệu bằng SQL. Nó chủ yếu được sử dụng để xử lý dữ liệu theo lô (batch processing) thay vì xử lý luồng.

Câu 5:

Chạy Start-dfs.sh kết quả là

Lời giải:

Đáp án đúng: A

Lệnh start-dfs.sh được sử dụng trong Hadoop để khởi động các thành phần cơ bản của hệ thống tệp phân tán Hadoop (HDFS). Khi chạy lệnh này, nó sẽ khởi động cả NameNode và DataNode. NameNode là nút chủ quản lý không gian tên hệ thống tệp và DataNode là các nút lưu trữ dữ liệu thực tế.

Câu 6:

Chế độ nào sau đây không phải là chế độ hoạt động của Hadoop?

Lời giải:

Đáp án đúng: B

Hadoop có ba chế độ hoạt động chính:

1. Standalone mode: Chế độ này Hadoop chạy trên một JVM duy nhất, thường được sử dụng cho mục đích gỡ lỗi (debug) và phát triển.
2. Pseudo-distributed mode: Hadoop chạy trên một máy duy nhất, nhưng mỗi daemon (NameNode, DataNode, ResourceManager, NodeManager) chạy trong một JVM riêng biệt. Chế độ này mô phỏng một cụm Hadoop nhỏ và thường được sử dụng cho mục đích thử nghiệm.
3. Fully-distributed mode: Hadoop chạy trên một cụm nhiều máy, với các daemon phân tán trên các máy khác nhau. Đây là chế độ triển khai thực tế cho các ứng dụng lớn.

"Globally distributed mode" không phải là một chế độ hoạt động chuẩn của Hadoop.

Câu 7:

Chọn phát biểu đúng khi nói về MongoDB

Lời giải: