JavaScript is required
Danh sách đề

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Đề 3

50 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 50

Bản chất DStream:

A.

là một chuỗi liên tục RDD

B.

Là một chuỗi liên tục DataFrame

C.

Là một chuỗi liên tục DataSet

D.

ko có đáp án đúng

Đáp án
Đáp án đúng: A

Trong Spark Streaming, DStream (Discretized Stream) là một chuỗi liên tục các RDD (Resilient Distributed Datasets). Mỗi RDD trong DStream đại diện cho dữ liệu được xử lý trong một khoảng thời gian nhất định. Vì vậy, đáp án A là đáp án chính xác nhất.

Danh sách câu hỏi:

Câu 1:

Bản chất DStream:

Lời giải:
Đáp án đúng: A

Trong Spark Streaming, DStream (Discretized Stream) là một chuỗi liên tục các RDD (Resilient Distributed Datasets). Mỗi RDD trong DStream đại diện cho dữ liệu được xử lý trong một khoảng thời gian nhất định. Vì vậy, đáp án A là đáp án chính xác nhất.

Lời giải:
Đáp án đúng: A

Tham số dfs.datanode.du.reserved dùng để dự trữ dung lượng đĩa cho DataNode, được cấu hình trong tệp hdfs-site.xml. Tệp này chứa các cấu hình đặc thù cho HDFS, bao gồm các thuộc tính liên quan đến DataNode và NameNode.



  • hdfs-default.xml: Chứa các cấu hình mặc định của HDFS.

  • core-site.xml: Chứa các cấu hình lõi, chẳng hạn như cấu hình Hadoop Common (ví dụ: fs.defaultFS).

  • mapred-site.xml: Chứa các cấu hình cho MapReduce.

Câu 3:

Các tệp HDFS được thiết kế cho

Lời giải:
Đáp án đúng: B
Các tệp HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ và xử lý các tệp dữ liệu lớn. Do đó, chúng được tối ưu hóa cho việc ghi một lần và sau đó đọc nhiều lần. Việc sửa đổi ngẫu nhiên trên các tệp này không được hỗ trợ hiệu quả.

* Phương án A: Sai. HDFS không được thiết kế cho việc nhiều người cùng viết và sửa đổi tệp tùy ý. Điều này sẽ gây ra các vấn đề về đồng bộ và nhất quán dữ liệu.
* Phương án B: Sai. Mặc dù HDFS hỗ trợ việc thêm dữ liệu vào cuối tệp, nhưng đây không phải là mục đích thiết kế chính của nó.
* Phương án C: Đúng. HDFS được thiết kế chủ yếu cho việc ghi dữ liệu một lần và sau đó đọc nhiều lần. Điều này phù hợp với các ứng dụng xử lý dữ liệu hàng loạt, nơi dữ liệu thường được ghi một lần và sau đó được phân tích nhiều lần.
* Phương án D: Sai. HDFS không được thiết kế để truy cập dữ liệu có độ trễ thấp. Nó được tối ưu hóa cho việc xử lý dữ liệu lớn, ngay cả khi việc truy cập có độ trễ cao hơn.

Vì vậy, đáp án chính xác là C. Chỉ ghi thành tệp một lần.
Lời giải:
Đáp án đúng: C

Đáp án đúng là C. Spark.

Giải thích:

Spark là một framework tính toán cluster mã nguồn mở, nhanh chóng và đa năng. Nó cung cấp một hệ thống xử lý luồng (stream processing) mạnh mẽ, cho phép xử lý dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near real-time). Spark Streaming là một phần của Spark, được thiết kế để xử lý các luồng dữ liệu trực tiếp (live data streams) từ nhiều nguồn khác nhau như Kafka, Flume, Twitter, ZeroMQ hoặc các socket TCP.

Các lựa chọn khác không phù hợp vì những lý do sau:

  • A. Solr: Solr là một nền tảng tìm kiếm (search platform) dựa trên Lucene, được sử dụng để lập chỉ mục (indexing) và tìm kiếm dữ liệu. Nó không phải là một hệ thống xử lý luồng.
  • B. Tez: Tez là một framework thực thi dữ liệu (data execution framework) được xây dựng trên Hadoop, cho phép các ứng dụng xử lý dữ liệu quy mô lớn một cách hiệu quả hơn. Nó không trực tiếp cung cấp khả năng xử lý luồng.
  • D. Hive: Hive là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cho phép truy vấn dữ liệu bằng SQL. Nó chủ yếu được sử dụng để xử lý dữ liệu theo lô (batch processing) thay vì xử lý luồng.

Câu 5:

Chạy Start-dfs.sh kết quả là

Lời giải:
Đáp án đúng: A

Lệnh start-dfs.sh được sử dụng trong Hadoop để khởi động các thành phần cơ bản của hệ thống tệp phân tán Hadoop (HDFS). Khi chạy lệnh này, nó sẽ khởi động cả NameNode và DataNode. NameNode là nút chủ quản lý không gian tên hệ thống tệp và DataNode là các nút lưu trữ dữ liệu thực tế.

Câu 6:

Chế độ nào sau đây không phải là chế độ hoạt động của Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 7:

Chọn phát biểu đúng khi nói về MongoDB

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Dữ liệu từ một cụm hadoop từ xa có thể:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Đối với thư mục HDFS, hệ số sao chép (RF) là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 11:

Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 12:

HDFS giải quyết bài toán single-point-of-failure cho Namenode bằng cách nào:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 13:

HDFS là viết tắt của:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 15:

Job tracker runs on:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 16:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. "Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop":

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Khi một ứng dụng khách liên hệ với NameNode để truy cập tệp, NameNode phản hồi với:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 20:

Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Loại dữ liệu mà Hadoop có thể xử lý là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 22:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 23:

Trong NameNode, lượng bộ nhớ cần thiết là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 24:

Nhận thức về giá trong NameNode có nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Điều nào sau đây không phải là mục tiêu của HDFS?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 26:

hadoop fs –expunge:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 27:

Mục đích của việc khởi động NameNode trong chế độ khôi phục là để:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 28:

Yếu tố giới hạn hiện tại đối với kích thước của một cụm hadoop là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 29:

Trong hệ thống HDFS với kích thước khối 64MB, chúng tôi lưu trữ một tệp nhỏ hơn 64MB. Điều nào sau đây là đúng?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 30:

So với RDBMS, Hadoop:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 31:

Vấn đề chính gặp phải khi đọc và ghi dữ liệu song song từ nhiều đĩa là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 32:

Theo liên kết HDFS:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 33:

HDFS có thể được truy cập qua HTTP bằng cách sử dụng:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 34:

Máy khách đọc dữ liệu từ hệ thống tệp HDFS trong Hadoop:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

Lệnh hdfs để tạo bản sao của tệp từ hệ thống cục bộ là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Điều nào sau đây không đúng đối với Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 39:

Bạn có thể chạy Bản đồ - Giảm công việc trực tiếp trên dữ liệu Avro không?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 40:

Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa khỏi dòng lệnh?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 41:

Phát biểu nào sau đây là sai về Bộ nhớ đệm phân tán?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 42:

Loại nào không phải là CSDL NoSQL?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 43:

Đâu là đặc trưng quyết định việc triển khai Dữ liệu lớn?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 44:

Tích hợp dữ liệu là quá trình?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 45:

Nhược điểm của tích hợp dữ liệu theo phương pháp Loose Coupling:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 47:

SAP Data Service là công cụ để làm gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 48:

Đâu không phải là RDBMS?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 49:

Loại dữ liệu mà Hadoop có thể xử lý là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP