JavaScript is required
Danh sách đề

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Đề 5

50 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 50

AVRO là gì?

A.

Avro là một thư viện tuần tự hóa java

B.

Avro là một thư viện nén java

C.

Avro là một thư viện java tạo các tệp bảng chia nhỏ

D.

Không câu trả lời nào đúng

Đáp án
Đáp án đúng: A
Avro là một hệ thống tuần tự hóa dữ liệu. Nó cung cấp:

* Định nghĩa lược đồ dữ liệu: Dữ liệu được đi kèm với lược đồ của nó, cho phép phân tích cú pháp dữ liệu mà không cần biết trước lược đồ.
* Tuần tự hóa và giải tuần tự hóa hiệu quả: Avro sử dụng định dạng nhị phân nhỏ gọn để tuần tự hóa dữ liệu, giúp truyền tải và lưu trữ dữ liệu hiệu quả hơn.
* Hỗ trợ tiến hóa lược đồ: Avro cho phép lược đồ dữ liệu thay đổi theo thời gian mà không làm hỏng khả năng đọc dữ liệu cũ.
* Hỗ trợ đa ngôn ngữ: Avro có thể được sử dụng với nhiều ngôn ngữ lập trình khác nhau, bao gồm Java, Python, C++, v.v.

Như vậy, trong các phương án đưa ra, phương án A chính xác nhất vì nó chỉ ra bản chất là một thư viện tuần tự hóa. Các phương án còn lại không đúng bản chất của Avro.

Danh sách câu hỏi:

Câu 1:

AVRO là gì?

Lời giải:
Đáp án đúng: A
Avro là một hệ thống tuần tự hóa dữ liệu. Nó cung cấp:

* Định nghĩa lược đồ dữ liệu: Dữ liệu được đi kèm với lược đồ của nó, cho phép phân tích cú pháp dữ liệu mà không cần biết trước lược đồ.
* Tuần tự hóa và giải tuần tự hóa hiệu quả: Avro sử dụng định dạng nhị phân nhỏ gọn để tuần tự hóa dữ liệu, giúp truyền tải và lưu trữ dữ liệu hiệu quả hơn.
* Hỗ trợ tiến hóa lược đồ: Avro cho phép lược đồ dữ liệu thay đổi theo thời gian mà không làm hỏng khả năng đọc dữ liệu cũ.
* Hỗ trợ đa ngôn ngữ: Avro có thể được sử dụng với nhiều ngôn ngữ lập trình khác nhau, bao gồm Java, Python, C++, v.v.

Như vậy, trong các phương án đưa ra, phương án A chính xác nhất vì nó chỉ ra bản chất là một thư viện tuần tự hóa. Các phương án còn lại không đúng bản chất của Avro.

Câu 2:

Các đặc trưng của HDFS. Chọn đáp án SAI

Lời giải:
Đáp án đúng: B
Câu hỏi yêu cầu tìm đặc trưng SAI của HDFS. HDFS (Hadoop Distributed File System) được thiết kế để lưu trữ và xử lý các tệp tin lớn trên một cụm các máy tính.

Phương án A đúng: HDFS được tối ưu hóa cho các tệp tin có kích thước lớn (hàng trăm MB đến vài GB).

Phương án B sai: HDFS không hỗ trợ thao tác đọc/ghi tương tranh (concurrent) tại chunk trên tệp tin. Nó được thiết kế cho việc ghi một lần và đọc nhiều lần (write-once, read-many). Việc hỗ trợ ghi tương tranh sẽ làm phức tạp việc quản lý đồng thời và nhất quán dữ liệu.

Phương án C đúng: HDFS hỗ trợ nén dữ liệu để tiết kiệm chi phí lưu trữ và băng thông.

Phương án D đúng: HDFS tích hợp cơ chế phân quyền và kiểm soát người dùng tương tự như UNIX, cho phép quản lý quyền truy cập vào các tệp tin và thư mục.

Vậy, đáp án sai là B.

Câu 3:

Các mục tiêu chính của Apache Hadoop

Lời giải:
Đáp án đúng: D

Các mục tiêu chính của Apache Hadoop bao gồm:

  • Lưu trữ dữ liệu khả mở (Scalable Data Storage): Hadoop được thiết kế để lưu trữ lượng lớn dữ liệu một cách hiệu quả trên một cụm các máy tính thông thường. Hệ thống tệp phân tán Hadoop (HDFS) cho phép lưu trữ dữ liệu trên nhiều nút, cung cấp khả năng mở rộng lưu trữ dễ dàng.
  • Xử lý dữ liệu lớn mạnh mẽ (Powerful Big Data Processing): Hadoop sử dụng mô hình MapReduce để xử lý song song dữ liệu trên các nút trong cụm. Điều này cho phép xử lý các bộ dữ liệu lớn một cách nhanh chóng và hiệu quả.

Trực quan hóa dữ liệu (Data Visualization) không phải là mục tiêu cốt lõi của Hadoop. Hadoop tập trung vào lưu trữ và xử lý dữ liệu, trong khi các công cụ khác như Tableau hoặc các thư viện Python như Matplotlib thường được sử dụng để trực quan hóa dữ liệu đã được xử lý bởi Hadoop.

Do đó, đáp án đúng là D: lưu trữ dữ liệu khả mở và xử lý dữ liệu lớn mạnh mẽ.

Lời giải:
Đáp án đúng: A
Câu hỏi kiểm tra về cú pháp của hàm `split()` trong Spark, đặc biệt là cách nó được sử dụng trong ngữ cảnh của MapReduce. Hàm `split("\t")` sử dụng ký tự tab (`\t`) làm dấu phân cách (delimiter) để chia một chuỗi thành một danh sách các chuỗi con.

* A. Tab: Đúng. Biểu thức `"\t"` đại diện cho ký tự tab. Do đó, câu lệnh này sẽ chia mỗi dòng thành các từ dựa trên dấu tab.
* B. Dấu cách: Sai. Nếu muốn chia theo dấu cách, biểu thức phải là `" "`.
* C. Dấu hai chấm: Sai. Nếu muốn chia theo dấu hai chấm, biểu thức phải là `":"`.
* D. Dấu phẩy: Sai. Nếu muốn chia theo dấu phẩy, biểu thức phải là `","`.

Vậy đáp án đúng là A.

Câu 5:

Cơ chế chịu lỗi của datanode trong HDFS

Lời giải:
Đáp án đúng: B
Cơ chế chịu lỗi của DataNode trong HDFS chủ yếu dựa vào cơ chế heartbeat. Các DataNode định kỳ gửi thông báo (heartbeat) về NameNode để báo cáo trạng thái hoạt động và tình trạng của các khối dữ liệu mà nó đang lưu trữ. Nếu NameNode không nhận được heartbeat từ một DataNode trong một khoảng thời gian nhất định, nó sẽ coi DataNode đó là đã chết và thực hiện các biện pháp khắc phục, chẳng hạn như sao chép các khối dữ liệu từ các DataNode khác để đảm bảo tính sẵn sàng của dữ liệu.

Phương án A sai vì ZooKeeper thường được sử dụng cho các tác vụ điều phối và quản lý cluster ở mức cao hơn, không trực tiếp quản lý trạng thái sống/chết của DataNode.

Phương án C sai vì mặc dù NameNode có theo dõi DataNode, cơ chế chính là DataNode chủ động báo cáo cho NameNode, không phải NameNode liên tục hỏi DataNode.

Câu 6:

Cơ chế nhân bản dữ liệu trong HDFS

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Đâu không phải là tính năng mà NoSQL nào cũng đáp ứng:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Đâu là lệnh lưu trữ dữ liệu ra ngoài chương trình Spark:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 11:

Đầu ra của một map task là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 12:

Điều nào sau đây không đúng đối với Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 13:

Điều sau không được phép trên các tệp HDFS:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 14:

hadoop fs -expunge:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 15:

Hadoop giải quyết bài toán chịu lỗi thông qua kỹ thuật gì? Chọn đáp án SAI:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 16:

Hadoop giải quyết bài toán khả mở bằng cách nào? Chọn đáp án sai:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 17:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Khi sử dụng HDFS, điều gì xảy ra khi tệp bị xóa bởi dòng lệnh?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Khi một node dự phòng được sử dụng trong một cụm thì không cần:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 20:

Chạy Start-dfs.sh kết quả là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Lệnh "hadoop fs -test -z URI" cho kết quả 0 nếu:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 23:

Một công việc đang chạy trong hadoop:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 24:

Số lượng nhiệm vụ mà trình theo dõi tác vụ có thể chấp nhận phụ thuộc vào:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Khái niệm sử dụng nhiều máy để xử lý dữ liệu được lưu trữ trong hệ thống phân tán không phải là mới. Máy tính hiệu suất cao (HPC) sử dụng nhiều máy tính để xử lý khối lượng lớn dữ liệu được lưu trữ trong mạng vùng lưu trữ (SAN). So với HPC, Hadoop:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 26:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 27:

Các tệp HDFS được thiết kế cho:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 28:

Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 30:

Sự khác biệt giữa chế độ độc lập và giả phân phối là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 31:

Trong Hadoop, Snappy và LZO là những ví dụ về:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 32:

Nếu địa chỉ IP hoặc tên máy chủ của DataNode thay đổi:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 33:

Tín hiệu nhịp tim được gửi từ:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

HBASE là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 37:

Con quỷ (demon) nào chịu trách nhiệm sao chép dữ liệu trong Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Để áp dụng một bộ kết hợp, một thuộc tính phải được thỏa mãn bởi các giá trị được phát ra từ bộ ánh xạ là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 39:

Dữ liệu của Big Data là loại nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 40:

NoSQL là?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 41:

Cloudera phát triển công cụ nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 42:

Chọn đúng 5 đặc trưng cho Big Data?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 43:

Variety (Tính đa dạng) là đặc trưng về?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 45:

Công cụ nào hỗ trợ tốt NoSQL?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 46:

Cái nào không phải là một trong đặc trưng 3Vs của dữ liệu lớn?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 47:

Điều nào sau đây đúng đối với Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 48:

Hadoop xử lý khối lượng lớn dữ liệu như thế nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 49:

Mô hình Điện toán đám mây IaaS?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 50:

Dịch vụ tích hợp dữ liệu trên đám mây trên Google Cloud Platform:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP