JavaScript is required
Danh sách đề

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Đề 7

7 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 7

NameNode mất bản sao duy nhất của tệp fsimage. Chúng tôi có thể khôi phục điều này từ:

A.

Datanode

B.

Secondary namenode

C.

Checkpoint node

D.

Never

Đáp án
Đáp án đúng: C

Giải thích:

Khi NameNode bị mất bản sao duy nhất của tệp fsimage, chúng ta có thể khôi phục nó từ Secondary NameNode hoặc Checkpoint Node. Secondary NameNode định kỳ sao chép fsimage và nhật ký chỉnh sửa từ NameNode chính. Checkpoint Node thực hiện chức năng tương tự. Datanode không chứa thông tin này.

Danh sách câu hỏi:

Lời giải:
Đáp án đúng: C

Giải thích:

Khi NameNode bị mất bản sao duy nhất của tệp fsimage, chúng ta có thể khôi phục nó từ Secondary NameNode hoặc Checkpoint Node. Secondary NameNode định kỳ sao chép fsimage và nhật ký chỉnh sửa từ NameNode chính. Checkpoint Node thực hiện chức năng tương tự. Datanode không chứa thông tin này.

Câu 2:

Tệp HDFS nhỏ hơn kích thước một khối:

Lời giải:
Đáp án đúng: C

Trong HDFS (Hadoop Distributed File System), các tệp nhỏ hơn kích thước khối vẫn có thể được lưu trữ. Một tệp nhỏ sẽ chỉ chiếm dung lượng cần thiết của khối, chứ không chiếm toàn bộ kích thước khối. HDFS được thiết kế để lưu trữ các tệp lớn, nhưng nó vẫn có thể xử lý các tệp nhỏ một cách hiệu quả bằng cách lưu trữ chúng trong các khối mà không lãng phí không gian.

Câu 3:

Kích thước khối HDFS lớn hơn so với kích thước của các khối đĩa để:

Lời giải:
Đáp án đúng: D

Kích thước khối HDFS (Hadoop Distributed File System) lớn hơn so với kích thước khối đĩa vật lý thông thường vì một số lý do quan trọng liên quan đến hiệu suất và khả năng lưu trữ dữ liệu lớn:




  • Hiệu suất I/O: Khi làm việc với các tệp lớn, việc đọc và ghi theo các khối lớn hơn sẽ giảm số lượng hoạt động I/O (Input/Output) cần thiết. Điều này giúp tăng tốc độ xử lý dữ liệu tổng thể.

  • Giảm chi phí metadata: Với các khối lớn hơn, số lượng metadata (thông tin về dữ liệu, như tên tệp, quyền truy cập, vị trí...) cần quản lý sẽ ít hơn. Điều này làm giảm tải cho NameNode (nút quản lý metadata trong HDFS) và cải thiện khả năng mở rộng của hệ thống.

  • Lưu trữ tệp lớn: HDFS được thiết kế để xử lý các tệp cực lớn. Việc sử dụng các khối lớn cho phép HDFS lưu trữ một tệp duy nhất lớn hơn kích thước của một đĩa vật lý, bằng cách chia tệp đó thành nhiều khối và phân tán chúng trên nhiều nút trong cụm.



Trong các lựa chọn được đưa ra:




  • A. Chỉ các tệp HDFS có thể được lưu trữ trong đĩa được sử dụng - Sai. Đây không phải là lý do chính. HDFS quản lý việc lưu trữ dữ liệu, nhưng không giới hạn loại tệp có thể lưu trữ trên đĩa.

  • B. Thời gian tìm kiếm là tối đa - Sai. Việc sử dụng khối lớn thực tế giúp giảm thời gian tìm kiếm trung bình vì số lượng khối cần tìm kiếm để truy cập một lượng dữ liệu nhất định ít hơn.

  • C. Không thể chuyển một tệp lớn được tạo từ nhiều khối đĩa - Sai. HDFS được thiết kế để xử lý và di chuyển các tệp lớn, được tạo thành từ nhiều khối.

  • D. Một tệp duy nhất lớn hơn kích thước đĩa có thể được lưu trữ trên nhiều đĩa trong cụm - Đúng. Đây là một trong những lý do chính. Kích thước khối lớn cho phép HDFS chia một tệp lớn thành nhiều phần và lưu trữ chúng trên nhiều nút khác nhau trong cụm, vượt qua giới hạn kích thước của một đĩa đơn lẻ.


Câu 4:

Tùy chọn nào trong số này không phải là tùy chọn lập lịch có sẵn với YARN?

Lời giải:
Đáp án đúng: A
Câu hỏi yêu cầu xác định tùy chọn *không* phải là bộ lập lịch của YARN. YARN (Yet Another Resource Negotiator) là một hệ thống quản lý tài nguyên cluster, và cung cấp nhiều bộ lập lịch khác nhau để quản lý và phân bổ tài nguyên cho các ứng dụng.

* Bộ lập lịch FIFO (First-In-First-Out): Đây là một bộ lập lịch đơn giản, các ứng dụng được thực hiện theo thứ tự chúng được gửi đến. YARN hỗ trợ FIFO Scheduler.
* Bộ lập lịch dung lượng (Capacity Scheduler): Bộ lập lịch này cho phép nhiều tổ chức chia sẻ một cluster Hadoop bằng cách gán một phần dung lượng cluster cụ thể cho mỗi tổ chức. YARN hỗ trợ Capacity Scheduler.
* Bộ lập lịch công bằng (Fair Scheduler): Bộ lập lịch này cố gắng cung cấp cho tất cả các ứng dụng đang chạy một phần tài nguyên cluster bằng nhau. YARN hỗ trợ Fair Scheduler.
* Bộ lập lịch tối ưu (Optimal Scheduler): Không phải là một bộ lập lịch chuẩn được cung cấp bởi YARN.

Do đó, đáp án đúng là A: Bộ lập lịch tối ưu.

Câu 5:

Các khối dữ liệu ánh xạ thông tin với các tệp tương ứng của chúng được lưu trữ trong:

Lời giải:
Đáp án đúng: D

Giải thích:

Trong Hadoop Distributed File System (HDFS), NameNode là trung tâm điều khiển và quản lý hệ thống tệp. Nó lưu trữ metadata của hệ thống tệp, bao gồm ánh xạ giữa các khối dữ liệu và các tệp tương ứng của chúng. DataNode là nơi lưu trữ các khối dữ liệu thực tế, nhưng nó không lưu trữ thông tin ánh xạ tệp. Job Tracker và Task Tracker liên quan đến xử lý MapReduce, không phải lưu trữ metadata của hệ thống tệp.

Câu 6:

AVRO là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 7:

Đám mây Microsoft Azure cung cấp dịch vụ NoSQL Database:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP