JavaScript is required
Danh sách đề

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Đề 1

50 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 50

Theo Tính khả dụng cao của Hadoop, nghĩa là Hàng rào

A.

Ngăn NameNode hoạt động trước đó bắt đầu chạy lại

B.

Ngăn chặn việc bắt đầu chuyển đổi dự phòng trong trường hợp mạng bị lỗi với NameNode hoạt động

C.

Ngăn chặn sự cố sập nguồn đối với NameNode đã hoạt động trước đó

D.

Ngăn không cho NameNode đã hoạt động trước đó ghi vào nhật ký chỉnh sửa

Đáp án
Đáp án đúng: D
Trong Hadoop High Availability (HA - Tính Khả Dụng Cao), "hàng rào" (fencing) là một cơ chế quan trọng để đảm bảo chỉ có một NameNode hoạt động (Active NameNode) tại một thời điểm. Điều này ngăn ngừa tình trạng "split-brain" (hai NameNode cùng hoạt động và ghi dữ liệu, dẫn đến hỏng dữ liệu). Hàng rào hoạt động bằng cách ngăn chặn NameNode đã từng hoạt động (nhưng hiện tại được cho là không hoạt động) ghi vào hệ thống lưu trữ chung (shared storage) hoặc thực hiện bất kỳ thao tác nào có thể gây xung đột với NameNode hiện đang hoạt động.

* Đáp án A: Ngăn NameNode hoạt động trước đó bắt đầu chạy lại. Đây là một phần của quá trình chuyển đổi dự phòng nhưng không phải là định nghĩa chính xác của hàng rào. Hàng rào tập trung vào việc ngăn chặn NameNode cũ *ghi* dữ liệu, không chỉ là việc khởi động lại.
* Đáp án B: Ngăn chặn việc bắt đầu chuyển đổi dự phòng trong trường hợp mạng bị lỗi với NameNode hoạt động. Đây không phải là mục đích của hàng rào. Hàng rào xảy ra *sau* khi chuyển đổi dự phòng được kích hoạt.
* Đáp án C: Ngăn chặn sự cố sập nguồn đối với NameNode đã hoạt động trước đó. Hàng rào không liên quan đến việc ngăn chặn sự cố sập nguồn.
* Đáp án D: Ngăn không cho NameNode đã hoạt động trước đó ghi vào nhật ký chỉnh sửa. Đây là định nghĩa chính xác nhất về hàng rào trong bối cảnh Hadoop HA. Việc ngăn chặn NameNode cũ ghi vào nhật ký chỉnh sửa (edit log) đảm bảo rằng chỉ NameNode đang hoạt động mới có thể thực hiện các thay đổi đối với siêu dữ liệu hệ thống tệp.

Vì vậy, đáp án đúng là D.

Danh sách câu hỏi:

Câu 1:

Theo Tính khả dụng cao của Hadoop, nghĩa là Hàng rào

Lời giải:
Đáp án đúng: D
Trong Hadoop High Availability (HA - Tính Khả Dụng Cao), "hàng rào" (fencing) là một cơ chế quan trọng để đảm bảo chỉ có một NameNode hoạt động (Active NameNode) tại một thời điểm. Điều này ngăn ngừa tình trạng "split-brain" (hai NameNode cùng hoạt động và ghi dữ liệu, dẫn đến hỏng dữ liệu). Hàng rào hoạt động bằng cách ngăn chặn NameNode đã từng hoạt động (nhưng hiện tại được cho là không hoạt động) ghi vào hệ thống lưu trữ chung (shared storage) hoặc thực hiện bất kỳ thao tác nào có thể gây xung đột với NameNode hiện đang hoạt động.

* Đáp án A: Ngăn NameNode hoạt động trước đó bắt đầu chạy lại. Đây là một phần của quá trình chuyển đổi dự phòng nhưng không phải là định nghĩa chính xác của hàng rào. Hàng rào tập trung vào việc ngăn chặn NameNode cũ *ghi* dữ liệu, không chỉ là việc khởi động lại.
* Đáp án B: Ngăn chặn việc bắt đầu chuyển đổi dự phòng trong trường hợp mạng bị lỗi với NameNode hoạt động. Đây không phải là mục đích của hàng rào. Hàng rào xảy ra *sau* khi chuyển đổi dự phòng được kích hoạt.
* Đáp án C: Ngăn chặn sự cố sập nguồn đối với NameNode đã hoạt động trước đó. Hàng rào không liên quan đến việc ngăn chặn sự cố sập nguồn.
* Đáp án D: Ngăn không cho NameNode đã hoạt động trước đó ghi vào nhật ký chỉnh sửa. Đây là định nghĩa chính xác nhất về hàng rào trong bối cảnh Hadoop HA. Việc ngăn chặn NameNode cũ ghi vào nhật ký chỉnh sửa (edit log) đảm bảo rằng chỉ NameNode đang hoạt động mới có thể thực hiện các thay đổi đối với siêu dữ liệu hệ thống tệp.

Vì vậy, đáp án đúng là D.

Câu 2:

Cơ chế nào sau đây không phải là cơ chế hàng rào cho NameNode đã hoạt động trước đó?

Lời giải:
Đáp án đúng: C
Câu hỏi này kiểm tra kiến thức về các cơ chế hàng rào (fencing mechanisms) được sử dụng để đảm bảo chỉ có một NameNode hoạt động trong một cụm Hadoop tại một thời điểm, ngăn ngừa tình trạng split-brain (hai NameNode cùng hoạt động và ghi dữ liệu, gây ra xung đột và mất dữ liệu).

* A. Tắt cổng mạng của nó thông qua lệnh quản lý từ xa: Đây là một cơ chế hàng rào hợp lệ. Bằng cách tắt cổng mạng, NameNode sẽ bị cô lập khỏi cụm và không thể tiếp tục hoạt động.
* B. Thu hồi quyền truy cập của nó vào thư mục lưu trữ được chia sẻ: Đây cũng là một cơ chế hàng rào hợp lệ. Nếu NameNode không thể truy cập vào thư mục lưu trữ chung (nơi chứa metadata), nó sẽ không thể phục vụ các yêu cầu và do đó, không thể gây ra xung đột.
* C. Định dạng ổ đĩa của nó: Đây không phải là cơ chế hàng rào thông thường. Định dạng ổ đĩa sẽ xóa toàn bộ dữ liệu trên ổ đĩa đó, bao gồm cả metadata quan trọng của NameNode. Đây là một hành động phá hoại và không được sử dụng như một cơ chế hàng rào có kiểm soát. Hàng rào phải đảm bảo an toàn dữ liệu.
* D. STONITH (Shoot The Other Node In The Head): Đây là một thuật ngữ chung cho các cơ chế hàng rào mạnh mẽ, bao gồm cả việc sử dụng các thiết bị quản lý năng lượng để tắt nguồn của NameNode.

Vì vậy, đáp án đúng là C. Định dạng ổ đĩa của nó.

Câu 3:

Điều gì là đúng về HDFS?

Lời giải:
Đáp án đúng: A

HDFS (Hadoop Distributed File System) là một hệ thống tệp phân tán được thiết kế để lưu trữ lượng lớn dữ liệu trên các cụm phần cứng thông thường. Nó có một số đặc điểm quan trọng cần xem xét khi làm việc với nó thông qua các giao thức như NFS (Network File System):

  • Tính bất biến (Immutability): HDFS được thiết kế chủ yếu để ghi một lần và đọc nhiều lần. Sau khi một tệp đã được ghi vào HDFS, việc chỉnh sửa trực tiếp các bản ghi hiện có là không được khuyến khích và thường không được hỗ trợ trực tiếp.
  • Gắn kết qua NFS: HDFS có thể được gắn vào hệ thống tệp của máy khách cục bộ thông qua các giao thức như NFS. Điều này cho phép người dùng truy cập dữ liệu HDFS như thể nó là một phần của hệ thống tệp cục bộ của họ. Tuy nhiên, khả năng này thường đi kèm với các hạn chế.
  • Thêm vào tệp: Khi HDFS được gắn qua NFS, việc thêm dữ liệu vào một tệp hiện có có thể bị hạn chế hoặc không được hỗ trợ, tùy thuộc vào cấu hình và phiên bản của Hadoop.

Dựa trên những điều này, chúng ta có thể phân tích các lựa chọn:

  • A. Hệ thống tệp HDFS có thể được gắn trên Hệ thống tệp của máy khách cục bộ bằng NFS - Đây là một phát biểu đúng.
  • B. Hệ thống tệp HDFS không bao giờ có thể được gắn vào Hệ thống tệp của máy khách cục bộ - Đây là một phát biểu sai.
  • C. Bạn có thể chỉnh sửa bản ghi hiện có trong tệp HDFS đã được gắn kết bằng NFS - Đây là một phát biểu sai. HDFS không khuyến khích chỉnh sửa trực tiếp.
  • D. Bạn không thể thêm vào tệp HDFS được gắn bằng NFS - Phát biểu này có thể đúng hoặc sai tùy thuộc vào cấu hình, nhưng câu A chính xác hơn vì tính khả thi của việc gắn HDFS bằng NFS.

Vậy đáp án đúng nhất là A.

Câu 4:

Điều nào sau đây không phải là mục tiêu của HDFS?

Lời giải:
Đáp án đúng: C
HDFS (Hadoop Distributed File System) là một hệ thống tệp phân tán được thiết kế để lưu trữ và xử lý các tập dữ liệu lớn trên các cụm máy tính commodity. Các mục tiêu chính của HDFS bao gồm:

* Phát hiện lỗi và khôi phục: HDFS được thiết kế để chịu lỗi. Nó tự động phát hiện lỗi và khôi phục dữ liệu từ các bản sao.
* Xử lý tập dữ liệu khổng lồ: HDFS có thể xử lý các tập dữ liệu có kích thước lên đến hàng petabyte.
* Cung cấp băng thông mạng cao để di chuyển dữ liệu: HDFS được thiết kế để cung cấp băng thông mạng cao để di chuyển dữ liệu giữa các nút trong cụm.

Tuy nhiên, việc ngăn chặn việc xóa dữ liệu không phải là một mục tiêu thiết kế của HDFS. HDFS không cung cấp cơ chế tích hợp để ngăn chặn người dùng hoặc ứng dụng xóa dữ liệu. Nếu cần ngăn chặn việc xóa dữ liệu, cần triển khai các biện pháp bảo mật và kiểm soát truy cập bổ sung.

Vì vậy, đáp án C là đáp án đúng.
Lời giải:
Đáp án đúng: B

Trong Hadoop, giao tiếp giữa các tiến trình (processes) chạy trên các nút (nodes) khác nhau chủ yếu sử dụng RPC (Remote Procedure Call). RPC là một giao thức cho phép một chương trình trên một máy tính yêu cầu một dịch vụ từ một chương trình trên một máy tính khác trong mạng mà không cần hiểu các chi tiết mạng. Hadoop sử dụng RPC để các thành phần khác nhau như NameNode, DataNode, ResourceManager, NodeManager, và các ứng dụng MapReduce có thể giao tiếp và phối hợp với nhau.



  • REST API thường được sử dụng cho các dịch vụ web, nơi dữ liệu được trao đổi qua HTTP sử dụng các phương thức như GET, POST, PUT, DELETE. Mặc dù REST API có thể được sử dụng trong một số trường hợp trong Hadoop, nó không phải là phương thức chính để giao tiếp giữa các tiến trình cốt lõi.

  • RMI (Remote Method Invocation) là một cơ chế cho phép một đối tượng Java trên một máy ảo Java (JVM) gọi các phương thức trên một đối tượng Java khác chạy trên một JVM khác. RMI chủ yếu được sử dụng trong môi trường Java, trong khi Hadoop được viết bằng Java và sử dụng RPC thay vì RMI để giao tiếp giữa các tiến trình.

  • IP Exchange không phải là một giao thức giao tiếp cụ thể. Giao tiếp trong mạng TCP/IP dựa trên việc trao đổi các gói tin IP, nhưng Hadoop sử dụng RPC như một giao thức ứng dụng để cấu trúc giao tiếp này.

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 7:

Khi NameNode nhận thấy rằng một số khối được sao chép quá mức, nó:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 8:

Kích thước khối HDFS lớn hơn so với kích thước của các khối đĩa để:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Là một phần của tính khả dụng cao HDFS, một cặp NameNode chính được cấu hình. Điều gì là đúng với họ?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Lệnh hadfs được sử dụng để:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 11:

Mục đích của việc khởi động NameNode trong chế độ khôi phục là để:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 12:

Chế độ cài đặt phân phối hoàn toàn (không ảo hóa) cần tối thiểu:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 13:

Trong HDFS, các tệp không thể:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 17:

Khi khách hàng giao tiếp với hệ thống tệp HDFS, nó cần giao tiếp với:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Vai trò chính của NameNode phụ là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Đối với các tệp HDFS được truy cập thường xuyên, các khối được lưu vào bộ nhớ đệm:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 20:

Mục tiêu chính của HDFS Tính sẵn sàng cao là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Là một phần của tính khả dụng cao HDFS, một cặp NameNode chính được cấu hình. Điều gì là đúng với họ?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 22:

Cơ chế nào sau đây không phải là cơ chế hàng rào cho NameNode đã hoạt động trước đó?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 24:

Đối với thư mục HDFS, hệ số sao chép (RF) là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Điều gì là đúng về HDFS?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 26:

Kịch bản nào yêu cầu băng thông cao nhất để truyền dữ liệu giữa các nút trong Hadoop?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 27:

Khi NameNode nhận thấy rằng một số khối được sao chép quá mức, nó:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 28:

Thuộc tính nào dưới đây được định cấu hình trên mapred-site.xml?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 30:

Sự phân chia đầu vào được sử dụng trong MapReduce cho biết:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 31:

Đầu ra của một nhiệm vụ ánh xạ là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 34:

Đâu là một kiểu của CSDL NoSQL?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

Velocity (Tốc độ) là đặc trưng nói về?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 36:

RDBMS là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 37:

Thị trường Big Data bao gồm:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 38:

Hệ quản trị CSDL Neo4J là kiểu nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 39:

Hệ quản trị CSDL Google Big Table là kiểu nào?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 40:

Yếu tố nào quyết định để sử dụng NoSQL?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 41:

CSDL nào không phải kiểu Wide-Column:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 42:

Ưu điểm của hệ thống HDFS là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 43:

Vấn đề chính gặp phải khi đọc và ghi dữ liệu song song từ nhiều đĩa là gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 44:

Tính năng định vị dữ liệu trong Hadoop có nghĩa là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 45:

Dịch vụ đám mây nào hỗ trợ tốt cho Big Data?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 46:

Lợi ích của Cloud Computing với Big Data là?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 47:

Dịch vụ lưu trữ dữ liệu của Amazon – AWS là?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 48:

Dịch vụ thông minh giúp khái phá, làm sạch dữ liệu trên Google Cloud Platform:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 49:

Hệ CSDL NoSQL trên nền tảng Cloudera là ?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 50:

Công cụ trên Google Cloud Platform chuyển đổi dữ liệu hỗ trợ quyết định

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP