Cái nào trong số này cung cấp hệ thống xử lý Luồng được sử dụng trong hệ sinh thái Hadoop?

A.

Solr

B.

Tez

C.

Spark

D.

Hive

Trả lời:

Đáp án đúng: C

Đáp án đúng là C. Spark.

Giải thích:

Spark là một framework tính toán cluster mã nguồn mở, nhanh chóng và đa năng. Nó cung cấp một hệ thống xử lý luồng (stream processing) mạnh mẽ, cho phép xử lý dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near real-time). Spark Streaming là một phần của Spark, được thiết kế để xử lý các luồng dữ liệu trực tiếp (live data streams) từ nhiều nguồn khác nhau như Kafka, Flume, Twitter, ZeroMQ hoặc các socket TCP.

Các lựa chọn khác không phù hợp vì những lý do sau:

A. Solr: Solr là một nền tảng tìm kiếm (search platform) dựa trên Lucene, được sử dụng để lập chỉ mục (indexing) và tìm kiếm dữ liệu. Nó không phải là một hệ thống xử lý luồng.
B. Tez: Tez là một framework thực thi dữ liệu (data execution framework) được xây dựng trên Hadoop, cho phép các ứng dụng xử lý dữ liệu quy mô lớn một cách hiệu quả hơn. Nó không trực tiếp cung cấp khả năng xử lý luồng.
D. Hive: Hive là một hệ thống kho dữ liệu (data warehouse system) được xây dựng trên Hadoop, cho phép truy vấn dữ liệu bằng SQL. Nó chủ yếu được sử dụng để xử lý dữ liệu theo lô (batch processing) thay vì xử lý luồng.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 3

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Chạy Start-dfs.sh kết quả là

Lời giải:

Đáp án đúng: A

Lệnh start-dfs.sh được sử dụng trong Hadoop để khởi động các thành phần cơ bản của hệ thống tệp phân tán Hadoop (HDFS). Khi chạy lệnh này, nó sẽ khởi động cả NameNode và DataNode. NameNode là nút chủ quản lý không gian tên hệ thống tệp và DataNode là các nút lưu trữ dữ liệu thực tế.

Chế độ nào sau đây không phải là chế độ hoạt động của Hadoop?

Lời giải:

Đáp án đúng: B

Hadoop có ba chế độ hoạt động chính:

1. Standalone mode: Chế độ này Hadoop chạy trên một JVM duy nhất, thường được sử dụng cho mục đích gỡ lỗi (debug) và phát triển.
2. Pseudo-distributed mode: Hadoop chạy trên một máy duy nhất, nhưng mỗi daemon (NameNode, DataNode, ResourceManager, NodeManager) chạy trong một JVM riêng biệt. Chế độ này mô phỏng một cụm Hadoop nhỏ và thường được sử dụng cho mục đích thử nghiệm.
3. Fully-distributed mode: Hadoop chạy trên một cụm nhiều máy, với các daemon phân tán trên các máy khác nhau. Đây là chế độ triển khai thực tế cho các ứng dụng lớn.

"Globally distributed mode" không phải là một chế độ hoạt động chuẩn của Hadoop.

Chọn phát biểu đúng khi nói về MongoDB

Lời giải:

Đáp án đúng: C

Phương án A đúng vì MongoDB cung cấp trình điều khiển (driver) cho nhiều ngôn ngữ lập trình khác nhau như Python, Java, Node.js, C++, v.v., giúp các nhà phát triển dễ dàng tương tác với cơ sở dữ liệu từ ứng dụng của họ.

Phương án B đúng vì một tài liệu (document) trong MongoDB có thể chứa nhiều cặp key-value hoặc key-array, hoặc các tài liệu lồng nhau (nested documents), cho phép lưu trữ dữ liệu phức tạp và linh hoạt.

Phương án D đúng vì MongoDB, thuộc loại NoSQL, thường có khả năng mở rộng (khả mở) tốt hơn so với các cơ sở dữ liệu quan hệ truyền thống (RDBMS) do kiến trúc phân tán và khả năng xử lý dữ liệu phi cấu trúc.

Vì cả A, B và D đều đúng, phương án C (tất cả các phương án trên) là đáp án chính xác nhất.

Công nghệ nào được sử dụng để nhập và xuất dữ liệu trong Hadoop?

Lời giải:

Đáp án đúng: C

Sqoop là công cụ được thiết kế đặc biệt để truyền dữ liệu giữa Hadoop và các hệ quản trị cơ sở dữ liệu quan hệ (RDBMS) như MySQL, Oracle, SQL Server, v.v. Nó cho phép nhập dữ liệu từ các RDBMS vào Hadoop và xuất dữ liệu từ Hadoop trở lại các RDBMS một cách hiệu quả.

HBase: Là một cơ sở dữ liệu NoSQL, phân tán, được xây dựng trên Hadoop, thích hợp cho việc lưu trữ và truy xuất dữ liệu lớn theo thời gian thực.

Avro: Là một hệ thống tuần tự hóa dữ liệu, thường được sử dụng để lưu trữ dữ liệu trong Hadoop, nhưng không phải là công cụ chính để nhập/xuất dữ liệu từ các hệ thống khác.

Zookeeper: Là một dịch vụ điều phối tập trung, cung cấp các dịch vụ như quản lý cấu hình, đồng bộ hóa, và đặt tên cho các ứng dụng phân tán.

Dữ liệu từ một cụm hadoop từ xa có thể:

Lời giải:

Đáp án đúng: D

Trong môi trường Hadoop, dữ liệu từ một cụm Hadoop từ xa có thể được truy cập và đọc bởi các cụm Hadoop khác thông qua giao thức HTTP. Giao thức này cho phép truyền dữ liệu giữa các hệ thống phân tán một cách hiệu quả. Các giao thức 'hhtp' và 'hftp' không phải là các giao thức chuẩn hoặc được sử dụng rộng rãi trong Hadoop.

Đối với thư mục HDFS, hệ số sao chép (RF) là:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Hadoop sử dụng những cơ chế nào để làm cho namenode có khả năng chống lại sự cố:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

HDFS giải quyết bài toán single-point-of-failure cho Namenode bằng cách nào:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

HDFS là viết tắt của:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Đồ Án Tốt Nghiệp Trí Tuệ Nhân Tạo Và Học Máy

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

89 tài liệu310 lượt tải

Đồ Án Tốt Nghiệp Hệ Thống Thông Tin

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

125 tài liệu441 lượt tải

Đồ Án Tốt Nghiệp Mạng Máy Tính Và Truyền Thông

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

104 tài liệu687 lượt tải

Khóa Luận Tốt Nghiệp Kiểm Toán

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

103 tài liệu589 lượt tải

Luận Văn Tốt Nghiệp Kế Toán Doanh Nghiệp

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

377 tài liệu1030 lượt tải

Luận Văn Tốt Nghiệp Quản Trị Thương Hiệu

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu

99 tài liệu1062 lượt tải

ĐĂNG KÝ GÓI THI VIP

Truy cập hơn 100K đề thi thử và chính thức các năm
2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
Tải toàn bộ tài liệu trên TaiLieu.VN
Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.