Công ty nào đã phát triển Apache Cassandra giai đoạn đầu tiên

Google

twitter

facebook

Trả lời:

Đáp án đúng: D

Apache Cassandra được phát triển ban đầu tại Facebook để phục vụ nhu cầu lưu trữ hộp thư đến (inbox) của người dùng. Sau đó, nó được chuyển giao cho Apache Software Foundation và trở thành một dự án mã nguồn mở.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 5:

Đáp án nào không phải là một "output operation" khi thao tác với DStream:

Lời giải:

Đáp án đúng: D

Câu hỏi này kiểm tra kiến thức về các thao tác "output operation" trong Spark Streaming với DStream. Output operations là các thao tác cho phép bạn đẩy dữ liệu đã xử lý từ DStream ra các hệ thống bên ngoài.

* saveAsTextFile, saveAsHadoopFile, foreachRDD là các output operation: cho phép lưu DStream ra hệ thống file (text file, hadoop file) hoặc thực hiện các thao tác trên từng RDD của DStream.
* reduceByKeyAndWindow là một transformation operation: thực hiện tính toán trên DStream và trả về một DStream mới.

Do đó, đáp án D không phải là một output operation mà là một transformation operation.

Câu 6:

Hadoop khác với máy tính tình nguyện ở chỗ:

Lời giải:

Đáp án đúng: A

Câu hỏi này so sánh sự khác biệt giữa Hadoop và mô hình máy tính tình nguyện (volunteer computing).

* Máy tính tình nguyện: Thường tận dụng tài nguyên dư thừa từ các máy tính cá nhân của tình nguyện viên. Các dự án như SETI@home thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên để xử lý dữ liệu khoa học.
* Hadoop: Là một framework để xử lý và lưu trữ lượng lớn dữ liệu trên một cụm máy tính. Hadoop sử dụng mô hình MapReduce để phân tán công việc xử lý dữ liệu trên nhiều node.

Phân tích các lựa chọn:

* A. Tình nguyện viên đóng góp thời gian CPU chứ không phải băng thông mạng: Đây là một điểm khác biệt chính xác. Các dự án máy tính tình nguyện thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên. Băng thông mạng có thể được sử dụng để tải xuống dữ liệu đầu vào và tải lên kết quả, nhưng việc đóng góp chính là thời gian CPU.
* B. Tình nguyện viên đóng góp băng thông mạng chứ không phải thời gian CPU: Sai. Như đã giải thích, tình nguyện viên chủ yếu đóng góp thời gian CPU.
* C. Hadoop không thể tìm kiếm các số nguyên tố lớn: Sai. Hadoop là một framework xử lý dữ liệu tổng quát và có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm cả việc tìm kiếm số nguyên tố (mặc dù có thể không phải là ứng dụng hiệu quả nhất).
* D. Chỉ Hadoop mới có thể sử dụng mapreduce: Sai. MapReduce là một mô hình lập trình, và có thể được triển khai trên nhiều nền tảng khác nhau, không chỉ Hadoop. Có những triển khai MapReduce khác, mặc dù Hadoop là một trong những triển khai phổ biến nhất.

Vậy, đáp án A là đáp án đúng nhất, vì nó chỉ ra sự khác biệt chính trong cách thức hoạt động của Hadoop và máy tính tình nguyện.

Câu 7:

Hệ thống apache nào dưới đây giải quyết việc nhập dữ liệu phát trực tuyến vào hadoop:

Lời giải:

Đáp án đúng: C

Đáp án đúng là C. Flume.

Giải thích:

Flume là một hệ thống phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau đến kho lưu trữ dữ liệu tập trung như Hadoop HDFS. Flume được thiết kế đặc biệt để nhập dữ liệu phát trực tuyến (streaming data) vào Hadoop.
Kafka là một nền tảng truyền dữ liệu phân tán, có khả năng mở rộng và chịu lỗi, thường được sử dụng cho việc xây dựng các pipeline dữ liệu thời gian thực và các ứng dụng phát trực tuyến. Tuy nhiên, nó không phải là một hệ thống chuyên dụng để nhập dữ liệu vào Hadoop như Flume.
Oozie là một hệ thống workflow scheduler để quản lý các công việc Hadoop. Nó không liên quan trực tiếp đến việc nhập dữ liệu.
Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cung cấp khả năng truy vấn và phân tích dữ liệu lớn được lưu trữ trong Hadoop. Nó không phải là một công cụ để nhập dữ liệu.

Câu 8:

Hệ thống nào cho phép đọc ghi dữ liệu tại vị trí ngẫu nhiên, thời gian thực tới hàng terabyte dữ liệu:

Lời giải:

Đáp án đúng: A

Hệ thống Hbase là một cơ sở dữ liệu NoSQL mã nguồn mở, phân tán và có khả năng mở rộng, được xây dựng trên Hadoop. Nó cung cấp khả năng truy cập đọc/ghi ngẫu nhiên, thời gian thực vào lượng dữ liệu lớn (hàng terabyte trở lên). Hbase được thiết kế để lưu trữ và xử lý các tập dữ liệu lớn, thưa thớt (sparse datasets).

Các lựa chọn khác không phù hợp vì:

* Flume: Là một hệ thống dùng để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu log từ nhiều nguồn khác nhau đến kho lưu trữ tập trung như HDFS.
* Pig: Là một nền tảng cấp cao để tạo các chương trình MapReduce. Nó đơn giản hóa việc viết các truy vấn phức tạp trên Hadoop.
* HDFS (Hadoop Distributed File System): Là một hệ thống tệp phân tán được thiết kế để lưu trữ lượng lớn dữ liệu, nhưng nó không tối ưu cho việc truy cập đọc/ghi ngẫu nhiên, thời gian thực.

Câu 9:

Khi một jobTracker lên lịch, một công việc sẽ được tìm kiếm đầu tiên:

Lời giải:

Đáp án đúng: A

Khi JobTracker lên lịch một công việc, nó ưu tiên tìm kiếm một nút có vị trí trống trên cùng giá đỡ (rack) với DataNode chứa dữ liệu mà công việc đó cần xử lý. Điều này giúp giảm thiểu lưu lượng mạng liên rack, tăng tốc độ xử lý và hiệu quả tổng thể của hệ thống Hadoop.

* Tại sao các lựa chọn khác không đúng:
* B: Chọn "bất kỳ nút nào trên cùng giá đỡ" có vẻ hợp lý, nhưng lựa chọn A chính xác hơn vì nó nhấn mạnh việc tìm kiếm một vị trí *trống* trên cùng rack, tối ưu hóa việc sử dụng tài nguyên.
* C: Chọn nút trên rack liền kề sẽ làm tăng độ trễ mạng so với việc chọn nút trên cùng rack.
* D: Chọn bất kỳ nút nào trong cụm không tối ưu hóa vị trí dữ liệu và có thể dẫn đến truyền dữ liệu tốn kém qua mạng.

Câu 10:

Khi một máy được khai báo là datanode, dung lượng ổ đĩa trong đó:

Lời giải: