Công ty nào đã phát triển Apache Cassandra giai đoạn đầu tiên
Trả lời:
Đáp án đúng: D
Apache Cassandra được phát triển ban đầu tại Facebook để phục vụ nhu cầu lưu trữ hộp thư đến (inbox) của người dùng. Sau đó, nó được chuyển giao cho Apache Software Foundation và trở thành một dự án mã nguồn mở.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: D
Câu hỏi này kiểm tra kiến thức về các thao tác "output operation" trong Spark Streaming với DStream. Output operations là các thao tác cho phép bạn đẩy dữ liệu đã xử lý từ DStream ra các hệ thống bên ngoài.
* saveAsTextFile, saveAsHadoopFile, foreachRDD là các output operation: cho phép lưu DStream ra hệ thống file (text file, hadoop file) hoặc thực hiện các thao tác trên từng RDD của DStream.
* reduceByKeyAndWindow là một transformation operation: thực hiện tính toán trên DStream và trả về một DStream mới.
Do đó, đáp án D không phải là một output operation mà là một transformation operation.
* saveAsTextFile, saveAsHadoopFile, foreachRDD là các output operation: cho phép lưu DStream ra hệ thống file (text file, hadoop file) hoặc thực hiện các thao tác trên từng RDD của DStream.
* reduceByKeyAndWindow là một transformation operation: thực hiện tính toán trên DStream và trả về một DStream mới.
Do đó, đáp án D không phải là một output operation mà là một transformation operation.
Lời giải:
Đáp án đúng: A
Câu hỏi này so sánh sự khác biệt giữa Hadoop và mô hình máy tính tình nguyện (volunteer computing).
* Máy tính tình nguyện: Thường tận dụng tài nguyên dư thừa từ các máy tính cá nhân của tình nguyện viên. Các dự án như SETI@home thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên để xử lý dữ liệu khoa học.
* Hadoop: Là một framework để xử lý và lưu trữ lượng lớn dữ liệu trên một cụm máy tính. Hadoop sử dụng mô hình MapReduce để phân tán công việc xử lý dữ liệu trên nhiều node.
Phân tích các lựa chọn:
* A. Tình nguyện viên đóng góp thời gian CPU chứ không phải băng thông mạng: Đây là một điểm khác biệt chính xác. Các dự án máy tính tình nguyện thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên. Băng thông mạng có thể được sử dụng để tải xuống dữ liệu đầu vào và tải lên kết quả, nhưng việc đóng góp chính là thời gian CPU.
* B. Tình nguyện viên đóng góp băng thông mạng chứ không phải thời gian CPU: Sai. Như đã giải thích, tình nguyện viên chủ yếu đóng góp thời gian CPU.
* C. Hadoop không thể tìm kiếm các số nguyên tố lớn: Sai. Hadoop là một framework xử lý dữ liệu tổng quát và có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm cả việc tìm kiếm số nguyên tố (mặc dù có thể không phải là ứng dụng hiệu quả nhất).
* D. Chỉ Hadoop mới có thể sử dụng mapreduce: Sai. MapReduce là một mô hình lập trình, và có thể được triển khai trên nhiều nền tảng khác nhau, không chỉ Hadoop. Có những triển khai MapReduce khác, mặc dù Hadoop là một trong những triển khai phổ biến nhất.
Vậy, đáp án A là đáp án đúng nhất, vì nó chỉ ra sự khác biệt chính trong cách thức hoạt động của Hadoop và máy tính tình nguyện.
* Máy tính tình nguyện: Thường tận dụng tài nguyên dư thừa từ các máy tính cá nhân của tình nguyện viên. Các dự án như SETI@home thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên để xử lý dữ liệu khoa học.
* Hadoop: Là một framework để xử lý và lưu trữ lượng lớn dữ liệu trên một cụm máy tính. Hadoop sử dụng mô hình MapReduce để phân tán công việc xử lý dữ liệu trên nhiều node.
Phân tích các lựa chọn:
* A. Tình nguyện viên đóng góp thời gian CPU chứ không phải băng thông mạng: Đây là một điểm khác biệt chính xác. Các dự án máy tính tình nguyện thường sử dụng thời gian CPU nhàn rỗi của máy tính tình nguyện viên. Băng thông mạng có thể được sử dụng để tải xuống dữ liệu đầu vào và tải lên kết quả, nhưng việc đóng góp chính là thời gian CPU.
* B. Tình nguyện viên đóng góp băng thông mạng chứ không phải thời gian CPU: Sai. Như đã giải thích, tình nguyện viên chủ yếu đóng góp thời gian CPU.
* C. Hadoop không thể tìm kiếm các số nguyên tố lớn: Sai. Hadoop là một framework xử lý dữ liệu tổng quát và có thể được sử dụng cho nhiều mục đích khác nhau, bao gồm cả việc tìm kiếm số nguyên tố (mặc dù có thể không phải là ứng dụng hiệu quả nhất).
* D. Chỉ Hadoop mới có thể sử dụng mapreduce: Sai. MapReduce là một mô hình lập trình, và có thể được triển khai trên nhiều nền tảng khác nhau, không chỉ Hadoop. Có những triển khai MapReduce khác, mặc dù Hadoop là một trong những triển khai phổ biến nhất.
Vậy, đáp án A là đáp án đúng nhất, vì nó chỉ ra sự khác biệt chính trong cách thức hoạt động của Hadoop và máy tính tình nguyện.
Lời giải:
Đáp án đúng: C
Đáp án đúng là C. Flume.
Giải thích:
- Flume là một hệ thống phân tán, tin cậy và có sẵn để thu thập, tổng hợp và di chuyển một lượng lớn dữ liệu nhật ký từ nhiều nguồn khác nhau đến kho lưu trữ dữ liệu tập trung như Hadoop HDFS. Flume được thiết kế đặc biệt để nhập dữ liệu phát trực tuyến (streaming data) vào Hadoop.
- Kafka là một nền tảng truyền dữ liệu phân tán, có khả năng mở rộng và chịu lỗi, thường được sử dụng cho việc xây dựng các pipeline dữ liệu thời gian thực và các ứng dụng phát trực tuyến. Tuy nhiên, nó không phải là một hệ thống chuyên dụng để nhập dữ liệu vào Hadoop như Flume.
- Oozie là một hệ thống workflow scheduler để quản lý các công việc Hadoop. Nó không liên quan trực tiếp đến việc nhập dữ liệu.
- Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop, cung cấp khả năng truy vấn và phân tích dữ liệu lớn được lưu trữ trong Hadoop. Nó không phải là một công cụ để nhập dữ liệu.
Lời giải:
Đáp án đúng: A
Hệ thống Hbase là một cơ sở dữ liệu NoSQL mã nguồn mở, phân tán và có khả năng mở rộng, được xây dựng trên Hadoop. Nó cung cấp khả năng truy cập đọc/ghi ngẫu nhiên, thời gian thực vào lượng dữ liệu lớn (hàng terabyte trở lên). Hbase được thiết kế để lưu trữ và xử lý các tập dữ liệu lớn, thưa thớt (sparse datasets).
Các lựa chọn khác không phù hợp vì:
* Flume: Là một hệ thống dùng để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu log từ nhiều nguồn khác nhau đến kho lưu trữ tập trung như HDFS.
* Pig: Là một nền tảng cấp cao để tạo các chương trình MapReduce. Nó đơn giản hóa việc viết các truy vấn phức tạp trên Hadoop.
* HDFS (Hadoop Distributed File System): Là một hệ thống tệp phân tán được thiết kế để lưu trữ lượng lớn dữ liệu, nhưng nó không tối ưu cho việc truy cập đọc/ghi ngẫu nhiên, thời gian thực.
Các lựa chọn khác không phù hợp vì:
* Flume: Là một hệ thống dùng để thu thập, tổng hợp và di chuyển lượng lớn dữ liệu log từ nhiều nguồn khác nhau đến kho lưu trữ tập trung như HDFS.
* Pig: Là một nền tảng cấp cao để tạo các chương trình MapReduce. Nó đơn giản hóa việc viết các truy vấn phức tạp trên Hadoop.
* HDFS (Hadoop Distributed File System): Là một hệ thống tệp phân tán được thiết kế để lưu trữ lượng lớn dữ liệu, nhưng nó không tối ưu cho việc truy cập đọc/ghi ngẫu nhiên, thời gian thực.
Lời giải:
Đáp án đúng: A
Khi JobTracker lên lịch một công việc, nó ưu tiên tìm kiếm một nút có vị trí trống trên cùng giá đỡ (rack) với DataNode chứa dữ liệu mà công việc đó cần xử lý. Điều này giúp giảm thiểu lưu lượng mạng liên rack, tăng tốc độ xử lý và hiệu quả tổng thể của hệ thống Hadoop.
* Tại sao các lựa chọn khác không đúng:
* B: Chọn "bất kỳ nút nào trên cùng giá đỡ" có vẻ hợp lý, nhưng lựa chọn A chính xác hơn vì nó nhấn mạnh việc tìm kiếm một vị trí *trống* trên cùng rack, tối ưu hóa việc sử dụng tài nguyên.
* C: Chọn nút trên rack liền kề sẽ làm tăng độ trễ mạng so với việc chọn nút trên cùng rack.
* D: Chọn bất kỳ nút nào trong cụm không tối ưu hóa vị trí dữ liệu và có thể dẫn đến truyền dữ liệu tốn kém qua mạng.
* Tại sao các lựa chọn khác không đúng:
* B: Chọn "bất kỳ nút nào trên cùng giá đỡ" có vẻ hợp lý, nhưng lựa chọn A chính xác hơn vì nó nhấn mạnh việc tìm kiếm một vị trí *trống* trên cùng rack, tối ưu hóa việc sử dụng tài nguyên.
* C: Chọn nút trên rack liền kề sẽ làm tăng độ trễ mạng so với việc chọn nút trên cùng rack.
* D: Chọn bất kỳ nút nào trong cụm không tối ưu hóa vị trí dữ liệu và có thể dẫn đến truyền dữ liệu tốn kém qua mạng.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy
89 tài liệu310 lượt tải

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin
125 tài liệu441 lượt tải

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông
104 tài liệu687 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán
103 tài liệu589 lượt tải

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp
377 tài liệu1030 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
99 tài liệu1062 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng