Dấu phẩy được sử dụng để sao chép một dạng thư mục từ node này sang node khác trong HDFS là:

rcp

dcp

drcp

distcp

Trả lời:

Đáp án đúng: D

Lệnh distcp (distributed copy) là công cụ được sử dụng trong Hadoop để sao chép dữ liệu, thư mục giữa các cluster Hadoop khác nhau hoặc giữa các vị trí khác nhau trong cùng một cluster. Nó thực hiện việc sao chép dữ liệu song song để tăng tốc độ, đảm bảo hiệu quả khi xử lý lượng lớn dữ liệu.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 5

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 8:

Đáp án nào không phải là một "Transformation" khi thao tác với DStream:

Lời giải:

Đáp án đúng: D

Trong Spark Streaming, các transformation là các phép toán được áp dụng trên DStream để tạo ra một DStream mới. Các transformation thường gặp bao gồm `map`, `filter`, `reduceByKey`, `window`, `reduceByWindow`, `countByWindow`,...

* `reduceByWindow`: Là một transformation, kết hợp các giá trị trong một cửa sổ trượt bằng cách sử dụng một hàm reduce.
* `window`: Là một transformation, tạo ra một DStream mới bằng cách áp dụng một cửa sổ trượt trên DStream gốc.
* `countByWindow`: Là một transformation, trả về số lượng phần tử trong mỗi cửa sổ.
* `foreachWindow`: Không phải là transformation. Thay vào đó, nó là một output operation (hoạt động xuất dữ liệu) cho phép bạn thực hiện một hành động trên mỗi RDD trong một cửa sổ thời gian. Nó được sử dụng để đẩy dữ liệu ra bên ngoài Spark Streaming.

Vậy đáp án C là đáp án đúng nhất vì nó không phải là transformation mà là một output operation.

Câu 9:

Đâu không phải là tính năng mà NoSQL nào cũng đáp ứng:

Lời giải:

Đáp án đúng: A

Câu hỏi này kiểm tra kiến thức về các đặc điểm chung của hệ quản trị cơ sở dữ liệu NoSQL.

* Tính sẵn sàng cao: Hầu hết các hệ NoSQL đều được thiết kế để đảm bảo tính sẵn sàng cao, nghĩa là hệ thống vẫn hoạt động ngay cả khi một số thành phần bị lỗi. Điều này thường đạt được thông qua việc sao chép dữ liệu và phân tán trên nhiều node.
* Khả năng mở rộng linh hoạt: NoSQL thường có khả năng mở rộng rất tốt, cho phép tăng dung lượng lưu trữ và khả năng xử lý bằng cách thêm các node vào cluster một cách dễ dàng.
* Phù hợp với dữ liệu lớn: NoSQL thường được sử dụng cho các ứng dụng xử lý dữ liệu lớn (Big Data) vì khả năng xử lý và lưu trữ lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc. Tuy nhiên, không phải tất cả các hệ NoSQL đều đảm bảo tính ACID (Atomicity, Consistency, Isolation, Durability) như các hệ quản trị cơ sở dữ liệu quan hệ truyền thống. Một số hệ NoSQL có thể ưu tiên tính nhất quán cuối cùng (eventual consistency) thay vì tính nhất quán mạnh mẽ (strong consistency) để đạt được hiệu suất cao hơn và khả năng mở rộng tốt hơn.

Vì vậy, cả ba đặc điểm trên đều thường thấy ở các hệ NoSQL. Tuy nhiên, nếu phải chọn một đáp án *không phải* là tính năng mà *NoSQL nào cũng* đáp ứng, thì đáp án phù hợp nhất là tính nhất quán (Consistency) theo nghĩa ACID. Vì câu hỏi không đề cập đến tính ACID, và cả ba đáp án đều là các tính năng phổ biến của NoSQL, nên có thể xem như câu hỏi này không có đáp án đúng tuyệt đối, vì cả A, B, và C đều là các đặc điểm thường thấy của NoSQL.

Câu 10:

Đâu là lệnh lưu trữ dữ liệu ra ngoài chương trình Spark:

Lời giải:

Đáp án đúng: A

Lệnh chính xác để lưu trữ dữ liệu ra ngoài trong Spark là `saveAsTextFile()`. Phương thức này cho phép bạn lưu RDD (Resilient Distributed Dataset) thành một tập hợp các tệp văn bản trong một thư mục. Mỗi phần tử của RDD sẽ được ghi thành một dòng mới trong tệp.

Trong các lựa chọn được cung cấp:

* A. input.saveAsTextFile('file:///usr/momoinu/mon_loz/hihi.txt'): Đây là cú pháp đúng để lưu trữ RDD `input` vào đường dẫn `file:///usr/momoinu/mon_loz/hihi.txt`. Tiền tố `file:///` chỉ ra rằng bạn đang lưu trữ vào hệ thống tệp cục bộ.
* B. input.saveAsTextFile('/usr/momoinu/mon_loz/hihi.txt'): Có thể đúng nếu cấu hình spark mặc định trỏ đến file system cục bộ, tuy nhiên thiếu tiền tố `file:///` sẽ kém tường minh và có thể gây lỗi nếu cấu hình khác.
* C. input.saveAs ('file:///usr/momoinu/mon_loz/hihi.txt'): Sai. `saveAs` không phải là một phương thức chuẩn để lưu dữ liệu văn bản trong Spark. Cần sử dụng `saveAsTextFile`.
* D. input.saveAsTextFile: 'file:///usr/momoinu/mon_loz/hihi.txt': Sai cú pháp. Dấu hai chấm không được sử dụng để gọi một phương thức trong Spark (Scala hoặc Python).

Do đó, đáp án A là chính xác nhất.

Câu 11:

Đầu ra của một map task là:

Lời giải:

Đáp án đúng: B

Đầu ra của một map task trong Hadoop MapReduce là các cặp khóa-giá trị. Mỗi map task xử lý một phần tách (input split) của dữ liệu đầu vào. Vì vậy, đầu ra của nó là các cặp khóa-giá trị được tạo ra từ việc xử lý các bản ghi trong phần tách đó. Do đó, phương án B là chính xác.

Câu 12:

Điều nào sau đây không đúng đối với Hadoop?

Lời giải:

Đáp án đúng: D

Câu hỏi yêu cầu tìm phát biểu KHÔNG đúng về Hadoop.

* A. Đây là một khung phân tán: Hadoop là một framework phân tán, cho phép xử lý dữ liệu trên nhiều máy tính đồng thời. Phát biểu này đúng.
* B. Thuật toán chính được sử dụng trong đó là Map Reduce: MapReduce là mô hình lập trình chính được Hadoop sử dụng để xử lý song song các tập dữ liệu lớn. Phát biểu này đúng.
* C. Nó chạy với đồ cứng hàng hóa: Hadoop được thiết kế để chạy trên phần cứng thông thường (commodity hardware), giúp giảm chi phí. Phát biểu này đúng.
* D. Tất cả đều đúng: Vì cả A, B, và C đều đúng, nên D không thể là đáp án đúng cho câu hỏi này (vì câu hỏi yêu cầu tìm phát biểu KHÔNG đúng).

Vì vậy, đáp án đúng là D.

Câu 13:

Điều sau không được phép trên các tệp HDFS:

Lời giải: