Dấu phẩy được sử dụng để sao chép một dạng thư mục từ node này sang node khác trong HDFS là:
Trả lời:
Đáp án đúng: D
Lệnh distcp
(distributed copy) là công cụ được sử dụng trong Hadoop để sao chép dữ liệu, thư mục giữa các cluster Hadoop khác nhau hoặc giữa các vị trí khác nhau trong cùng một cluster. Nó thực hiện việc sao chép dữ liệu song song để tăng tốc độ, đảm bảo hiệu quả khi xử lý lượng lớn dữ liệu.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: D
Trong Spark Streaming, các transformation là các phép toán được áp dụng trên DStream để tạo ra một DStream mới. Các transformation thường gặp bao gồm `map`, `filter`, `reduceByKey`, `window`, `reduceByWindow`, `countByWindow`,...
* `reduceByWindow`: Là một transformation, kết hợp các giá trị trong một cửa sổ trượt bằng cách sử dụng một hàm reduce.
* `window`: Là một transformation, tạo ra một DStream mới bằng cách áp dụng một cửa sổ trượt trên DStream gốc.
* `countByWindow`: Là một transformation, trả về số lượng phần tử trong mỗi cửa sổ.
* `foreachWindow`: Không phải là transformation. Thay vào đó, nó là một output operation (hoạt động xuất dữ liệu) cho phép bạn thực hiện một hành động trên mỗi RDD trong một cửa sổ thời gian. Nó được sử dụng để đẩy dữ liệu ra bên ngoài Spark Streaming.
Vậy đáp án C là đáp án đúng nhất vì nó không phải là transformation mà là một output operation.
* `reduceByWindow`: Là một transformation, kết hợp các giá trị trong một cửa sổ trượt bằng cách sử dụng một hàm reduce.
* `window`: Là một transformation, tạo ra một DStream mới bằng cách áp dụng một cửa sổ trượt trên DStream gốc.
* `countByWindow`: Là một transformation, trả về số lượng phần tử trong mỗi cửa sổ.
* `foreachWindow`: Không phải là transformation. Thay vào đó, nó là một output operation (hoạt động xuất dữ liệu) cho phép bạn thực hiện một hành động trên mỗi RDD trong một cửa sổ thời gian. Nó được sử dụng để đẩy dữ liệu ra bên ngoài Spark Streaming.
Vậy đáp án C là đáp án đúng nhất vì nó không phải là transformation mà là một output operation.
Lời giải:
Đáp án đúng: A
Câu hỏi này kiểm tra kiến thức về các đặc điểm chung của hệ quản trị cơ sở dữ liệu NoSQL.
* Tính sẵn sàng cao: Hầu hết các hệ NoSQL đều được thiết kế để đảm bảo tính sẵn sàng cao, nghĩa là hệ thống vẫn hoạt động ngay cả khi một số thành phần bị lỗi. Điều này thường đạt được thông qua việc sao chép dữ liệu và phân tán trên nhiều node.
* Khả năng mở rộng linh hoạt: NoSQL thường có khả năng mở rộng rất tốt, cho phép tăng dung lượng lưu trữ và khả năng xử lý bằng cách thêm các node vào cluster một cách dễ dàng.
* Phù hợp với dữ liệu lớn: NoSQL thường được sử dụng cho các ứng dụng xử lý dữ liệu lớn (Big Data) vì khả năng xử lý và lưu trữ lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc. Tuy nhiên, không phải tất cả các hệ NoSQL đều đảm bảo tính ACID (Atomicity, Consistency, Isolation, Durability) như các hệ quản trị cơ sở dữ liệu quan hệ truyền thống. Một số hệ NoSQL có thể ưu tiên tính nhất quán cuối cùng (eventual consistency) thay vì tính nhất quán mạnh mẽ (strong consistency) để đạt được hiệu suất cao hơn và khả năng mở rộng tốt hơn.
Vì vậy, cả ba đặc điểm trên đều thường thấy ở các hệ NoSQL. Tuy nhiên, nếu phải chọn một đáp án *không phải* là tính năng mà *NoSQL nào cũng* đáp ứng, thì đáp án phù hợp nhất là tính nhất quán (Consistency) theo nghĩa ACID. Vì câu hỏi không đề cập đến tính ACID, và cả ba đáp án đều là các tính năng phổ biến của NoSQL, nên có thể xem như câu hỏi này không có đáp án đúng tuyệt đối, vì cả A, B, và C đều là các đặc điểm thường thấy của NoSQL.
* Tính sẵn sàng cao: Hầu hết các hệ NoSQL đều được thiết kế để đảm bảo tính sẵn sàng cao, nghĩa là hệ thống vẫn hoạt động ngay cả khi một số thành phần bị lỗi. Điều này thường đạt được thông qua việc sao chép dữ liệu và phân tán trên nhiều node.
* Khả năng mở rộng linh hoạt: NoSQL thường có khả năng mở rộng rất tốt, cho phép tăng dung lượng lưu trữ và khả năng xử lý bằng cách thêm các node vào cluster một cách dễ dàng.
* Phù hợp với dữ liệu lớn: NoSQL thường được sử dụng cho các ứng dụng xử lý dữ liệu lớn (Big Data) vì khả năng xử lý và lưu trữ lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc. Tuy nhiên, không phải tất cả các hệ NoSQL đều đảm bảo tính ACID (Atomicity, Consistency, Isolation, Durability) như các hệ quản trị cơ sở dữ liệu quan hệ truyền thống. Một số hệ NoSQL có thể ưu tiên tính nhất quán cuối cùng (eventual consistency) thay vì tính nhất quán mạnh mẽ (strong consistency) để đạt được hiệu suất cao hơn và khả năng mở rộng tốt hơn.
Vì vậy, cả ba đặc điểm trên đều thường thấy ở các hệ NoSQL. Tuy nhiên, nếu phải chọn một đáp án *không phải* là tính năng mà *NoSQL nào cũng* đáp ứng, thì đáp án phù hợp nhất là tính nhất quán (Consistency) theo nghĩa ACID. Vì câu hỏi không đề cập đến tính ACID, và cả ba đáp án đều là các tính năng phổ biến của NoSQL, nên có thể xem như câu hỏi này không có đáp án đúng tuyệt đối, vì cả A, B, và C đều là các đặc điểm thường thấy của NoSQL.
Lời giải:
Đáp án đúng: A
Lệnh chính xác để lưu trữ dữ liệu ra ngoài trong Spark là `saveAsTextFile()`. Phương thức này cho phép bạn lưu RDD (Resilient Distributed Dataset) thành một tập hợp các tệp văn bản trong một thư mục. Mỗi phần tử của RDD sẽ được ghi thành một dòng mới trong tệp.
Trong các lựa chọn được cung cấp:
* A. input.saveAsTextFile('file:///usr/momoinu/mon_loz/hihi.txt'): Đây là cú pháp đúng để lưu trữ RDD `input` vào đường dẫn `file:///usr/momoinu/mon_loz/hihi.txt`. Tiền tố `file:///` chỉ ra rằng bạn đang lưu trữ vào hệ thống tệp cục bộ.
* B. input.saveAsTextFile('/usr/momoinu/mon_loz/hihi.txt'): Có thể đúng nếu cấu hình spark mặc định trỏ đến file system cục bộ, tuy nhiên thiếu tiền tố `file:///` sẽ kém tường minh và có thể gây lỗi nếu cấu hình khác.
* C. input.saveAs ('file:///usr/momoinu/mon_loz/hihi.txt'): Sai. `saveAs` không phải là một phương thức chuẩn để lưu dữ liệu văn bản trong Spark. Cần sử dụng `saveAsTextFile`.
* D. input.saveAsTextFile: 'file:///usr/momoinu/mon_loz/hihi.txt': Sai cú pháp. Dấu hai chấm không được sử dụng để gọi một phương thức trong Spark (Scala hoặc Python).
Do đó, đáp án A là chính xác nhất.
Trong các lựa chọn được cung cấp:
* A. input.saveAsTextFile('file:///usr/momoinu/mon_loz/hihi.txt'): Đây là cú pháp đúng để lưu trữ RDD `input` vào đường dẫn `file:///usr/momoinu/mon_loz/hihi.txt`. Tiền tố `file:///` chỉ ra rằng bạn đang lưu trữ vào hệ thống tệp cục bộ.
* B. input.saveAsTextFile('/usr/momoinu/mon_loz/hihi.txt'): Có thể đúng nếu cấu hình spark mặc định trỏ đến file system cục bộ, tuy nhiên thiếu tiền tố `file:///` sẽ kém tường minh và có thể gây lỗi nếu cấu hình khác.
* C. input.saveAs ('file:///usr/momoinu/mon_loz/hihi.txt'): Sai. `saveAs` không phải là một phương thức chuẩn để lưu dữ liệu văn bản trong Spark. Cần sử dụng `saveAsTextFile`.
* D. input.saveAsTextFile: 'file:///usr/momoinu/mon_loz/hihi.txt': Sai cú pháp. Dấu hai chấm không được sử dụng để gọi một phương thức trong Spark (Scala hoặc Python).
Do đó, đáp án A là chính xác nhất.
Lời giải:
Đáp án đúng: B
Đầu ra của một map task trong Hadoop MapReduce là các cặp khóa-giá trị. Mỗi map task xử lý một phần tách (input split) của dữ liệu đầu vào. Vì vậy, đầu ra của nó là các cặp khóa-giá trị được tạo ra từ việc xử lý các bản ghi trong phần tách đó. Do đó, phương án B là chính xác.
Lời giải:
Đáp án đúng: D
Câu hỏi yêu cầu tìm phát biểu KHÔNG đúng về Hadoop.
* A. Đây là một khung phân tán: Hadoop là một framework phân tán, cho phép xử lý dữ liệu trên nhiều máy tính đồng thời. Phát biểu này đúng.
* B. Thuật toán chính được sử dụng trong đó là Map Reduce: MapReduce là mô hình lập trình chính được Hadoop sử dụng để xử lý song song các tập dữ liệu lớn. Phát biểu này đúng.
* C. Nó chạy với đồ cứng hàng hóa: Hadoop được thiết kế để chạy trên phần cứng thông thường (commodity hardware), giúp giảm chi phí. Phát biểu này đúng.
* D. Tất cả đều đúng: Vì cả A, B, và C đều đúng, nên D không thể là đáp án đúng cho câu hỏi này (vì câu hỏi yêu cầu tìm phát biểu KHÔNG đúng).
Vì vậy, đáp án đúng là D.
* A. Đây là một khung phân tán: Hadoop là một framework phân tán, cho phép xử lý dữ liệu trên nhiều máy tính đồng thời. Phát biểu này đúng.
* B. Thuật toán chính được sử dụng trong đó là Map Reduce: MapReduce là mô hình lập trình chính được Hadoop sử dụng để xử lý song song các tập dữ liệu lớn. Phát biểu này đúng.
* C. Nó chạy với đồ cứng hàng hóa: Hadoop được thiết kế để chạy trên phần cứng thông thường (commodity hardware), giúp giảm chi phí. Phát biểu này đúng.
* D. Tất cả đều đúng: Vì cả A, B, và C đều đúng, nên D không thể là đáp án đúng cho câu hỏi này (vì câu hỏi yêu cầu tìm phát biểu KHÔNG đúng).
Vì vậy, đáp án đúng là D.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy
89 tài liệu310 lượt tải

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin
125 tài liệu441 lượt tải

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông
104 tài liệu687 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán
103 tài liệu589 lượt tải

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp
377 tài liệu1030 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
99 tài liệu1062 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng