Hệ số sao chép của tệp trong HDFS có thể được thay đổi bằng cách sử dụng:
Đáp án đúng: C
Trong Hadoop HDFS, lệnh setrep
được sử dụng để thay đổi hệ số sao chép (replication factor) của một tệp. Các lệnh khác như changerep
, rerep
, và xrep
không phải là các lệnh HDFS hợp lệ để thực hiện chức năng này.
Câu hỏi liên quan
So sánh Hadoop và HPC (High-Performance Computing):
- A. Có thể xử lý khối lượng dữ liệu lớn hơn: Hadoop được thiết kế để xử lý dữ liệu cực lớn (Big Data) bằng cách chia nhỏ dữ liệu và xử lý song song trên nhiều máy. Trong khi HPC cũng có thể xử lý dữ liệu lớn, Hadoop thường vượt trội hơn về khả năng mở rộng và quản lý dữ liệu phân tán.
- B. Có thể chạy trên một số lượng máy lớn hơn HPC cluster: Hadoop có khả năng mở rộng rất lớn, có thể chạy trên hàng ngàn máy tính trong một cluster. HPC cluster thường có số lượng máy ít hơn, tập trung vào hiệu suất tính toán trên mỗi máy.
- C. Có thể xử lý dữ liệu nhanh hơn với cùng băng thông mạng so với HPC: HPC thường có băng thông mạng cao hơn và tập trung vào việc giảm thiểu độ trễ, do đó có thể xử lý dữ liệu nhanh hơn khi có đủ băng thông. Hadoop, với kiến trúc phân tán, có thể bị giới hạn bởi băng thông mạng.
- D. Không thể chạy các công việc tính toán chuyên sâu: Hadoop có thể chạy các công việc tính toán chuyên sâu, nhưng HPC thường phù hợp hơn cho các công việc đòi hỏi tính toán phức tạp và độ trễ thấp. Tuy nhiên, Hadoop có thể được sử dụng để chạy các công việc tính toán song song, chẳng hạn như MapReduce.
Trong các lựa chọn trên, B là đáp án đúng nhất vì Hadoop được thiết kế để chạy trên một số lượng lớn máy tính hơn so với HPC cluster, cho phép xử lý dữ liệu phân tán hiệu quả hơn.
* Các tệp đã lưu trữ sẽ hiển thị với phần mở rộng .arc: Điều này không đúng. Hadoop Archives sử dụng phần mở rộng `.har`.
* Nhiều tệp nhỏ sẽ trở thành ít tệp lớn hơn: Điều này đúng. Mục đích chính của việc lưu trữ là giảm số lượng tệp nhỏ trong HDFS, vì quá nhiều tệp nhỏ có thể gây gánh nặng cho NameNode (nút quản lý siêu dữ liệu).
* MapReduce xử lý tên tệp gốc ngay cả sau khi tệp được lưu trữ: Điều này đúng. Khi các tệp được lưu trữ, Hadoop vẫn có thể truy cập chúng bằng cách sử dụng đường dẫn gốc của chúng.
* Các tệp đã lưu trữ phải được lưu trữ tại Liên hợp quốc cho HDFS và MapReduce để truy cập vào các tệp nhỏ, gốc: Phát biểu này sai. "Liên hợp quốc" không liên quan đến HDFS hoặc MapReduce. Các tệp được lưu trữ vẫn nằm trong HDFS.
* Lưu trữ dành cho các tệp cần được lưu nhưng HDFS không còn truy cập được nữa: Sai. Lưu trữ là để gộp các tệp nhỏ để quản lý hiệu quả hơn, chứ không phải để lưu trữ các tệp không thể truy cập được.
Vậy, đáp án đúng là B. 2 & 3.
* Node kiểm tra (Check point node): Không liên quan trực tiếp đến việc dự phòng trong cụm.
* Node tên phụ (Secondary name node): Cung cấp bản sao của metadata từ NameNode chính và hỗ trợ trong quá trình khôi phục, nhưng không trực tiếp thay thế NameNode chính khi nó bị lỗi. NameNode dự phòng (standby NameNode) mới là thành phần thay thế NameNode chính.
* DataNode phụ (Secondary data node): Không tồn tại khái niệm này. DataNode lưu trữ dữ liệu thực tế và không có node "phụ" nào đảm nhận vai trò dự phòng cho DataNode khác.
* Nhận thức về giá đỡ (Rack awareness): Đây là một tính năng quan trọng trong kiến trúc cụm, giúp cải thiện độ tin cậy và hiệu suất bằng cách phân phối dữ liệu trên các giá đỡ khác nhau. Điều này rất quan trọng để đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có sẵn từ các giá đỡ khác.
Vì vậy, khi một node dự phòng được sử dụng để thay thế, thì việc *không* cần đến "DataNode phụ" là chính xác vì khái niệm này không tồn tại. Tuy nhiên, câu hỏi có vẻ không rõ ràng vì các lựa chọn khác cũng không hoàn toàn cần thiết trong *mọi* trường hợp sử dụng node dự phòng.
Tuy nhiên, nếu xem xét câu hỏi trong bối cảnh chung nhất về dự phòng trong Hadoop (ví dụ: NameNode HA), thì Secondary NameNode không trực tiếp thay thế NameNode chính khi nó lỗi. Do đó, đáp án B có vẻ phù hợp hơn.
Lưu ý quan trọng: Để trả lời chính xác nhất, cần hiểu rõ ngữ cảnh cụ thể của câu hỏi (ví dụ: loại cụm nào, cơ chế dự phòng nào đang được sử dụng).
Khi một ứng dụng khách (client) muốn truy cập một tệp trong Hadoop Distributed File System (HDFS), nó sẽ liên hệ với NameNode. NameNode, đóng vai trò là trung tâm quản lý metadata của hệ thống tệp, sẽ cung cấp cho client thông tin cần thiết để truy cập dữ liệu thực tế. Thông tin này bao gồm:
- ID của các khối (blocks) mà tệp được chia thành.
- Tên máy chủ (hostname) của tất cả các DataNode đang lưu trữ các khối đó. Điều này cho phép client biết chính xác nơi dữ liệu của tệp được lưu trữ và cách truy cập nó trực tiếp từ các DataNode.
Các lựa chọn khác không chính xác vì:
- A. Kích thước của tệp được yêu cầu: Kích thước tệp có thể quan trọng, nhưng NameNode chủ yếu trả về thông tin vị trí dữ liệu (ID khối và DataNode).
- B. ID khối của tệp được yêu cầu: Chỉ ID khối là không đủ, cần cả thông tin về DataNode để ứng dụng khách biết nơi tìm các khối đó.
- C. ID khối và tên máy chủ của *bất kỳ* DataNode nào chứa khối đó: "Bất kỳ" là không chính xác. NameNode cung cấp thông tin về *tất cả* các DataNode chứa các bản sao của khối, để đảm bảo tính sẵn sàng và khả năng chịu lỗi.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.