Trong một cụm Hadoop, điều gì đúng với khối HDFS không còn khả dụng do hỏng đĩa hoặc lỗi máy?

Lệnh nào liệt kê các khối tạo nên mỗi tệp trong hệ thống tệp?

Lời giải:

Đáp án đúng: A

Câu hỏi yêu cầu tìm lệnh Hadoop để liệt kê các khối tạo nên mỗi tệp trong hệ thống tệp HDFS. Lệnh hdfs fsck là công cụ dòng lệnh được sử dụng để kiểm tra tính toàn vẹn của hệ thống tệp HDFS và cung cấp thông tin chi tiết về các tệp và khối. Các tùy chọn -files và -blocks được sử dụng để chỉ định rằng chúng ta muốn thông tin về các tệp và các khối tương ứng của chúng.

Phương án A: hdfs fsck / -files -blocks - Đây là đáp án đúng. Lệnh này sẽ kiểm tra toàn bộ hệ thống tệp (bắt đầu từ thư mục gốc '/') và liệt kê thông tin về các tệp và các khối tạo nên chúng.

Phương án B: hdfs fsck / -blocks -files - Mặc dù các tùy chọn được đảo ngược, nhưng lệnh này vẫn hoạt động tương tự như phương án A. Tuy nhiên, theo quy ước và tài liệu chính thức, thứ tự thường là -files -blocks. Mặc dù không sai hoàn toàn, phương án A được ưu tiên hơn.

Phương án C: hdfs fchk / -blocks -files - Lệnh hdfs fchk không phải là một lệnh HDFS hợp lệ. Lệnh đúng là hdfs fsck.

Phương án D: hdfs fchk / -files -block - Tương tự như phương án C, hdfs fchk không phải là một lệnh HDFS hợp lệ. Hơn nữa, tùy chọn -block (số ít) không chính xác; phải là -blocks (số nhiều).

Câu 29:

DataNode và NameNode là tương ứng:

Lời giải:

Đáp án đúng: B

Trong Hadoop Distributed File System (HDFS), NameNode là nút trung tâm quản lý metadata (dữ liệu về dữ liệu) của hệ thống tệp tin, còn DataNode là các nút công nhân lưu trữ dữ liệu thực tế. Như vậy, DataNode tương ứng với nút công nhân và NameNode tương ứng với nút chính.

Câu 30:

Theo Tính khả dụng cao của Hadoop, nghĩa là Hàng rào:

Lời giải:

Đáp án đúng: D

Tính khả dụng cao (High Availability - HA) trong Hadoop đảm bảo hệ thống tiếp tục hoạt động ngay cả khi một thành phần bị lỗi. Trong ngữ cảnh của NameNode, hàng rào (fencing) là một cơ chế quan trọng để ngăn chặn NameNode đang hoạt động trước đó (nếu nó vẫn còn hoạt động một phần do sự cố mạng hoặc các vấn đề khác) gây ra xung đột dữ liệu hoặc làm hỏng hệ thống khi NameNode dự phòng (standby) được kích hoạt để thay thế.

Phương án A không chính xác vì hàng rào không ngăn NameNode hoạt động trước đó chạy lại, mà ngăn nó can thiệp vào hoạt động của NameNode mới đang hoạt động.
Phương án B không chính xác vì hàng rào không ngăn chặn việc chuyển đổi dự phòng mà đảm bảo việc chuyển đổi diễn ra an toàn.
Phương án C không chính xác vì hàng rào không liên quan đến sự cố sập nguồn.
Phương án D là chính xác nhất. Hàng rào đảm bảo rằng NameNode đã hoạt động trước đó không thể ghi vào nhật ký chỉnh sửa (edit log) khi NameNode mới đã tiếp quản vai trò hoạt động. Điều này ngăn chặn xung đột và đảm bảo tính nhất quán của dữ liệu.

Câu 31:

Vị trí khối hiện tại của HDFS nơi dữ liệu đang được ghi vào:

Lời giải:

Đáp án đúng: D

Trong HDFS (Hadoop Distributed File System), khi dữ liệu đang được ghi vào một khối (block), vị trí chính xác của khối đó thường không được hiển thị trực tiếp cho các ứng dụng hoặc khách hàng đang yêu cầu đọc dữ liệu. Điều này là do HDFS muốn đảm bảo tính nhất quán và tránh các vấn đề phát sinh khi dữ liệu vẫn đang trong quá trình ghi.

Phương án A không đúng vì vị trí khối đang ghi không được hiển thị cho khách hàng yêu cầu đọc.
Phương án B là đáp án đúng. Vị trí khối hiện tại nơi dữ liệu đang được ghi vào sẽ không hiển thị đối với các yêu cầu của khách hàng cho đến khi quá trình ghi hoàn tất và dữ liệu được cam kết.
Phương án C không đúng vì tính đúng sai không chắc chắn.
Phương án D gần đúng, nhưng chưa đủ. Vị trí khối chỉ hiển thị sau khi dữ liệu được lưu và commit chứ không chỉ "lưu trong bộ đệm".

Câu 32:

Sao chép thiếu trong HDFS có nghĩa là:

Lời giải:

Đáp án đúng: D

Sao chép thiếu (Under-replication) trong HDFS xảy ra khi số lượng bản sao thực tế của một khối dữ liệu nhỏ hơn so với hệ số sao chép (replication factor) được cấu hình. Điều này có nghĩa là hệ thống chưa tạo đủ số lượng bản sao như yêu cầu để đảm bảo tính sẵn sàng và độ tin cậy của dữ liệu. Các tình huống có thể dẫn đến sao chép thiếu bao gồm: DataNode bị lỗi, quá trình sao chép bị gián đoạn, hoặc DataNode mới được thêm vào cluster và chưa hoàn thành việc sao chép dữ liệu. Do đó, đáp án chính xác là D. Số lượng bản sao được tái tạo ít hơn so với quy định của hệ số sao chép.

Câu 33:

Thuộc tính nào dưới đây được định cấu hình trên hdfs-site.xml?

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 34:

Lệnh để kiểm tra xem Hadoop có hoạt động hay không là:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 35:

Khi một jobTracker lên lịch, một công việc sẽ được tìm kiếm đầu tiên:

Lời giải:

Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP