HBASE là gì?

Hbase là bộ Java API riêng biệt cho cụm Hadoop

Hbase là một phần của dự án Apache Hadoop cung cấp giao diện để quét một lượng lớn dữ liệu bằng cơ sở hạ tầng Hadoop

Hbase là một "cơ sở dữ liệu" giống như giao diện với dữ liệu cụm Hadoop

HBase là một phần của dự án Apache Hadoop cung cấp giao diện giống SQL để xử lý dữ liệu

Trả lời:

Đáp án đúng: B

HBase là một phần của dự án Apache Hadoop, cung cấp một giao diện để quét một lượng lớn dữ liệu sử dụng cơ sở hạ tầng của Hadoop. Nó không phải là một bộ API riêng biệt (A), cũng không phải là một giao diện giống SQL (D). Mặc dù nó hoạt động như một "cơ sở dữ liệu", lựa chọn B mô tả chính xác hơn vai trò và chức năng của HBase trong hệ sinh thái Hadoop.

300+ câu hỏi trắc nghiệm Big Data đầy đủ đáp án và lời giải - Phần 4

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 12:

HDFS có thể được truy cập qua HTTP bằng cách sử dụng:

Lời giải:

Đáp án đúng: B

HDFS (Hadoop Distributed File System) cung cấp một số cách để truy cập dữ liệu thông qua HTTP. Trong số các lựa chọn được đưa ra, lược đồ URI webhdfs là phương pháp chính thức và được khuyến nghị để truy cập HDFS qua HTTP.

Lược đồ URI webhdfs: Đây là giao diện REST API cho phép các ứng dụng tương tác với HDFS bằng các yêu cầu HTTP. Nó cung cấp các hoạt động như đọc, ghi, tạo, xóa và liệt kê các tệp và thư mục trong HDFS.

lược đồ URI viewfs: ViewFS cho phép tạo nhiều không gian tên HDFS. Nó không trực tiếp liên quan đến việc truy cập HDFS qua HTTP.

Lược đồ URI C - wasb: wasb là lược đồ URI được sử dụng để truy cập Azure Blob Storage bằng trình điều khiển Hadoop Azure Storage, không phải là một phần của HDFS gốc.

HDFS ftp: HDFS không sử dụng giao thức FTP một cách trực tiếp.

Do đó, đáp án đúng là B.

Câu 13:

Khi ghi dữ liệu vào HDFS, điều gì là đúng nếu hệ số nhân bản là ba? (Chọn 2 câu trả lời)

Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)

Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum

Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau

Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra

Lời giải:

Đáp án đúng: A

Câu hỏi liên quan đến hành vi ghi dữ liệu trong HDFS (Hadoop Distributed File System) với hệ số nhân bản (replication factor) là 3. Điều này có nghĩa là mỗi khối dữ liệu sẽ có 3 bản sao được lưu trữ trên các DataNode khác nhau.

Phương án 1: Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)

Đây là một đặc điểm quan trọng của HDFS khi cấu hình Rack Awareness. Mục tiêu là tăng tính sẵn sàng và độ tin cậy của dữ liệu. Bằng cách lưu trữ các bản sao trên các giá đỡ (rack) khác nhau, HDFS đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có thể truy cập được từ các giá đỡ khác. Điều này làm cho phương án 1 đúng.

Phương án 2: Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum

Mỗi khối dữ liệu trên DataNode sẽ được lưu trữ trong hai file: một file chứa data, và một file chứa metadata, trong đó có checksum. Checksum này được dùng để đảm bảo tính toàn vẹn của dữ liệu. Do đó, dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum là đúng.

Phương án 3: Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau

Đây là bản chất của việc nhân bản trong HDFS. Với hệ số nhân bản là 3, mỗi khối dữ liệu sẽ được sao chép và lưu trữ trên 3 DataNodes khác nhau. Điều này đảm bảo tính dự phòng và khả năng chịu lỗi. Do đó, phương án 3 đúng.

Phương án 4: Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra

Trong HDFS, client (khách hàng) chỉ nhận được thông báo thành công khi dữ liệu đã được ghi thành công vào *tất cả* các bản sao (trong trường hợp này là 3 bản sao) và checksum đã được xác minh. Việc ghi thành công chỉ một bản sao là không đủ để trả lại thành công cho client. Do đó, phương án 4 sai.

Kết luận:

Vậy, hai câu trả lời đúng là phương án 1 và phương án 3.

Câu 14:

Lệnh để kiểm tra xem Hadoop có hoạt động hay không là:

Lời giải:

Đáp án đúng: B

Lệnh `jps` (Java Virtual Machine Process Status Tool) được sử dụng để liệt kê các tiến trình JVM đang chạy trên hệ thống. Trong môi trường Hadoop, `jps` có thể được sử dụng để kiểm tra xem các tiến trình quan trọng của Hadoop như NameNode, DataNode, ResourceManager, NodeManager có đang chạy hay không. Do đó, `jps` là một cách để kiểm tra xem Hadoop có hoạt động hay không.

Các lựa chọn khác:
- `jsp`: Không phải là một lệnh tiêu chuẩn hoặc công cụ liên quan đến Hadoop.
- `Hadoop fs -test`: Lệnh này được sử dụng để kiểm tra sự tồn tại của một tệp hoặc thư mục trong hệ thống tệp Hadoop (HDFS), chứ không phải để kiểm tra trạng thái hoạt động của Hadoop.
- `Không có`: Vì `jps` có thể được sử dụng để kiểm tra trạng thái hoạt động của Hadoop, nên phương án này không đúng.

Câu 15:

Lệnh "hadoop fs -test -z URI" cho kết quả 0 nếu:

Lời giải:

Đáp án đúng: D

Lệnh `hadoop fs -test -z URI` được sử dụng để kiểm tra xem một tệp có độ dài bằng 0 hay không. Nếu tệp tại đường dẫn URI có độ dài bằng 0, lệnh sẽ trả về mã trả về là 0. Nếu không, nó sẽ trả về một mã khác 0.

* A. nếu đường dẫn là một thư mục: Lệnh này không kiểm tra xem đường dẫn có phải là thư mục hay không.
* B. nếu đường dẫn là một tệp: Lệnh này kiểm tra đường dẫn là một tệp và có độ dài bằng 0 hay không.
* C. nếu đường dẫn không trống: Lệnh này kiểm tra xem tệp có trống hay không, không phải là không trống.
* D. nếu tệp có độ dài bằng 0: Đây là đáp án chính xác. Lệnh `hadoop fs -test -z URI` trả về 0 nếu tệp có độ dài bằng 0.

Câu 16:

Mô tả cách thức một client đọc dữ liệu trên HDFS:

Lời giải:

Đáp án đúng: D

Đáp án đúng là B.

Quá trình đọc dữ liệu trên HDFS diễn ra như sau:

1. Client gửi yêu cầu đến Namenode: Client muốn đọc một file trên HDFS, nó sẽ gửi yêu cầu đến Namenode để biết vị trí của các block (chunk) của file đó.
2. Namenode cung cấp thông tin vị trí: Namenode chứa metadata của hệ thống file, bao gồm thông tin về vị trí của tất cả các block. Namenode trả về danh sách các Datanode chứa các block cần thiết cho client.
3. Client kết nối trực tiếp đến Datanode: Client sử dụng thông tin vị trí nhận được từ Namenode để kết nối trực tiếp đến các Datanode tương ứng.
4. Đọc dữ liệu song song: Client đọc dữ liệu từ các Datanode song song để tăng tốc độ đọc. Dữ liệu được trả về cho client.

Các phương án khác không chính xác vì:

* A: Client không thông báo cho Namenode để *bắt đầu* quá trình đọc. Namenode chỉ cung cấp thông tin vị trí.
* C: Namenode không trực tiếp lấy dữ liệu từ Datanode rồi trả về cho client. Client tự kết nối và đọc.
* D: Thiếu bước quan trọng là client phải kết nối và đọc dữ liệu từ các Datanode sau khi đã biết vị trí.

Câu 17:

Mục đích của lệnh sau đây là gì:

(trainingData, testData) = dataset.randomSplit([0.8, 0.2], seed=100)

Lời giải: