HBASE là gì?
Hbase là bộ Java API riêng biệt cho cụm Hadoop
Hbase là một phần của dự án Apache Hadoop cung cấp giao diện để quét một lượng lớn dữ liệu bằng cơ sở hạ tầng Hadoop
Hbase là một "cơ sở dữ liệu" giống như giao diện với dữ liệu cụm Hadoop
HBase là một phần của dự án Apache Hadoop cung cấp giao diện giống SQL để xử lý dữ liệu
Đáp án đúng: B
Câu hỏi liên quan
HDFS (Hadoop Distributed File System) cung cấp một số cách để truy cập dữ liệu thông qua HTTP. Trong số các lựa chọn được đưa ra, lược đồ URI webhdfs
là phương pháp chính thức và được khuyến nghị để truy cập HDFS qua HTTP.
- Lược đồ URI webhdfs: Đây là giao diện REST API cho phép các ứng dụng tương tác với HDFS bằng các yêu cầu HTTP. Nó cung cấp các hoạt động như đọc, ghi, tạo, xóa và liệt kê các tệp và thư mục trong HDFS.
- lược đồ URI viewfs: ViewFS cho phép tạo nhiều không gian tên HDFS. Nó không trực tiếp liên quan đến việc truy cập HDFS qua HTTP.
- Lược đồ URI C - wasb:
wasb
là lược đồ URI được sử dụng để truy cập Azure Blob Storage bằng trình điều khiển Hadoop Azure Storage, không phải là một phần của HDFS gốc. - HDFS ftp: HDFS không sử dụng giao thức FTP một cách trực tiếp.
Do đó, đáp án đúng là B.
Câu hỏi liên quan đến hành vi ghi dữ liệu trong HDFS (Hadoop Distributed File System) với hệ số nhân bản (replication factor) là 3. Điều này có nghĩa là mỗi khối dữ liệu sẽ có 3 bản sao được lưu trữ trên các DataNode khác nhau.
Phương án 1: Dữ liệu được ghi vào DataNodes trên ba giá đỡ riêng biệt (nếu Rack Aware)
Đây là một đặc điểm quan trọng của HDFS khi cấu hình Rack Awareness. Mục tiêu là tăng tính sẵn sàng và độ tin cậy của dữ liệu. Bằng cách lưu trữ các bản sao trên các giá đỡ (rack) khác nhau, HDFS đảm bảo rằng nếu một giá đỡ bị lỗi, dữ liệu vẫn có thể truy cập được từ các giá đỡ khác. Điều này làm cho phương án 1 đúng.
Phương án 2: Dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum
Mỗi khối dữ liệu trên DataNode sẽ được lưu trữ trong hai file: một file chứa data, và một file chứa metadata, trong đó có checksum. Checksum này được dùng để đảm bảo tính toàn vẹn của dữ liệu. Do đó, dữ liệu được lưu trữ trên mỗi DataNode bằng một tệp riêng biệt chứa checksum là đúng.
Phương án 3: Dữ liệu được ghi vào các khối trên ba DataNodes khác nhau
Đây là bản chất của việc nhân bản trong HDFS. Với hệ số nhân bản là 3, mỗi khối dữ liệu sẽ được sao chép và lưu trữ trên 3 DataNodes khác nhau. Điều này đảm bảo tính dự phòng và khả năng chịu lỗi. Do đó, phương án 3 đúng.
Phương án 4: Khách hàng được trả lại thành công khi ghi thành công khối đầu tiên và kiểm tra tổng kiểm tra
Trong HDFS, client (khách hàng) chỉ nhận được thông báo thành công khi dữ liệu đã được ghi thành công vào *tất cả* các bản sao (trong trường hợp này là 3 bản sao) và checksum đã được xác minh. Việc ghi thành công chỉ một bản sao là không đủ để trả lại thành công cho client. Do đó, phương án 4 sai.
Kết luận:
Vậy, hai câu trả lời đúng là phương án 1 và phương án 3.
Các lựa chọn khác:
- `jsp`: Không phải là một lệnh tiêu chuẩn hoặc công cụ liên quan đến Hadoop.
- `Hadoop fs -test`: Lệnh này được sử dụng để kiểm tra sự tồn tại của một tệp hoặc thư mục trong hệ thống tệp Hadoop (HDFS), chứ không phải để kiểm tra trạng thái hoạt động của Hadoop.
- `Không có`: Vì `jps` có thể được sử dụng để kiểm tra trạng thái hoạt động của Hadoop, nên phương án này không đúng.
* A. nếu đường dẫn là một thư mục: Lệnh này không kiểm tra xem đường dẫn có phải là thư mục hay không.
* B. nếu đường dẫn là một tệp: Lệnh này kiểm tra đường dẫn là một tệp và có độ dài bằng 0 hay không.
* C. nếu đường dẫn không trống: Lệnh này kiểm tra xem tệp có trống hay không, không phải là không trống.
* D. nếu tệp có độ dài bằng 0: Đây là đáp án chính xác. Lệnh `hadoop fs -test -z URI` trả về 0 nếu tệp có độ dài bằng 0.
Quá trình đọc dữ liệu trên HDFS diễn ra như sau:
1. Client gửi yêu cầu đến Namenode: Client muốn đọc một file trên HDFS, nó sẽ gửi yêu cầu đến Namenode để biết vị trí của các block (chunk) của file đó.
2. Namenode cung cấp thông tin vị trí: Namenode chứa metadata của hệ thống file, bao gồm thông tin về vị trí của tất cả các block. Namenode trả về danh sách các Datanode chứa các block cần thiết cho client.
3. Client kết nối trực tiếp đến Datanode: Client sử dụng thông tin vị trí nhận được từ Namenode để kết nối trực tiếp đến các Datanode tương ứng.
4. Đọc dữ liệu song song: Client đọc dữ liệu từ các Datanode song song để tăng tốc độ đọc. Dữ liệu được trả về cho client.
Các phương án khác không chính xác vì:
* A: Client không thông báo cho Namenode để *bắt đầu* quá trình đọc. Namenode chỉ cung cấp thông tin vị trí.
* C: Namenode không trực tiếp lấy dữ liệu từ Datanode rồi trả về cho client. Client tự kết nối và đọc.
* D: Thiếu bước quan trọng là client phải kết nối và đọc dữ liệu từ các Datanode sau khi đã biết vị trí.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.