Cái nào không phải là một trong những đặc điểm của dữ liệu lớn?
Đáp án đúng: B
Dữ liệu lớn (Big Data) thường được mô tả bằng 5V: Volume (Dung lượng), Velocity (Vận tốc), Variety (Đa dạng), Veracity (Tính xác thực) và Value (Giá trị). Trong các đáp án được đưa ra, A, C, và D đều là các đặc điểm của dữ liệu lớn. Do đó, đáp án B (Tính xác thực) không phải là một đặc điểm bắt buộc của dữ liệu lớn, mặc dù nó là một khía cạnh quan trọng cần xem xét khi làm việc với dữ liệu lớn.
Câu hỏi liên quan
Sqoop là công cụ được thiết kế để chuyển dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ (RDBMS). Nó cho phép nhập dữ liệu từ các RDBMS vào Hadoop và xuất dữ liệu từ Hadoop vào các RDBMS một cách hiệu quả. Các lựa chọn khác không được sử dụng cho mục đích này:
- HBase: Là một cơ sở dữ liệu NoSQL phân tán, được xây dựng trên Hadoop, không phải là công cụ để nhập/xuất dữ liệu từ các RDBMS.
- Avro: Là một hệ thống tuần tự hóa dữ liệu, thường được sử dụng để lưu trữ dữ liệu trong Hadoop, nhưng không phải là công cụ nhập/xuất chính.
- Zookeeper: Là một dịch vụ điều phối tập trung, được sử dụng để quản lý cấu hình, đồng bộ hóa và đặt tên trong các hệ thống phân tán, chứ không phải để nhập/xuất dữ liệu.
Phân tích:
Câu hỏi này kiểm tra kiến thức về các công nghệ cơ sở dữ liệu NoSQL khác nhau và đặc điểm của chúng.
Xét các phương án:
- A. HBase: HBase là một cơ sở dữ liệu NoSQL, cột-định hướng (column-oriented), được xây dựng trên Hadoop. Nó phù hợp để lưu trữ và xử lý các bộ dữ liệu lớn, nhưng không phải là cơ sở dữ liệu lưu trữ tài liệu.
- B. Hive: Hive là một hệ thống kho dữ liệu (data warehouse) được xây dựng trên Hadoop. Nó cho phép truy vấn và phân tích dữ liệu lớn được lưu trữ trong Hadoop Distributed File System (HDFS). Hive không phải là cơ sở dữ liệu lưu trữ tài liệu.
- C. Cassandra: Cassandra là một cơ sở dữ liệu NoSQL, cột-định hướng, được thiết kế để xử lý khối lượng công việc lớn trên nhiều máy chủ. Nó được sử dụng rộng rãi cho các ứng dụng cần khả năng mở rộng cao và tính sẵn sàng cao, nhưng không phải là cơ sở dữ liệu lưu trữ tài liệu.
- D. CouchDB: CouchDB là một cơ sở dữ liệu NoSQL, hướng tài liệu (document-oriented). Nó lưu trữ dữ liệu dưới dạng các tài liệu JSON, cho phép truy vấn và thao tác dữ liệu một cách linh hoạt.
Kết luận:
Vậy, CouchDB là công nghệ cơ sở dữ liệu lưu trữ tài liệu.
A. Hadoop là một framework phân tán, cho phép xử lý dữ liệu trên nhiều máy tính.
B. MapReduce là mô hình lập trình chính được sử dụng trong Hadoop để xử lý song song dữ liệu.
C. Hadoop được thiết kế để chạy trên phần cứng phổ thông (commodity hardware), tức là các máy tính thông thường, giá rẻ.
Vì cả A, B, và C đều đúng, nên D (Tất cả đều đúng) là đáp án đúng cho câu hỏi này, vì câu hỏi tìm phát biểu *không* đúng. Tuy nhiên, do đề bài yêu cầu tìm câu *không* đúng, và D lại bao gồm tất cả các câu đều đúng, nên đáp án đúng phải là một trong các đáp án A, B hoặc C. Vì cả A, B và C đều đúng nên không có đáp án nào không đúng. Đề bài sai. Tuy nhiên, nếu diễn giải theo cách khác, chúng ta có thể hiểu câu hỏi là "phát biểu nào sau đây là *sai lệch* nhất về Hadoop" (mặc dù cách diễn đạt này không chính xác). Trong trường hợp đó, đáp án D có thể được xem là "sai lệch" nhất vì nó bao hàm tất cả các phát biểu đều đúng, trong khi câu hỏi lại yêu cầu tìm phát biểu không đúng.
Tuy nhiên, cách hiểu này không hợp lý. Đề bài nên được sửa lại để tránh gây nhầm lẫn.
DataNode là thành phần trong Hadoop Distributed File System (HDFS) chịu trách nhiệm lưu trữ dữ liệu thực tế. NameNode lưu trữ metadata (thông tin về dữ liệu), không phải bản thân dữ liệu. MasterNode không phải là một thành phần tiêu chuẩn trong HDFS. Do đó, DataNode là đáp án đúng.
* Định nghĩa lược đồ: Dữ liệu được tuần tự hóa cùng với lược đồ của nó, cho phép đọc và ghi dữ liệu một cách độc lập với ngôn ngữ lập trình.
* Hỗ trợ nhiều ngôn ngữ: Avro hỗ trợ nhiều ngôn ngữ lập trình khác nhau như Java, Python, C++, v.v.
* Nén dữ liệu: Avro hỗ trợ nén dữ liệu, giúp giảm kích thước lưu trữ và tăng tốc độ truyền dữ liệu.
* Tiến hóa lược đồ: Avro hỗ trợ tiến hóa lược đồ, cho phép thay đổi lược đồ dữ liệu theo thời gian mà không làm hỏng khả năng đọc dữ liệu cũ.
Như vậy, đáp án A chính xác nhất vì Avro là một thư viện tuần tự hóa dữ liệu, và thường được sử dụng trong Java. Các đáp án khác không mô tả đúng chức năng chính của Avro.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.