Câu hỏi trắc nghiệm Tổng quan về Khoa học dữ liệu có đáp án - Đề 1

27 câu hỏi 45 phút

Đề số 1

Thẻ ghi nhớ

Luyện tập

Thi thử

Nhấn để lật thẻ

1 / 27

Chọn phát biểu sai:

Internet vạn vật khiến cho lượng dữ liệu được thu thập tăng cao

AI sử dụng kết quả từ khoa học dữ liệu để có thể thông minh hơn, chính xác hơn

Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity)

Data mining là một phương pháp phân tích dữ liệu của khoa học dữ liệu

Đáp án

Đáp án đúng: C

Phát biểu sai là C. Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity).

Giải thích:

Big Data (Dữ liệu lớn) được mô tả bởi 5V:

Volume (khối lượng): Dung lượng dữ liệu rất lớn.
Velocity (tốc độ): Dữ liệu được tạo ra và xử lý với tốc độ cao.
Variety (sự đa dạng): Dữ liệu có nhiều định dạng khác nhau.
Veracity (tính xác thực): Dữ liệu có thể không chính xác hoặc không đáng tin cậy.
Value (giá trị): Giá trị tiềm năng được khai thác từ dữ liệu.

Trong phát biểu C, thiếu yếu tố "Value" (giá trị) hoặc đã dịch sai "Value" thành "tính xác thực" (Veracity). Mặc dù tính xác thực là một khía cạnh quan trọng của dữ liệu, nhưng nó không phải là yếu tố "V" chính thức trong mô hình 5V của Big Data.

Các phát biểu A, B, D đều đúng.

A: IoT tạo ra rất nhiều dữ liệu.
B: AI cần dữ liệu từ khoa học dữ liệu để học hỏi và cải thiện.
D: Data mining (khai thác dữ liệu) là một phần của khoa học dữ liệu.

Danh sách câu hỏi:

Câu 1:

Chọn phát biểu sai:

Lời giải:

Đáp án đúng: C

Giải thích:

Big Data (Dữ liệu lớn) được mô tả bởi 5V:

Volume (khối lượng): Dung lượng dữ liệu rất lớn.
Velocity (tốc độ): Dữ liệu được tạo ra và xử lý với tốc độ cao.
Variety (sự đa dạng): Dữ liệu có nhiều định dạng khác nhau.
Veracity (tính xác thực): Dữ liệu có thể không chính xác hoặc không đáng tin cậy.
Value (giá trị): Giá trị tiềm năng được khai thác từ dữ liệu.

Các phát biểu A, B, D đều đúng.

A: IoT tạo ra rất nhiều dữ liệu.
B: AI cần dữ liệu từ khoa học dữ liệu để học hỏi và cải thiện.
D: Data mining (khai thác dữ liệu) là một phần của khoa học dữ liệu.

Câu 2:

Kết quả mà khoa học dữ liệu hướng đến là: thông tin và tri thức

Lời giải:

Đáp án đúng: C

Khoa học dữ liệu hướng đến việc khai thác thông tin và tri thức từ dữ liệu thô. Dữ liệu là đầu vào, thông tin là kết quả xử lý dữ liệu, và tri thức là sự hiểu biết sâu sắc hơn được rút ra từ thông tin. Vì vậy, kết quả cuối cùng mà khoa học dữ liệu hướng đến bao gồm cả thông tin và tri thức.

Câu 3:

Công cụ thống kê mô tả nào được sử dụng khi cần tổng hợp dữ liệu đa chiều

Lời giải:

Đáp án đúng: C

Câu hỏi yêu cầu xác định công cụ thống kê mô tả nào phù hợp để tổng hợp dữ liệu đa chiều.

* A. Subtotal: Công cụ này dùng để tính tổng phụ theo các nhóm dữ liệu, phù hợp với dữ liệu một chiều hoặc hai chiều đơn giản.
* B. Consolidate: Công cụ này dùng để tổng hợp dữ liệu từ nhiều nguồn khác nhau vào một bảng duy nhất, nhưng không đặc biệt mạnh trong việc phân tích đa chiều.
* C. PivotTable: Đây là công cụ mạnh mẽ để tổng hợp, phân tích và trình bày dữ liệu đa chiều. Nó cho phép người dùng dễ dàng thay đổi cách xem dữ liệu bằng cách kéo và thả các trường khác nhau vào các vùng hàng, cột, giá trị và bộ lọc.
* D. Tất cả đều sai: Phương án này bị loại vì có một đáp án đúng.

Do đó, đáp án chính xác là C. PivotTable.

Câu 4:

Công cụ thống kê mô tả nào có thể sử dụng trong trường hợp dữ liệu 2 chiều:

Lời giải:

Đáp án đúng: D

Câu hỏi này kiểm tra kiến thức về các công cụ thống kê mô tả dữ liệu hai chiều.

Subtotal: Thường dùng để tính tổng phụ theo các nhóm trong một cột dữ liệu, không thực sự hiệu quả với dữ liệu hai chiều phức tạp.
Consolidate: Cho phép tổng hợp dữ liệu từ nhiều nguồn khác nhau, nhưng không tối ưu cho việc phân tích và mô tả dữ liệu hai chiều.
PivotTable: Là công cụ mạnh mẽ để tóm tắt, phân tích và khám phá dữ liệu hai chiều. Nó cho phép bạn dễ dàng sắp xếp, lọc và tính toán dữ liệu để tìm ra các xu hướng và mối quan hệ quan trọng.

Do đó, PivotTable là lựa chọn phù hợp nhất để thống kê mô tả dữ liệu hai chiều.

Câu 5:

Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc khác nhau ta sử dụng:

Lời giải:

Đáp án đúng: D

Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc, chúng ta sử dụng chức năng Consolidate (hợp nhất) trong Excel. Chức năng này cho phép bạn tổng hợp dữ liệu từ nhiều nguồn khác nhau, ngay cả khi chúng có cấu trúc không giống nhau. Bạn có thể chọn các vùng dữ liệu cần hợp nhất và chọn cách thức hợp nhất (ví dụ: tính tổng, tính trung bình, đếm, v.v.).

Các lựa chọn khác không phù hợp:

A. Subtotal: Tính tổng phụ trong một danh sách, thường là sau khi đã sắp xếp dữ liệu.
C. PivotTable: Tạo bảng tổng hợp tương tác, nhưng thường dùng cho dữ liệu đã có cấu trúc bảng rõ ràng.
D. Tự làm bằng tay: Không phải là một chức năng có sẵn, mà là phương pháp thủ công, tốn thời gian và dễ sai sót.