JavaScript is required
Danh sách đề

Câu hỏi trắc nghiệm Tổng quan về Khoa học dữ liệu có đáp án - Đề 1

27 câu hỏi 45 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 27

Chọn phát biểu sai:

A.

Internet vạn vật khiến cho lượng dữ liệu được thu thập tăng cao

B.

AI sử dụng kết quả từ khoa học dữ liệu để có thể thông minh hơn, chính xác hơn

C.

Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity)

D.

Data mining là một phương pháp phân tích dữ liệu của khoa học dữ liệu

Đáp án

Phát biểu sai là C. Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity). 

Giải thích:

Big Data (Dữ liệu lớn) được mô tả bởi 5V:

  • Volume (khối lượng): Dung lượng dữ liệu rất lớn.
  • Velocity (tốc độ): Dữ liệu được tạo ra và xử lý với tốc độ cao.
  • Variety (sự đa dạng): Dữ liệu có nhiều định dạng khác nhau.
  • Veracity (tính xác thực): Dữ liệu có thể không chính xác hoặc không đáng tin cậy.
  • Value (giá trị): Giá trị tiềm năng được khai thác từ dữ liệu.

Trong phát biểu C, thiếu yếu tố "Value" (giá trị) hoặc đã dịch sai "Value" thành "tính xác thực" (Veracity). Mặc dù tính xác thực là một khía cạnh quan trọng của dữ liệu, nhưng nó không phải là yếu tố "V" chính thức trong mô hình 5V của Big Data.

Các phát biểu A, B, D đều đúng.

  • A: IoT tạo ra rất nhiều dữ liệu.
  • B: AI cần dữ liệu từ khoa học dữ liệu để học hỏi và cải thiện.
  • D: Data mining (khai thác dữ liệu) là một phần của khoa học dữ liệu.

Danh sách câu hỏi:

Câu 1:

Chọn phát biểu sai:

Lời giải:
Đáp án đúng: C

Phát biểu sai là C. Bigdata là công nghệ lưu trữ và khai thác dữ liệu có dung lượng lớn (volume), đa dạng (variety), yêu cầu tốc độ cao (velocity) và có tính xác thực (Veracity). 

Giải thích:

Big Data (Dữ liệu lớn) được mô tả bởi 5V:

  • Volume (khối lượng): Dung lượng dữ liệu rất lớn.
  • Velocity (tốc độ): Dữ liệu được tạo ra và xử lý với tốc độ cao.
  • Variety (sự đa dạng): Dữ liệu có nhiều định dạng khác nhau.
  • Veracity (tính xác thực): Dữ liệu có thể không chính xác hoặc không đáng tin cậy.
  • Value (giá trị): Giá trị tiềm năng được khai thác từ dữ liệu.

Trong phát biểu C, thiếu yếu tố "Value" (giá trị) hoặc đã dịch sai "Value" thành "tính xác thực" (Veracity). Mặc dù tính xác thực là một khía cạnh quan trọng của dữ liệu, nhưng nó không phải là yếu tố "V" chính thức trong mô hình 5V của Big Data.

Các phát biểu A, B, D đều đúng.

  • A: IoT tạo ra rất nhiều dữ liệu.
  • B: AI cần dữ liệu từ khoa học dữ liệu để học hỏi và cải thiện.
  • D: Data mining (khai thác dữ liệu) là một phần của khoa học dữ liệu.

Câu 2:

Kết quả mà khoa học dữ liệu hướng đến là: thông tin và tri thức

Lời giải:
Đáp án đúng: C

Khoa học dữ liệu hướng đến việc khai thác thông tin và tri thức từ dữ liệu thô. Dữ liệu là đầu vào, thông tin là kết quả xử lý dữ liệu, và tri thức là sự hiểu biết sâu sắc hơn được rút ra từ thông tin. Vì vậy, kết quả cuối cùng mà khoa học dữ liệu hướng đến bao gồm cả thông tin và tri thức.

Lời giải:
Đáp án đúng: C
Câu hỏi yêu cầu xác định công cụ thống kê mô tả nào phù hợp để tổng hợp dữ liệu đa chiều. * **A. Subtotal:** Công cụ này dùng để tính tổng phụ theo các nhóm dữ liệu, phù hợp với dữ liệu một chiều hoặc hai chiều đơn giản. * **B. Consolidate:** Công cụ này dùng để tổng hợp dữ liệu từ nhiều nguồn khác nhau vào một bảng duy nhất, nhưng không đặc biệt mạnh trong việc phân tích đa chiều. * **C. PivotTable:** Đây là công cụ mạnh mẽ để tổng hợp, phân tích và trình bày dữ liệu đa chiều. Nó cho phép người dùng dễ dàng thay đổi cách xem dữ liệu bằng cách kéo và thả các trường khác nhau vào các vùng hàng, cột, giá trị và bộ lọc. * **D. Tất cả đều sai:** Phương án này bị loại vì có một đáp án đúng. Do đó, đáp án chính xác là C. PivotTable.
Lời giải:
Đáp án đúng: D

Câu hỏi này kiểm tra kiến thức về các công cụ thống kê mô tả dữ liệu hai chiều.

  • Subtotal: Thường dùng để tính tổng phụ theo các nhóm trong một cột dữ liệu, không thực sự hiệu quả với dữ liệu hai chiều phức tạp.
  • Consolidate: Cho phép tổng hợp dữ liệu từ nhiều nguồn khác nhau, nhưng không tối ưu cho việc phân tích và mô tả dữ liệu hai chiều.
  • PivotTable: Là công cụ mạnh mẽ để tóm tắt, phân tích và khám phá dữ liệu hai chiều. Nó cho phép bạn dễ dàng sắp xếp, lọc và tính toán dữ liệu để tìm ra các xu hướng và mối quan hệ quan trọng.

Do đó, PivotTable là lựa chọn phù hợp nhất để thống kê mô tả dữ liệu hai chiều.

Lời giải:
Đáp án đúng: D

Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc, chúng ta sử dụng chức năng Consolidate (hợp nhất) trong Excel. Chức năng này cho phép bạn tổng hợp dữ liệu từ nhiều nguồn khác nhau, ngay cả khi chúng có cấu trúc không giống nhau. Bạn có thể chọn các vùng dữ liệu cần hợp nhất và chọn cách thức hợp nhất (ví dụ: tính tổng, tính trung bình, đếm, v.v.).

Các lựa chọn khác không phù hợp:

  • A. Subtotal: Tính tổng phụ trong một danh sách, thường là sau khi đã sắp xếp dữ liệu.
  • C. PivotTable: Tạo bảng tổng hợp tương tác, nhưng thường dùng cho dữ liệu đã có cấu trúc bảng rõ ràng.
  • D. Tự làm bằng tay: Không phải là một chức năng có sẵn, mà là phương pháp thủ công, tốn thời gian và dễ sai sót.

Câu 6:

Để tính chỉ số EMA của chứng khoán người ta sử dụng phương pháp nào sau đây:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Tiền xử lý dữ liệu không bao gồm các bước nào sau đây:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 12:

Khi nào thì ta cần rời rạc hóa dữ liệu:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 13:

Phân lớp dữ liệu là thuộc phương pháp:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 18:

Giá trị a[i;j] trong ma trận nhầm lẫn (confusion matrix) cho biết:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 19:

Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 21:

Phân cụm dữ liệu là thuộc phương pháp

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 22:

Một phương pháp phân cụm tốt là phương pháp cho kết quả phân cụm mà trong đó:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 25:

Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số lượng cụm cụ thể ta cần làm gì?

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 27:

Trong Orange, đối với thuật toán K-means, tham số đầu vào nào sau đây dùng để kiểm soát trong trường hợp dữ liệu hội tụ chậm hoặc không hội tụ:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP