JavaScript is required
Danh sách đề

100+ câu hỏi trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh có đáp án giải thích dễ hiểu - Đề 2

16 câu hỏi 60 phút

Thẻ ghi nhớ
Luyện tập
Thi thử
Nhấn để lật thẻ
1 / 16

Công cụ thống kê mô tả nào được sử dụng khi cần tổng hợp dữ liệu đa chiều

A.

Subtotal

B.

Consolidate

C.

PivotTable

D.

Tất cả đều sai

Đáp án
Đáp án đúng: C

Phân tích:

Câu hỏi yêu cầu xác định công cụ thống kê mô tả nào phù hợp để tổng hợp dữ liệu đa chiều.


Giải thích các lựa chọn:

  • a. Subtotal: Subtotal (Tổng cộng theo nhóm) chủ yếu dùng để tính tổng, trung bình, hoặc các phép tính khác cho các nhóm dữ liệu trong một cột. Nó không mạnh mẽ trong việc tổng hợp dữ liệu theo nhiều chiều khác nhau.
  • b. Consolidate: Consolidate (Kết hợp) được sử dụng để tổng hợp dữ liệu từ nhiều nguồn khác nhau vào một vị trí duy nhất. Mặc dù có thể tổng hợp dữ liệu, nhưng không phải là công cụ chính để tạo ra các báo cáo tổng hợp đa chiều linh hoạt.
  • c. PivotTable: PivotTable (Bảng tổng hợp) là một công cụ rất mạnh mẽ để tổng hợp và phân tích dữ liệu theo nhiều chiều khác nhau. Nó cho phép người dùng kéo và thả các trường dữ liệu vào các vùng khác nhau (hàng, cột, giá trị) để tạo ra các báo cáo tổng hợp linh hoạt và tương tác.
  • d. Tất cả đều sai: Phương án này không đúng vì có một đáp án đúng ở trên.


Kết luận:

PivotTable là công cụ phù hợp nhất để tổng hợp dữ liệu đa chiều.

Danh sách câu hỏi:

Lời giải:
Đáp án đúng: C

Phân tích:

Câu hỏi yêu cầu xác định công cụ thống kê mô tả nào phù hợp để tổng hợp dữ liệu đa chiều.


Giải thích các lựa chọn:

  • a. Subtotal: Subtotal (Tổng cộng theo nhóm) chủ yếu dùng để tính tổng, trung bình, hoặc các phép tính khác cho các nhóm dữ liệu trong một cột. Nó không mạnh mẽ trong việc tổng hợp dữ liệu theo nhiều chiều khác nhau.
  • b. Consolidate: Consolidate (Kết hợp) được sử dụng để tổng hợp dữ liệu từ nhiều nguồn khác nhau vào một vị trí duy nhất. Mặc dù có thể tổng hợp dữ liệu, nhưng không phải là công cụ chính để tạo ra các báo cáo tổng hợp đa chiều linh hoạt.
  • c. PivotTable: PivotTable (Bảng tổng hợp) là một công cụ rất mạnh mẽ để tổng hợp và phân tích dữ liệu theo nhiều chiều khác nhau. Nó cho phép người dùng kéo và thả các trường dữ liệu vào các vùng khác nhau (hàng, cột, giá trị) để tạo ra các báo cáo tổng hợp linh hoạt và tương tác.
  • d. Tất cả đều sai: Phương án này không đúng vì có một đáp án đúng ở trên.


Kết luận:

PivotTable là công cụ phù hợp nhất để tổng hợp dữ liệu đa chiều.

Lời giải:
Đáp án đúng: C
Công cụ được sử dụng để dự đoán xu hướng tăng/giảm của mã chứng khoán dựa trên thông tin giá cả và lượng cổ phiếu mua/bán của các ngày trước đó thường là các phương pháp phân tích kỹ thuật. Trong các lựa chọn được đưa ra:

* Trung bình trượt (Moving Average): Là một công cụ phân tích kỹ thuật phổ biến, giúp làm mịn dữ liệu giá và xác định xu hướng bằng cách tính trung bình giá trong một khoảng thời gian nhất định.
* San bằng mũ (Exponential Smoothing): Là một phương pháp dự báo chuỗi thời gian, gán trọng số giảm dần theo cấp số nhân cho các quan sát cũ hơn. Nó nhạy hơn với những thay đổi gần đây so với trung bình trượt đơn giản.
* Hồi quy (Regression): Là một kỹ thuật thống kê được sử dụng để mô hình hóa mối quan hệ giữa các biến. Trong bối cảnh này, hồi quy có thể được sử dụng để dự đoán giá cổ phiếu dựa trên các yếu tố khác nhau, bao gồm cả giá và khối lượng giao dịch trong quá khứ.

Vì cả ba phương pháp đều có thể được sử dụng để dự đoán xu hướng, tuy nhiên, trong bối cảnh câu hỏi, trung bình trượt và san bằng mũ được sử dụng phổ biến hơn để phân tích xu hướng giá cả và khối lượng giao dịch trong quá khứ một cách trực tiếp.
Lời giải:
Đáp án đúng: B
Có nhiều cách để xử lý dữ liệu bị thiếu, trong đó phổ biến nhất là:

1. Loại bỏ các dòng/cột chứa dữ liệu bị thiếu: Cách này đơn giản nhưng có thể làm mất thông tin quan trọng nếu số lượng dữ liệu bị thiếu lớn.
2. Điền giá trị thiếu (Imputation): Thay thế các giá trị thiếu bằng một giá trị ước tính. Các phương pháp điền giá trị phổ biến bao gồm:
* Điền bằng giá trị trung bình (mean imputation).
* Điền bằng giá trị trung vị (median imputation).
* Điền bằng giá trị thường xuyên xuất hiện nhất (mode imputation).
* Sử dụng các thuật toán học máy để dự đoán giá trị thiếu (ví dụ: k-Nearest Neighbors, Linear Regression).
3. Sử dụng các thuật toán có thể xử lý dữ liệu bị thiếu: Một số thuật toán học máy có thể xử lý dữ liệu bị thiếu mà không cần phải loại bỏ hoặc điền giá trị.

Do đó, có ít nhất 3 cách xử lý dữ liệu bị thiếu. Tuy nhiên, câu hỏi có thể đang đề cập đến các cách phân loại khác nhau hoặc chi tiết hơn, nên đáp án chính xác nhất trong các lựa chọn là 'b. 3' (dù trên thực tế có nhiều hơn 3).
Lời giải:
Đáp án đúng: B

Trong Orange, biến có kiểu dữ liệu categorical (phân loại) dùng để chỉ các thuộc tính rời rạc. Các thuộc tính này biểu diễn các nhóm hoặc các loại, ví dụ như màu sắc (đỏ, xanh, vàng), giới tính (nam, nữ), hoặc loại sản phẩm (A, B, C). Chúng không mang ý nghĩa số học và không thể thực hiện các phép tính toán học trực tiếp trên chúng. Vì vậy, đáp án đúng là "Rời rạc".

Lời giải:
Đáp án đúng: C
Câu hỏi này liên quan đến các khái niệm cơ bản trong thống kê y học và đánh giá các xét nghiệm chẩn đoán. Trong trường hợp một người không mắc bệnh lao nhưng xét nghiệm lại cho kết quả dương tính (bị lao), đây là một lỗi. Lỗi này được gọi là báo động nhầm (false positive).

* Tỷ lệ bỏ sót (false negative rate) là tỷ lệ các trường hợp bệnh nhân mắc bệnh nhưng xét nghiệm cho kết quả âm tính.
* Độ nhạy (sensitivity) là khả năng xét nghiệm xác định chính xác những người mắc bệnh.
* Độ lỗi là một khái niệm chung chung và không cụ thể trong trường hợp này.

Vì vậy, đáp án chính xác là tỷ lệ báo động nhầm.

Câu 6:

Phân cụm dữ liệu là thuộc phương pháp

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 9:

Trong Orange, đối với thuật toán K-mean, tham số đầu vào nào sau đây dùng để kiểm soát trong trường hợp dữ liệu hội tụ chậm hoặc không hội tụ:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 10:

Một phương pháp gom cụm tốt là phương pháp cho kết quả gom cụm mà trong đó

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 11:

Kết quả mà khoa học dữ liệu hướng đến là:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Câu 14:

Phân lớp dữ liệu là thuộc phương pháp:

Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP