Giá trị tại phần tử (i;j) trong ma trận nhầm lẫn cho biết:
Đáp án đúng: B
Câu hỏi liên quan
- Đánh giá trong (Internal Evaluation): Sử dụng các độ đo nội tại của dữ liệu để đánh giá chất lượng của cụm, ví dụ như sự gắn kết (cohesion) và sự tách biệt (separation) của các cụm. Việc so sánh kết quả giữa các thuật toán phân cụm khác nhau dựa trên các độ đo này là một hình thức đánh giá trong.
- Đánh giá ngoài (External Evaluation): So sánh kết quả phân cụm với một nhãn hoặc ground truth đã biết.
- Đánh giá tương đối (Relative Evaluation): So sánh các kết quả phân cụm khác nhau để xác định cái nào tốt hơn, thường sử dụng các độ đo tương tự như đánh giá trong. Như vậy, việc so sánh các thuật toán phân cụm khác nhau chính là đánh giá tương đối.
Vì câu hỏi đề cập đến việc so sánh *giữa các thuật toán* để xem xét hiệu quả, nên đánh giá này mang tính *tương đối*. Mặc dù đánh giá trong cũng được sử dụng để đánh giá chất lượng cụm, nhưng trọng tâm của câu hỏi là so sánh, do đó, 'đánh giá tương đối' phù hợp hơn.
1. Xóa các hàng/cột chứa dữ liệu bị thiếu: Phương pháp này đơn giản nhưng có thể dẫn đến mất mát thông tin quan trọng nếu số lượng dữ liệu bị thiếu lớn.
2. Điền giá trị thiếu bằng các giá trị thay thế:
* *Trung bình/Trung vị/Mode:* Sử dụng các giá trị thống kê để điền vào chỗ trống.
* *Giá trị hằng số:* Điền bằng một giá trị cụ thể (ví dụ: 0, -1).
3. Sử dụng các thuật toán dự đoán:
* *Hồi quy:* Dự đoán giá trị thiếu dựa trên các biến khác.
* *K-Nearest Neighbors (KNN):* Sử dụng các điểm dữ liệu gần nhất để dự đoán giá trị thiếu.
4. Sử dụng thuật toán Machine Learning: Sử dụng các thuật toán học máy để dự đoán giá trị thiếu dựa trên các thuộc tính khác.
Ngoài ra, còn có các phương pháp phức tạp hơn như Multiple Imputation. Do đó, có nhiều hơn 4 cách xử lý dữ liệu bị thiếu, và không có đáp án nào trong các lựa chọn là hoàn toàn chính xác. Tuy nhiên, nếu xét theo các phương pháp chính và thường được sử dụng nhất thì có thể kể đến việc xóa, điền giá trị, và dự đoán. Như vậy, đáp án gần đúng nhất trong các lựa chọn là a.3
Phân tích dữ liệu chứng khoán để dự đoán xu hướng dựa trên giá cả và khối lượng giao dịch là một bài toán phổ biến trong lĩnh vực tài chính định lượng. Các phương pháp sau đây có thể được sử dụng:
a. Hồi quy (Regression): Hồi quy là một phương pháp thống kê dùng để mô hình hóa mối quan hệ giữa một biến phụ thuộc (trong trường hợp này là xu hướng giá chứng khoán) và một hoặc nhiều biến độc lập (ví dụ: giá, khối lượng giao dịch của các ngày trước đó). Hồi quy có thể giúp xác định mức độ ảnh hưởng của các biến độc lập đến biến phụ thuộc và dự đoán giá trị của biến phụ thuộc trong tương lai.
b. San bằng mũ (Exponential Smoothing): Đây là một phương pháp dự báo chuỗi thời gian, trong đó các quan sát gần đây có trọng số lớn hơn các quan sát xa hơn. San bằng mũ có thể hữu ích để dự đoán xu hướng ngắn hạn của giá chứng khoán, nhưng có thể không hiệu quả bằng hồi quy khi xem xét nhiều biến độc lập.
c. Trung bình trượt (Moving Average): Phương pháp này tính trung bình của giá trong một khoảng thời gian nhất định (ví dụ: 5 ngày, 10 ngày) và sử dụng giá trị trung bình này để dự đoán giá trong tương lai. Tương tự như san bằng mũ, trung bình trượt thường được sử dụng để dự đoán xu hướng ngắn hạn.
Trong trường hợp này, hồi quy là phương pháp phù hợp nhất vì nó cho phép xem xét nhiều biến độc lập (giá, khối lượng giao dịch) và mô hình hóa mối quan hệ giữa chúng để dự đoán xu hướng giá chứng khoán. Các phương pháp khác như san bằng mũ và trung bình trượt có thể được sử dụng, nhưng thường kém hiệu quả hơn khi có nhiều biến ảnh hưởng đến giá.
* Liên tục: Dữ liệu liên tục là dữ liệu có thể nhận bất kỳ giá trị nào trong một phạm vi nhất định (ví dụ: chiều cao, cân nặng). Loại khách hàng không thuộc loại này.
* Định danh: Dữ liệu định danh (nominal) là dữ liệu được sử dụng để gán nhãn hoặc phân loại các đối tượng, nhưng không có thứ tự tự nhiên giữa các nhãn (ví dụ: màu sắc, giới tính). Loại khách hàng có thể được coi là định danh nếu không có sự xếp hạng nào giữa chúng.
* Rời rạc: Dữ liệu rời rạc là dữ liệu chỉ có thể nhận một số giá trị hữu hạn hoặc đếm được (ví dụ: số lượng sản phẩm, số lượng khách hàng). Mặc dù số lượng loại khách hàng là hữu hạn, nhưng bản chất của thuộc tính này không phải là số đếm.
* Xếp hạng/thứ tự: Dữ liệu xếp hạng (ordinal) là dữ liệu có thể được sắp xếp theo một thứ tự nhất định, nhưng khoảng cách giữa các giá trị không nhất thiết phải bằng nhau (ví dụ: mức độ hài lòng, thứ hạng trong một cuộc thi). Trong trường hợp này, "VIP", "Premium", và "Economic" có thể được hiểu là các thứ hạng khác nhau của khách hàng.
Vì "Loại khách hàng" có các giá trị đại diện cho các cấp bậc hoặc thứ tự khác nhau, nên nó thuộc kiểu dữ liệu "Xếp hạng/ thứ tự". Tuy nhiên, nếu không có sự xếp hạng mặc định, nó có thể là "Định danh". Trong các lựa chọn được đưa ra, "Xếp hạng/ thứ tự" phù hợp nhất nếu ta giả định có một thứ bậc ngầm định giữa các loại khách hàng.
Câu hỏi này kiểm tra kiến thức về các công cụ thống kê trong Excel dùng để tổng hợp dữ liệu đa chiều.
a. Subtotal: Hàm Subtotal được dùng để tính toán các giá trị tổng hợp (như tổng, trung bình, v.v.) cho một danh sách hoặc cơ sở dữ liệu. Nó có thể được sử dụng để tạo ra các tổng phụ theo các nhóm, nhưng không linh hoạt như PivotTable trong việc tổng hợp dữ liệu đa chiều.
b. Tất cả đều đúng: Phương án này chỉ đúng khi cả Subtotal, PivotTable và Consolidate đều có khả năng tổng hợp dữ liệu đa chiều hiệu quả. Tuy nhiên, PivotTable là công cụ mạnh nhất cho mục đích này.
c. PivotTable: PivotTable là một công cụ mạnh mẽ trong Excel cho phép tổng hợp, phân tích và trình bày dữ liệu một cách linh hoạt. Nó cho phép bạn kéo và thả các trường dữ liệu vào các vùng hàng, cột, giá trị và bộ lọc, tạo ra các báo cáo tổng hợp dữ liệu đa chiều một cách dễ dàng. Đây là công cụ phù hợp nhất để tổng hợp dữ liệu đa chiều.
d. Consolidate: Consolidate cho phép bạn tổng hợp dữ liệu từ nhiều nguồn khác nhau vào một bảng duy nhất. Nó hữu ích khi bạn có dữ liệu từ nhiều bảng tính hoặc tệp và muốn tạo ra một bản tóm tắt duy nhất. Tuy nhiên, nó không linh hoạt bằng PivotTable trong việc khám phá và phân tích dữ liệu đa chiều.
Vì vậy, đáp án chính xác nhất là PivotTable, vì nó được thiết kế đặc biệt để tổng hợp dữ liệu đa chiều một cách linh hoạt và hiệu quả.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.