50 câu hỏi 60 phút
Câu hỏi này liên quan đến hiện tượng "quá khớp" (overfitting) trong machine learning. Quá khớp xảy ra khi mô hình học quá sát dữ liệu huấn luyện, bao gồm cả nhiễu, dẫn đến khả năng khái quát hóa kém trên dữ liệu mới.
Vì cả ba lý do trên đều góp phần vào việc trang bị quá mức, đáp án đúng là c.
Câu hỏi này liên quan đến hiện tượng "quá khớp" (overfitting) trong machine learning. Quá khớp xảy ra khi mô hình học quá sát dữ liệu huấn luyện, bao gồm cả nhiễu, dẫn đến khả năng khái quát hóa kém trên dữ liệu mới.
Vì cả ba lý do trên đều góp phần vào việc trang bị quá mức, đáp án đúng là c.
Câu hỏi yêu cầu tìm phát biểu KHÔNG đúng về bài toán phân loại và dự đoán.
a. Trong phân loại, đầu ra là một giá trị rời rạc. Đây là phát biểu ĐÚNG. Phân loại gán một đối tượng vào một trong số các lớp (categories) đã định trước, là các giá trị rời rạc.
b. Trong dự đoán, đầu ra có thể là giá trị liên tục hoặc giá trị rời rạc. Đây là phát biểu ĐÚNG. Dự đoán có thể là hồi quy (giá trị liên tục) hoặc phân loại (giá trị rời rạc).
c. Nhiệm vụ dự đoán về cơ bản là phân loại. Đây là phát biểu SAI. Dự đoán bao gồm cả phân loại và hồi quy, không chỉ là phân loại.
d. Phân loại là một nhiệm vụ dự đoán. Đây là phát biểu ĐÚNG. Vì phân loại là một dạng của dự đoán (dự đoán lớp của đối tượng).
Vậy, đáp án KHÔNG đúng là 'Nhiệm vụ dự đoán về cơ bản là phân loại.'
Câu hỏi này liên quan đến khái niệm overfitting (quá khớp) và underfitting (khớp thiếu) trong machine learning.
Trong trường hợp này, mô hình hoạt động tốt trên tập huấn luyện (tức là đã học kỹ dữ liệu huấn luyện) nhưng lại hoạt động kém trên tập kiểm tra (tức là không khái quát hóa tốt). Đây chính là dấu hiệu của overfitting.
Do đó, đáp án đúng là: c. vấn đề trang bị quá mức
Câu hỏi này liên quan đến các nguyên nhân dẫn đến việc trang bị (mô hình) không phù hợp trong học máy hoặc các hệ thống tương tự. Chúng ta cần xem xét từng đáp án để xác định lý do chính xác.
Trong các lựa chọn trên, tất cả các yếu tố (mô hình quá đơn giản, không đủ dữ liệu, độ lệch cao/phương sai thấp, dữ liệu nhiễu) đều có thể dẫn đến việc trang bị không phù hợp. Do đó, đáp án "c. Tất cả các yếu tố đều đúng" là đáp án chính xác nhất.
Phân cụm (clustering) là một kỹ thuật trong học máy (machine learning) thuộc loại học không giám sát (unsupervised learning). Trong học không giám sát, thuật toán được cung cấp dữ liệu mà không có nhãn (labels) hoặc kết quả đầu ra mong muốn trước. Mục tiêu của thuật toán là tìm ra các cấu trúc ẩn, nhóm các điểm dữ liệu tương tự lại với nhau dựa trên một số tiêu chí (ví dụ: khoảng cách, mật độ).
Vì vậy, đáp án đúng là C: Học tập không giám sát.