L1.X. Cách tiếp cận nào sau đây giúp tránh việc trang bị thiếu trang bị?
A.
Thực hiện kỹ thuật tính năng
B.
Thực hiện tiền xử lý dữ liệu a cách khéo léo
C.
Tăng độ phức tạp của mô hình
D.
Tất cả các phương pháp được đề cập
Đáp án
Câu hỏi liên quan đến việc tránh tình trạng "trang bị thiếu" (underfitting) trong mô hình học máy. Dưới đây là phân tích chi tiết:
* **a. Thực hiện kỹ thuật tính năng:** Việc lựa chọn, biến đổi, hoặc tạo ra các tính năng (features) phù hợp có thể giúp mô hình nắm bắt được các mối quan hệ quan trọng trong dữ liệu. Nếu các tính năng không đủ để mô tả dữ liệu một cách chính xác, mô hình sẽ bị underfitting. Do đó, kỹ thuật tính năng là một phương pháp quan trọng để giải quyết vấn đề này.
* **b. Thực hiện tiền xử lý dữ liệu một cách khéo léo:** Tiền xử lý dữ liệu (data preprocessing) bao gồm các bước như làm sạch dữ liệu, xử lý giá trị thiếu, chuẩn hóa dữ liệu, và mã hóa dữ liệu. Nếu tiền xử lý không tốt, dữ liệu có thể bị mất thông tin quan trọng, dẫn đến underfitting. Tiền xử lý khéo léo giúp đảm bảo dữ liệu chất lượng và phù hợp cho mô hình học.
* **c. Tăng độ phức tạp của mô hình:** Một mô hình quá đơn giản có thể không đủ khả năng để nắm bắt các mối quan hệ phức tạp trong dữ liệu, dẫn đến underfitting. Việc tăng độ phức tạp của mô hình (ví dụ: sử dụng mạng nơ-ron sâu hơn, thêm các tham số) có thể giúp mô hình học được các mẫu phức tạp hơn và giảm thiểu underfitting.
Vì cả ba phương pháp trên đều có thể giúp tránh việc trang bị thiếu, đáp án đúng là:
* **d. Tất cả các phương pháp được đề cập**
Câu hỏi liên quan đến việc tránh tình trạng "trang bị thiếu" (underfitting) trong mô hình học máy. Dưới đây là phân tích chi tiết:
* **a. Thực hiện kỹ thuật tính năng:** Việc lựa chọn, biến đổi, hoặc tạo ra các tính năng (features) phù hợp có thể giúp mô hình nắm bắt được các mối quan hệ quan trọng trong dữ liệu. Nếu các tính năng không đủ để mô tả dữ liệu một cách chính xác, mô hình sẽ bị underfitting. Do đó, kỹ thuật tính năng là một phương pháp quan trọng để giải quyết vấn đề này.
* **b. Thực hiện tiền xử lý dữ liệu một cách khéo léo:** Tiền xử lý dữ liệu (data preprocessing) bao gồm các bước như làm sạch dữ liệu, xử lý giá trị thiếu, chuẩn hóa dữ liệu, và mã hóa dữ liệu. Nếu tiền xử lý không tốt, dữ liệu có thể bị mất thông tin quan trọng, dẫn đến underfitting. Tiền xử lý khéo léo giúp đảm bảo dữ liệu chất lượng và phù hợp cho mô hình học.
* **c. Tăng độ phức tạp của mô hình:** Một mô hình quá đơn giản có thể không đủ khả năng để nắm bắt các mối quan hệ phức tạp trong dữ liệu, dẫn đến underfitting. Việc tăng độ phức tạp của mô hình (ví dụ: sử dụng mạng nơ-ron sâu hơn, thêm các tham số) có thể giúp mô hình học được các mẫu phức tạp hơn và giảm thiểu underfitting.
Vì cả ba phương pháp trên đều có thể giúp tránh việc trang bị thiếu, đáp án đúng là:
* **d. Tất cả các phương pháp được đề cập**
Thiên kiến (Bias) trong học máy xảy ra khi mô hình quá đơn giản và không thể nắm bắt được sự phức tạp của dữ liệu. Điều này dẫn đến việc mô hình đưa ra những dự đoán sai lệch một cách hệ thống, gây ra sự khác biệt lớn giữa giá trị dự đoán và giá trị thực tế. Phương sai (Variance) lại liên quan đến việc mô hình quá nhạy cảm với những biến động nhỏ trong dữ liệu huấn luyện, dẫn đến việc hoạt động kém trên dữ liệu mới. Tín hiệu (Signal) là thông tin có giá trị trong dữ liệu, còn tiếng ồn (Noise) là những yếu tố ngẫu nhiên không liên quan.
Quá trình giảm kích thước của tập tính năng (feature set) nhằm mục đích chọn ra những tính năng quan trọng nhất, loại bỏ các tính năng dư thừa hoặc không liên quan, giúp mô hình học nhanh hơn, hiệu quả hơn và tránh overfitting. Quá trình này thường được gọi là giảm kích thước (dimensionality reduction) hoặc lựa chọn đặc trưng (feature selection). Trong các lựa chọn được đưa ra, "Giảm kích thước" là đáp án phù hợp nhất.
Câu hỏi này liên quan đến việc xác định lĩnh vực nào tập trung vào việc tìm kiếm mối quan hệ giữa các đặc điểm mô tả và đặc điểm mục tiêu từ dữ liệu quan sát được. Ta xét từng đáp án:
* **a. Phát hiện đối tượng:** Đây là một nhiệm vụ trong thị giác máy tính, liên quan đến việc xác định và định vị các đối tượng trong ảnh hoặc video. Nó không trực tiếp liên quan đến việc tìm kiếm mối quan hệ giữa các đặc điểm.
* **b. Khai thác dữ liệu:** Đây là quá trình khám phá các mẫu và tri thức hữu ích từ lượng lớn dữ liệu. Việc tìm kiếm mối quan hệ giữa các đặc điểm là một phần quan trọng của khai thác dữ liệu.
* **c. Học máy:** Đây là một lĩnh vực của trí tuệ nhân tạo, tập trung vào việc phát triển các thuật toán cho phép máy tính học từ dữ liệu mà không cần được lập trình rõ ràng. Việc tìm kiếm mối quan hệ giữa các đặc điểm là nền tảng của nhiều thuật toán học máy.
* **d. Khoa học dữ liệu:** Đây là một lĩnh vực liên ngành sử dụng các phương pháp khoa học, thuật toán và hệ thống để trích xuất tri thức và hiểu biết sâu sắc từ dữ liệu. Nó bao gồm nhiều khía cạnh, bao gồm cả khai thác dữ liệu và học máy.
Trong các lựa chọn trên, **học máy** là đáp án chính xác nhất vì nó trực tiếp liên quan đến việc xây dựng các mô hình dựa trên việc học các mối quan hệ từ dữ liệu. Khai thác dữ liệu và khoa học dữ liệu là các lĩnh vực rộng lớn hơn bao gồm nhiều hoạt động khác, trong khi phát hiện đối tượng là một nhiệm vụ cụ thể trong thị giác máy tính.
Câu hỏi này kiểm tra kiến thức về các tập dữ liệu khác nhau được sử dụng trong huấn luyện và đánh giá mô hình học máy.
* **Tập huấn luyện (training set):** Là tập dữ liệu được sử dụng để huấn luyện mô hình học máy. Mô hình sẽ học các mẫu từ tập dữ liệu này để đưa ra dự đoán.
* **Bộ xác nhận (validation set):** Được sử dụng để tinh chỉnh các siêu tham số (hyperparameter) của mô hình và đánh giá hiệu suất của mô hình trong quá trình huấn luyện. Mục đích là để ngăn chặn việc mô hình bị "quá khớp" (overfitting) với tập huấn luyện.
* **Bộ thử nghiệm (test set):** Là tập dữ liệu độc lập được sử dụng để đánh giá hiệu suất cuối cùng của mô hình sau khi đã được huấn luyện và tinh chỉnh. Tập thử nghiệm phải độc lập với tập huấn luyện và tập xác nhận để đảm bảo đánh giá khách quan.
* **Bộ nhớ đệm:** Đây không phải là thuật ngữ phổ biến trong ngữ cảnh này.
Vì vậy, đáp án đúng là "b. bộ thử nghiệm" vì nó đáp ứng định nghĩa về một tập hợp các trường hợp dữ liệu độc lập, tuân theo phân phối xác suất tương tự như tập huấn luyện và được dùng để đánh giá mô hình sau cùng.