Nếu một mô hình học máy phù hợp tốt trên tập huấn luyện nhưng thực hiện kém trên tập kiểm tra, thì mô hình đó gặp vấn đề... Lựa chọn:
Trả lời:
Đáp án đúng: A
Khi một mô hình học máy hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra, điều này cho thấy mô hình đã học quá kỹ các chi tiết và nhiễu trong dữ liệu huấn luyện. Kết quả là, nó trở nên quá phức tạp và không thể khái quát hóa tốt cho dữ liệu mới (tập kiểm tra). Hiện tượng này được gọi là "quá khớp" (over-fitting).
Câu hỏi liên quan
Lời giải:
Đáp án đúng: D
Trong quá trình xây dựng mô hình phân loại, việc điều chỉnh các siêu tham số (hyperparameters) là rất quan trọng để đạt được hiệu suất tốt nhất. Các tập dữ liệu khác nhau được sử dụng cho các mục đích khác nhau:
- **Tập huấn luyện (Training set):** Được sử dụng để huấn luyện mô hình, tức là để mô hình học các tham số từ dữ liệu.
- **Tập xác thực (Validation set):** Được sử dụng để đánh giá mô hình trong quá trình huấn luyện và điều chỉnh các siêu tham số. Mục tiêu là tìm ra các siêu tham số tốt nhất trước khi đánh giá cuối cùng.
- **Tập kiểm tra (Test set):** Được sử dụng để đánh giá hiệu suất cuối cùng của mô hình sau khi đã điều chỉnh các siêu tham số.
Trong câu hỏi này, tập dữ liệu dùng để điều chỉnh siêu tham số sau quá trình học (tức là trong quá trình huấn luyện) chính là tập xác thực.
Do đó, đáp án đúng là:
d. Tập xác thực
Lời giải:
Đáp án đúng: B
Câu hỏi này kiểm tra sự hiểu biết về khái niệm "vấn đề dự đoán" trong bối cảnh ứng dụng thực tế. Vấn đề dự đoán là việc sử dụng dữ liệu để ước tính hoặc dự đoán một kết quả hoặc sự kiện trong tương lai.
* **a. Một ứng dụng cần dự đoán hiệu suất của ứng viên công việc dựa trên CV của ứng viên:** Đây là một vấn đề dự đoán vì ứng dụng sử dụng thông tin CV (dữ liệu) để dự đoán hiệu suất (kết quả) trong tương lai.
* **b. Tất cả các nhiệm vụ được đề cập:** Phương án này đúng nếu tất cả các phương án khác đều là vấn đề dự đoán. Chúng ta cần xem xét các phương án còn lại.
* **c. Dự báo sự gián đoạn chuỗi cung ứng dựa trên thông tin về thị trường:** Đây cũng là một vấn đề dự đoán vì sử dụng thông tin thị trường (dữ liệu) để dự đoán sự gián đoạn chuỗi cung ứng (kết quả) trong tương lai.
* **d. Một ứng dụng quét một hình ảnh và cần quyết định xem hình ảnh đó có chứa một động vật nuôi hay không:** Đây là một vấn đề phân loại, một dạng của dự đoán, vì ứng dụng sử dụng hình ảnh (dữ liệu) để dự đoán lớp (có/không có động vật nuôi).
* **e. Một robot được cung cấp một số thông tin về thế giới và cần thực hiện hành động tốt nhất tiếp theo:** Đây là một vấn đề ra quyết định hoặc lập kế hoạch, không đơn thuần là dự đoán một kết quả cụ thể. Mặc dù việc lựa chọn hành động có thể dựa trên dự đoán, bản thân nhiệm vụ này không chỉ giới hạn ở dự đoán.
Vì các phương án a, c, và d đều là các vấn đề dự đoán hoặc có thể được coi là một dạng của dự đoán, phương án **b. Tất cả các nhiệm vụ được đề cập** là đáp án đúng nhất vì nó bao hàm tất cả các trường hợp dự đoán một cách rõ ràng.
Lời giải:
Đáp án đúng: D
Câu hỏi này kiểm tra kiến thức về các tập dữ liệu thường được sử dụng trong học máy.
* **Tập huấn luyện (training set):** Được sử dụng để huấn luyện mô hình học máy.
* **Tập xác thực (validation set):** Được sử dụng để tinh chỉnh các siêu tham số của mô hình và đánh giá hiệu năng của mô hình trong quá trình huấn luyện.
* **Tập kiểm tra (test set):** Được sử dụng để đánh giá hiệu năng cuối cùng của mô hình sau khi đã hoàn thành quá trình huấn luyện và tinh chỉnh.
Theo định nghĩa, tập dữ liệu độc lập tuân theo phân phối xác suất tương tự như tập huấn luyện, nhưng được sử dụng để đánh giá hiệu năng của mô hình, chính là **tập kiểm tra**.
Do đó, đáp án đúng là d.
* **Tập caching:** Không phải là một khái niệm tiêu chuẩn trong học máy liên quan đến việc chia tập dữ liệu.
Lời giải:
Đáp án đúng: C
Câu hỏi này kiểm tra sự hiểu biết về hiện tượng overfitting (quá khớp) và underfitting (thiếu khớp) trong học máy.
* **Overfitting (quá khớp):** Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động rất tốt trên dữ liệu huấn luyện nhưng lại kém trên dữ liệu kiểm tra (dữ liệu mới). Điều này xảy ra khi mô hình học cả những nhiễu (noise) trong dữ liệu huấn luyện.
* **Underfitting (thiếu khớp):** Mô hình không học đủ tốt từ dữ liệu huấn luyện, dẫn đến việc nó hoạt động kém cả trên dữ liệu huấn luyện lẫn dữ liệu kiểm tra. Điều này xảy ra khi mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ quan trọng trong dữ liệu.
Trong trường hợp này, nếu mô hình hoạt động tốt trên cả tập huấn luyện và tập kiểm tra, điều đó có nghĩa là nó đã học được các mối quan hệ quan trọng trong dữ liệu mà không bị ảnh hưởng bởi nhiễu. Do đó, hiện tượng overfitting đã được giảm thiểu, và hiện tượng underfitting cũng không xảy ra.
Vậy, đáp án đúng là:
* **c. đã xảy ra overfitting tối thiểu** (vì mô hình không chỉ học thuộc dữ liệu huấn luyện mà còn khái quát hóa tốt cho dữ liệu kiểm tra).
Các đáp án khác sai vì:
* a và d: Nếu overfitting hoặc underfitting xảy ra ở mức tối đa, mô hình sẽ không hoạt động tốt trên cả hai tập dữ liệu.
* b: Underfitting tối thiểu có thể đúng, nhưng overfitting tối thiểu chính xác hơn vì nó nhấn mạnh việc tránh học thuộc lòng dữ liệu huấn luyện.
Lời giải:
Đáp án đúng: C
Phân loại (Classification) là một bài toán trong đó chúng ta gán một đối tượng vào một trong số các lớp (categories) đã được định nghĩa trước. Để thực hiện việc này, chúng ta sử dụng một tập dữ liệu huấn luyện (training dataset) đã được gán nhãn (labeled), tức là mỗi mẫu dữ liệu đã biết thuộc về lớp nào. Quá trình này thuộc về học có giám sát (Supervised Learning), vì chúng ta "giám sát" thuật toán bằng cách cung cấp cho nó các nhãn đúng.
* **Học tăng cường (Reinforcement Learning):** Là một loại học máy trong đó một tác nhân (agent) học cách hành động trong một môi trường để tối đa hóa một khái niệm về "phần thưởng" tích lũy.
* **Lựa chọn đặc trưng (Feature Selection):** Là quá trình chọn một tập hợp con các đặc trưng liên quan nhất để sử dụng trong xây dựng mô hình.
* **Học có giám sát (Supervised Learning):** Là một loại học máy, trong đó thuật toán học từ một tập dữ liệu huấn luyện đã được gán nhãn.
* **Học không giám sát (Unsupervised Learning):** Là một loại học máy, trong đó thuật toán học từ một tập dữ liệu không được gán nhãn, và cố gắng tìm ra các cấu trúc ẩn trong dữ liệu.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng