Giai đoạn nào trong CRISP-DM mô hình học máy được vận hành như a phần của toàn bộ quy trình kinh doanh?
Trả lời:
Đáp án đúng: C
Giai đoạn triển khai (Deployment) trong mô hình CRISP-DM là giai đoạn mà các mô hình học máy được tích hợp và vận hành như một phần của quy trình kinh doanh tổng thể. Trong giai đoạn này, mô hình đã được xây dựng và đánh giá, và bây giờ được đưa vào sử dụng thực tế để giải quyết các vấn đề kinh doanh hoặc cải thiện hiệu suất. Các giai đoạn khác (hiểu biết kinh doanh, làm mô hình, đánh giá) là các bước chuẩn bị và xây dựng mô hình, không phải là giai đoạn vận hành liên tục trong quy trình kinh doanh.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: D
Câu hỏi này liên quan đến các loại hình học máy (machine learning). Việc phân loại (classification) là một bài toán thuộc học tập có giám sát (supervised learning). Trong học tập có giám sát, chúng ta cung cấp cho mô hình dữ liệu đã được gán nhãn, và mô hình học cách ánh xạ từ dữ liệu đầu vào đến nhãn tương ứng. Phân loại là một nhiệm vụ mà mục tiêu là gán một đối tượng vào một trong số các lớp (categories) đã được định nghĩa trước. Các thuật toán phân loại phổ biến bao gồm: Logistic Regression, Support Vector Machines (SVM), Decision Trees, và Random Forests.
* **Học tập không giám sát (Unsupervised learning):** Không sử dụng dữ liệu gán nhãn. Thay vào đó, mô hình tìm kiếm cấu trúc ẩn trong dữ liệu. Ví dụ: phân cụm.
* **Lựa chọn tính năng (Feature selection):** Là quá trình chọn ra một tập con các tính năng quan trọng nhất từ tập các tính năng ban đầu để cải thiện hiệu suất mô hình.
* **Học tăng cường (Reinforcement learning):** Mô hình học cách đưa ra quyết định trong một môi trường để tối đa hóa phần thưởng tích lũy.
Vì vậy, đáp án đúng là học tập có giám sát.
Lời giải:
Đáp án đúng: D
Giai đoạn "Hiểu dữ liệu" (Data Understanding) trong quy trình CRISP-DM tập trung vào việc thu thập, mô tả và khám phá dữ liệu. Trong giai đoạn này, các định dạng dữ liệu, kiểu dữ liệu, phân phối dữ liệu, và các đặc tính thống kê khác của dữ liệu được xem xét một cách kỹ lưỡng. Điều này giúp xác định chất lượng dữ liệu, các vấn đề tiềm ẩn và thông tin hữu ích có thể được sử dụng trong các giai đoạn tiếp theo của quy trình. Các lựa chọn khác không phù hợp vì:
- "Hiểu biết kinh doanh" (Business Understanding) tập trung vào việc xác định mục tiêu kinh doanh và yêu cầu của dự án.
- "Làm người mẫu" (Modeling) tập trung vào việc xây dựng và đánh giá các mô hình dự đoán hoặc phân tích.
- "Triển khai" (Deployment) tập trung vào việc tích hợp các mô hình đã xây dựng vào môi trường thực tế.
Lời giải:
Đáp án đúng: A
Để xây dựng một mô hình học máy hoàn chỉnh, chúng ta thường cần ba loại tập dữ liệu chính:
* **Tập huấn luyện (Training set):** Được sử dụng để huấn luyện mô hình. Mô hình học các mẫu và quan hệ từ dữ liệu này.
* **Tập xác thực (Validation set):** Được sử dụng để tinh chỉnh các siêu tham số của mô hình và đánh giá hiệu suất của mô hình trong quá trình huấn luyện. Nó giúp ngăn ngừa tình trạng quá khớp (overfitting) bằng cách cung cấp một đánh giá khách quan về khả năng khái quát hóa của mô hình trên dữ liệu chưa thấy.
* **Tập kiểm tra (Test set):** Được sử dụng để đánh giá hiệu suất cuối cùng của mô hình sau khi đã hoàn thành quá trình huấn luyện và tinh chỉnh. Tập kiểm tra phải là dữ liệu hoàn toàn mới mà mô hình chưa từng thấy trước đó.
Do đó, đáp án đúng là a. Tập huấn luyện, tập xác thực và tập kiểm tra. Các đáp án còn lại thiếu một hoặc nhiều loại tập dữ liệu cần thiết cho quy trình xây dựng mô hình học máy hoàn chỉnh.
Lời giải:
Đáp án đúng: C
Bộ xác thực (validation set) là một phần của tập dữ liệu được tách ra từ tập dữ liệu gốc, sau khi đã có tập huấn luyện (training set). Tập xác thực này được sử dụng để đánh giá khách quan mô hình trong quá trình huấn luyện và điều chỉnh các siêu tham số (hyperparameters) của mô hình. Việc sử dụng tập xác thực giúp ngăn chặn tình trạng "quá khớp" (overfitting), khi mô hình học quá kỹ dữ liệu huấn luyện và không còn khả năng tổng quát hóa tốt cho dữ liệu mới.
Phương án A không đúng vì bộ xác thực không dùng để "ban đầu phù hợp với mô hình". Việc "phù hợp" ban đầu thường được thực hiện trên tập huấn luyện.
Phương án B không đúng vì đây là mục đích của tập kiểm tra (test set), không phải tập xác thực. Tập kiểm tra được dùng để đánh giá hiệu năng cuối cùng của mô hình *sau* khi đã hoàn thành quá trình huấn luyện và điều chỉnh trên tập huấn luyện và tập xác thực.
Phương án C đúng vì nó mô tả chính xác vai trò của bộ xác thực: cung cấp đánh giá khách quan trong quá trình huấn luyện và cho phép điều chỉnh các siêu tham số để cải thiện hiệu năng của mô hình.
Phương án D không liên quan đến mục đích sử dụng của bộ xác thực. Việc "giữ cân bằng giữa dữ liệu trong các tập hợp con khác nhau" thường được thực hiện trong quá trình chuẩn bị dữ liệu (ví dụ: sử dụng các kỹ thuật như stratified sampling).
Lời giải:
Đáp án đúng: A
Câu hỏi này kiểm tra hiểu biết về hiện tượng overfitting (quá khớp) trong mô hình hồi quy tuyến tính. Khi mô hình bậc 3 hoàn toàn phù hợp với dữ liệu (lỗi đào tạo và kiểm tra bằng 0), điều này gần như chắc chắn chỉ ra rằng mô hình đã học thuộc dữ liệu huấn luyện, bao gồm cả nhiễu.
Nếu chúng ta giảm bậc của mô hình xuống 2, mô hình sẽ trở nên đơn giản hơn và ít khả năng overfitting hơn. Tuy nhiên, vì mô hình bậc 3 đã hoàn toàn khớp dữ liệu, việc giảm xuống bậc 2 rất có thể sẽ làm giảm khả năng khớp dữ liệu của mô hình. Do đó, mô hình bậc 2 có khả năng cao sẽ underfitting (khớp thiếu) dữ liệu, tức là sẽ có lỗi lớn hơn trên cả tập huấn luyện và tập kiểm tra.
Vì vậy, đáp án chính xác nhất là b.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng