L1.X. Quá trình giảm kích thước của tập tính năng được gọi là ...
Đáp án đúng: A
Câu hỏi liên quan
- a. Phát hiện đối tượng: Đây là một nhiệm vụ trong thị giác máy tính, liên quan đến việc xác định và định vị các đối tượng trong ảnh hoặc video. Nó không trực tiếp liên quan đến việc tìm kiếm mối quan hệ giữa các đặc điểm.
- b. Khai thác dữ liệu: Đây là quá trình khám phá các mẫu và tri thức hữu ích từ lượng lớn dữ liệu. Việc tìm kiếm mối quan hệ giữa các đặc điểm là một phần quan trọng của khai thác dữ liệu.
- c. Học máy: Đây là một lĩnh vực của trí tuệ nhân tạo, tập trung vào việc phát triển các thuật toán cho phép máy tính học từ dữ liệu mà không cần được lập trình rõ ràng. Việc tìm kiếm mối quan hệ giữa các đặc điểm là nền tảng của nhiều thuật toán học máy.
- d. Khoa học dữ liệu: Đây là một lĩnh vực liên ngành sử dụng các phương pháp khoa học, thuật toán và hệ thống để trích xuất tri thức và hiểu biết sâu sắc từ dữ liệu. Nó bao gồm nhiều khía cạnh, bao gồm cả khai thác dữ liệu và học máy.
Trong các lựa chọn trên, học máy là đáp án chính xác nhất vì nó trực tiếp liên quan đến việc xây dựng các mô hình dựa trên việc học các mối quan hệ từ dữ liệu. Khai thác dữ liệu và khoa học dữ liệu là các lĩnh vực rộng lớn hơn bao gồm nhiều hoạt động khác, trong khi phát hiện đối tượng là một nhiệm vụ cụ thể trong thị giác máy tính.
Câu hỏi này kiểm tra kiến thức về các tập dữ liệu khác nhau được sử dụng trong huấn luyện và đánh giá mô hình học máy.
- Tập huấn luyện (training set): Là tập dữ liệu được sử dụng để huấn luyện mô hình học máy. Mô hình sẽ học các mẫu từ tập dữ liệu này để đưa ra dự đoán.
- Bộ xác nhận (validation set): Được sử dụng để tinh chỉnh các siêu tham số (hyperparameter) của mô hình và đánh giá hiệu suất của mô hình trong quá trình huấn luyện. Mục đích là để ngăn chặn việc mô hình bị "quá khớp" (overfitting) với tập huấn luyện.
- Bộ thử nghiệm (test set): Là tập dữ liệu độc lập được sử dụng để đánh giá hiệu suất cuối cùng của mô hình sau khi đã được huấn luyện và tinh chỉnh. Tập thử nghiệm phải độc lập với tập huấn luyện và tập xác nhận để đảm bảo đánh giá khách quan.
- Bộ nhớ đệm: Đây không phải là thuật ngữ phổ biến trong ngữ cảnh này.
Vì vậy, đáp án đúng là "b. bộ thử nghiệm" vì nó đáp ứng định nghĩa về một tập hợp các trường hợp dữ liệu độc lập, tuân theo phân phối xác suất tương tự như tập huấn luyện và được dùng để đánh giá mô hình sau cùng.
Trong thuật toán Machine Learning (ML), mục tiêu là tìm ra mô hình "tốt nhất" từ một tập hợp các mô hình tiềm năng. "Tốt nhất" ở đây có nghĩa là mô hình đó phù hợp vừa phải (well-fit) với tập dữ liệu. Điều này có nghĩa là mô hình có khả năng khái quát hóa tốt, không chỉ hoạt động tốt trên dữ liệu huấn luyện mà còn trên dữ liệu mới chưa từng thấy.
- Phương án a: Không phù hợp với tập dữ liệu - Mô hình không phù hợp với dữ liệu (underfitting) sẽ có hiệu suất kém cả trên dữ liệu huấn luyện và dữ liệu kiểm tra, do đó không phải là mô hình "tốt nhất".
- Phương án b: Trang bị quá mức tập dữ liệu - Mô hình trang bị quá mức (overfitting) sẽ hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra do nó đã học cả những nhiễu trong dữ liệu huấn luyện. Vì vậy, đây cũng không phải là mô hình "tốt nhất".
- Phương án c: Phù hợp vừa phải với tập dữ liệu - Mô hình phù hợp vừa phải sẽ cân bằng giữa việc học các mẫu trong dữ liệu và khả năng khái quát hóa. Đây là mô hình lý tưởng và được coi là "tốt nhất".
Giai đoạn triển khai (Deployment) trong mô hình CRISP-DM là giai đoạn mà các mô hình học máy được tích hợp và vận hành như một phần của quy trình kinh doanh tổng thể. Trong giai đoạn này, mô hình đã được xây dựng và đánh giá, và bây giờ được đưa vào sử dụng thực tế để giải quyết các vấn đề kinh doanh hoặc cải thiện hiệu suất. Các giai đoạn khác (hiểu biết kinh doanh, làm mô hình, đánh giá) là các bước chuẩn bị và xây dựng mô hình, không phải là giai đoạn vận hành liên tục trong quy trình kinh doanh.
Câu hỏi này liên quan đến các loại hình học máy (machine learning). Việc phân loại (classification) là một bài toán thuộc học tập có giám sát (supervised learning). Trong học tập có giám sát, chúng ta cung cấp cho mô hình dữ liệu đã được gán nhãn, và mô hình học cách ánh xạ từ dữ liệu đầu vào đến nhãn tương ứng. Phân loại là một nhiệm vụ mà mục tiêu là gán một đối tượng vào một trong số các lớp (categories) đã được định nghĩa trước. Các thuật toán phân loại phổ biến bao gồm: Logistic Regression, Support Vector Machines (SVM), Decision Trees, và Random Forests.
- Học tập không giám sát (Unsupervised learning): Không sử dụng dữ liệu gán nhãn. Thay vào đó, mô hình tìm kiếm cấu trúc ẩn trong dữ liệu. Ví dụ: phân cụm.
- Lựa chọn tính năng (Feature selection): Là quá trình chọn ra một tập con các tính năng quan trọng nhất từ tập các tính năng ban đầu để cải thiện hiệu suất mô hình.
- Học tăng cường (Reinforcement learning): Mô hình học cách đưa ra quyết định trong một môi trường để tối đa hóa phần thưởng tích lũy.
Vì vậy, đáp án đúng là học tập có giám sát.

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.