Trong mô hình mạng nơ-ron nhân tạo (ANN), hàm activation function sigmoid có giá trị thuộc khoảng nào?
Đáp án đúng: B
Câu hỏi liên quan
Trong thuật toán K-Means, việc chọn số lượng cụm (clusters) thích hợp là một bước quan trọng. Có nhiều phương pháp để xác định số lượng cụm tối ưu, trong đó:
- Elbow method (Phương pháp khuỷu tay): Đây là một phương pháp phổ biến để ước lượng số lượng cụm tối ưu bằng cách vẽ đồ thị sự biến thiên của tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm cụm gần nhất (within-cluster sum of squares - WCSS) theo số lượng cụm. Điểm "khuỷu tay" trên đồ thị (nơi sự giảm WCSS bắt đầu chậm lại đáng kể) thường được chọn làm số lượng cụm tối ưu.
- Silhouette Analysis (Phân tích Silhouette): Phương pháp này đánh giá chất lượng phân cụm bằng cách tính toán hệ số silhouette cho mỗi điểm dữ liệu. Hệ số silhouette đo lường mức độ tương đồng của một điểm với cụm của nó so với các cụm khác. Giá trị silhouette gần 1 cho thấy điểm được phân cụm tốt, giá trị gần -1 cho thấy điểm có thể được phân cụm sai, và giá trị gần 0 cho thấy điểm nằm gần ranh giới giữa các cụm.
- Gradient Descent (Độ dốc giảm dần): Đây là một thuật toán tối ưu hóa được sử dụng để tìm giá trị nhỏ nhất của một hàm số, thường được dùng trong huấn luyện mô hình học máy, nhưng không liên quan trực tiếp đến việc chọn số lượng cụm trong K-Means.
- Confusion Matrix (Ma trận nhầm lẫn): Đây là một công cụ đánh giá hiệu suất của mô hình phân loại, không liên quan đến thuật toán phân cụm K-Means.
Như vậy, trong các phương án trên, "Elbow method" và "Silhouette Analysis" là các phương pháp thường được sử dụng để chọn số lượng cụm thích hợp cho thuật toán K-Means. Tuy nhiên, Elbow method được nhắc đến phổ biến hơn trong ngữ cảnh này.
Trong mô hình Linear Regression, hệ số hồi quy (regression coefficients) được tìm bằng cách tối thiểu hóa hàm mất mát (loss function). Hàm mất mát thường được sử dụng là Mean Squared Error (MSE). Việc tối thiểu hóa này có thể được thực hiện bằng hai phương pháp chính:
- Giải phương trình đạo hàm của hàm mất mát: Phương pháp này tìm điểm mà đạo hàm của hàm mất mát bằng 0. Tại điểm này, hàm đạt giá trị tối thiểu (hoặc cực tiểu). Đây là một phương pháp trực tiếp và hiệu quả khi hàm mất mát có dạng đơn giản và đạo hàm có thể giải một cách dễ dàng.
- Sử dụng Gradient Descent: Phương pháp này là một thuật toán lặp đi lặp lại để tìm giá trị tối thiểu của hàm mất mát. Thuật toán này bắt đầu từ một điểm ngẫu nhiên và di chuyển dần theo hướng ngược lại với gradient (đạo hàm) của hàm mất mát, cho đến khi đạt được một điểm tối thiểu.
Phương án A chính xác vì nó mô tả cách tìm hệ số hồi quy bằng cách giải phương trình đạo hàm của hàm mất mát. Phương án C cũng đúng, nhưng nó mô tả một phương pháp khác (Gradient Descent) để tối ưu hàm mất mát, không phải là cách trực tiếp tính hệ số hồi quy thông qua giải phương trình đạo hàm. Tuy nhiên, vì phương án A đề cập đến việc giải trực tiếp phương trình đạo hàm, nên nó chính xác hơn trong bối cảnh câu hỏi này.
Trong học máy, Confusion Matrix (Ma trận nhầm lẫn) là một độ đo thường được sử dụng để đánh giá hiệu suất của mô hình phân loại. Nó cung cấp thông tin chi tiết về số lượng dự đoán đúng và sai cho từng lớp, từ đó giúp tính toán các độ đo khác như độ chính xác (accuracy), độ thu hồi (recall), độ đo F1 (F1-score), và độ chính xác (precision). Các đáp án còn lại (R² Score, MAE, RMSE) thường được sử dụng để đánh giá các mô hình hồi quy, không phải phân loại.
- Phân loại (Classification) là một bài toán khác, thường được giải quyết bằng các thuật toán học có giám sát.
- Hồi quy (Regression) cũng là một bài toán học có giám sát, dùng để dự đoán giá trị liên tục.
- Phân tích dữ liệu thô (Raw data analysis) là một khái niệm rộng hơn và không đặc trưng cho thuật toán K-means.
Câu hỏi này liên quan đến các phương pháp giảm chiều dữ liệu trong học máy. Ta xét từng đáp án:
- A. Principal Component Analysis (PCA): PCA là một kỹ thuật giảm chiều dữ liệu bằng cách tìm các thành phần chính (principal components) của dữ liệu. Các thành phần này là các hướng mà dữ liệu biến đổi nhiều nhất. PCA giữ lại một số lượng thành phần chính nhất định, do đó giảm số chiều của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng. Đây là đáp án đúng.
- B. Linear Discriminant Analysis (LDA): LDA cũng là một phương pháp giảm chiều dữ liệu, nhưng nó chủ yếu được sử dụng cho các bài toán phân loại. LDA tìm các hướng mà các lớp dữ liệu được phân tách tốt nhất. LDA có thể giảm chiều dữ liệu, nhưng mục tiêu chính của nó là tối ưu hóa khả năng phân loại chứ không phải là giữ lại các đặc trưng quan trọng một cách tổng quát như PCA.
- C. Support Vector Machine (SVM): SVM là một thuật toán học có giám sát được sử dụng cho các bài toán phân loại và hồi quy. SVM không phải là một phương pháp giảm chiều dữ liệu.
- D. Naive Bayes Classifier: Naive Bayes là một thuật toán phân loại dựa trên định lý Bayes với giả định về tính độc lập giữa các đặc trưng. Tương tự như SVM, Naive Bayes không phải là một phương pháp giảm chiều dữ liệu.
Vậy, đáp án đúng là PCA vì nó trực tiếp được sử dụng để giảm số chiều của dữ liệu trong khi vẫn giữ lại các đặc trưng quan trọng nhất.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.