Giá trị a[i;j] trong ma trận nhầm lẫn (confusion matrix) cho biết:
Trả lời:
Đáp án đúng: B
Ma trận nhầm lẫn (confusion matrix) là một công cụ được sử dụng để đánh giá hiệu suất của một mô hình phân loại. Trong ma trận này, a[i, j] biểu thị số lượng các mẫu thực tế thuộc lớp i mà mô hình đã dự đoán là thuộc lớp j. Vì vậy, đáp án đúng là "Số lượng mẫu i được phân nhầm vào mẫu j".
Câu hỏi liên quan
Lời giải:
Đáp án đúng: B
Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
a. Chọn mẫu ngẫu nhiên (Random sampling): Chọn ngẫu nhiên không giải quyết trực tiếp vấn đề overfitting. Nó chỉ đơn giản là chọn một tập hợp con ngẫu nhiên từ dữ liệu.
b. Đánh giá chéo (k-fold cross validation): Phương pháp này chia dữ liệu thành k phần, huấn luyện trên k-1 phần và kiểm tra trên phần còn lại. Quá trình này lặp lại k lần. Đánh giá chéo giúp đánh giá khách quan hiệu suất của mô hình và phát hiện overfitting bằng cách xem xét hiệu suất trên nhiều tập kiểm tra khác nhau.
c. Hold-out: Chia dữ liệu thành tập huấn luyện và tập kiểm tra. Mặc dù hữu ích để đánh giá mô hình, nhưng nó không trực tiếp ngăn chặn overfitting.
d. Huấn luyện và kiểm thử trên cùng tập dữ liệu: Đây là cách tệ nhất vì mô hình sẽ học thuộc lòng dữ liệu và không thể khái quát hóa cho dữ liệu mới, dẫn đến overfitting nghiêm trọng.
Vậy, phương pháp đánh giá chéo (k-fold cross validation) là một phương pháp quan trọng để phát hiện và khắc phục tình trạng overfitting bằng cách đánh giá mô hình trên nhiều tập dữ liệu khác nhau.
a. Chọn mẫu ngẫu nhiên (Random sampling): Chọn ngẫu nhiên không giải quyết trực tiếp vấn đề overfitting. Nó chỉ đơn giản là chọn một tập hợp con ngẫu nhiên từ dữ liệu.
b. Đánh giá chéo (k-fold cross validation): Phương pháp này chia dữ liệu thành k phần, huấn luyện trên k-1 phần và kiểm tra trên phần còn lại. Quá trình này lặp lại k lần. Đánh giá chéo giúp đánh giá khách quan hiệu suất của mô hình và phát hiện overfitting bằng cách xem xét hiệu suất trên nhiều tập kiểm tra khác nhau.
c. Hold-out: Chia dữ liệu thành tập huấn luyện và tập kiểm tra. Mặc dù hữu ích để đánh giá mô hình, nhưng nó không trực tiếp ngăn chặn overfitting.
d. Huấn luyện và kiểm thử trên cùng tập dữ liệu: Đây là cách tệ nhất vì mô hình sẽ học thuộc lòng dữ liệu và không thể khái quát hóa cho dữ liệu mới, dẫn đến overfitting nghiêm trọng.
Vậy, phương pháp đánh giá chéo (k-fold cross validation) là một phương pháp quan trọng để phát hiện và khắc phục tình trạng overfitting bằng cách đánh giá mô hình trên nhiều tập dữ liệu khác nhau.
Lời giải:
Đáp án đúng: C
Một phương pháp phân cụm tốt sẽ tạo ra các cụm mà các đối tượng trong cùng một cụm tương tự nhau (độ tương đồng bên trong cụm cao) và các cụm khác nhau khác biệt nhau (độ tương đồng giữa các cụm thấp). Vì vậy, đáp án đúng là 'Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp'.
Lời giải:
Đáp án đúng: C
Câu hỏi này kiểm tra kiến thức về cách sử dụng thuật toán phân cụm phân cấp (HAC) trong Orange để đạt được một số lượng cụm mong muốn.
Phương án a: Chọn số lượng cụm k trên hộp thoại. Trong Orange, việc chọn số lượng cụm *k* trực tiếp trên hộp thoại không phải là cách để thu được số lượng cụm cụ thể trong HAC. HAC xây dựng một cây phân cấp, và số lượng cụm được xác định sau khi cây đã được xây dựng.
Phương án b: Chọn phương pháp tính khoảng cách trước khi chọn thuật toán. Việc chọn phương pháp tính khoảng cách là quan trọng cho HAC, nhưng nó không trực tiếp quyết định số lượng cụm cuối cùng.
Phương án c: Chọn đường cắt phù hợp trên cây phân cấp kết quả. Đây là phương pháp đúng. Sau khi thuật toán HAC tạo ra một cây phân cấp (dendrogram), bạn cần chọn một "đường cắt" (cut-off point) trên cây này. Vị trí của đường cắt sẽ xác định số lượng cụm được tạo ra. Nếu bạn cắt ở mức cao, bạn sẽ có ít cụm hơn; nếu bạn cắt ở mức thấp, bạn sẽ có nhiều cụm hơn.
Phương án d: Không cần làm gì cả. Điều này không đúng, vì mặc định HAC không tự động cho ra một số lượng cụm cụ thể. Cần phải có sự can thiệp để xác định số lượng cụm mong muốn.
Vậy, đáp án đúng là c.
Phương án a: Chọn số lượng cụm k trên hộp thoại. Trong Orange, việc chọn số lượng cụm *k* trực tiếp trên hộp thoại không phải là cách để thu được số lượng cụm cụ thể trong HAC. HAC xây dựng một cây phân cấp, và số lượng cụm được xác định sau khi cây đã được xây dựng.
Phương án b: Chọn phương pháp tính khoảng cách trước khi chọn thuật toán. Việc chọn phương pháp tính khoảng cách là quan trọng cho HAC, nhưng nó không trực tiếp quyết định số lượng cụm cuối cùng.
Phương án c: Chọn đường cắt phù hợp trên cây phân cấp kết quả. Đây là phương pháp đúng. Sau khi thuật toán HAC tạo ra một cây phân cấp (dendrogram), bạn cần chọn một "đường cắt" (cut-off point) trên cây này. Vị trí của đường cắt sẽ xác định số lượng cụm được tạo ra. Nếu bạn cắt ở mức cao, bạn sẽ có ít cụm hơn; nếu bạn cắt ở mức thấp, bạn sẽ có nhiều cụm hơn.
Phương án d: Không cần làm gì cả. Điều này không đúng, vì mặc định HAC không tự động cho ra một số lượng cụm cụ thể. Cần phải có sự can thiệp để xác định số lượng cụm mong muốn.
Vậy, đáp án đúng là c.
Lời giải:
Đáp án đúng: C
So sánh kết quả giữa các mô hình để xem xét tính hiệu quả của việc phân cụm thuộc cách đánh giá trong. Đánh giá trong (internal evaluation) sử dụng các độ đo như Silhouette coefficient, Davies-Bouldin index, hoặc Calinski-Harabasz index để đánh giá chất lượng của các cụm dựa trên chính dữ liệu và cấu trúc cụm mà không cần thông tin bên ngoài. Việc so sánh kết quả giữa các mô hình phân cụm khác nhau dựa trên các độ đo này cho phép xác định mô hình nào tạo ra các cụm tốt hơn.
Lời giải:
Đáp án đúng: B
Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán gom cụm dựa trên mật độ, không yêu cầu phải biết trước số lượng cụm. Nó xác định các cụm dựa trên các vùng có mật độ điểm cao, được phân tách bởi các vùng có mật độ điểm thấp. Các thuật toán khác như Fuzzy C-means và K-means đều yêu cầu xác định trước số lượng cụm (C hoặc K). Diana là một thuật toán phân cấp chia tách, cũng không nhất thiết phải biết trước số cụm cuối cùng, tuy nhiên, câu hỏi đang hướng đến các thuật toán không *cần* biết trước, và DBSCAN là ví dụ điển hình nhất. Do đó, DBSCAN là lựa chọn phù hợp nhất.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy
89 tài liệu310 lượt tải

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin
125 tài liệu441 lượt tải

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông
104 tài liệu687 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán
103 tài liệu589 lượt tải

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp
377 tài liệu1030 lượt tải

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
99 tài liệu1062 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng