Giá trị a[i;j] trong ma trận nhầm lẫn (confusion matrix) cho biết:

Số lượng mẫu i được phân vào đúng mẫu i

Số lượng mẫu i được phân nhầm vào mẫu j

Số lượng mẫu j được phân đúng vào mẫu j

Số lượng mẫu j được phân nhầm vào mẫu i

Trả lời:

Đáp án đúng: B

Ma trận nhầm lẫn (confusion matrix) là một công cụ được sử dụng để đánh giá hiệu suất của một mô hình phân loại. Trong ma trận này, a[i, j] biểu thị số lượng các mẫu thực tế thuộc lớp i mà mô hình đã dự đoán là thuộc lớp j. Vì vậy, đáp án đúng là "Số lượng mẫu i được phân nhầm vào mẫu j".

100+ câu hỏi trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh có đáp án giải thích dễ hiểu - Phần 1

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 15:

Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tinh trạng over-fitting:

Lời giải:

Đáp án đúng: B

Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.

a. Chọn mẫu ngẫu nhiên (Random sampling): Chọn ngẫu nhiên không giải quyết trực tiếp vấn đề overfitting. Nó chỉ đơn giản là chọn một tập hợp con ngẫu nhiên từ dữ liệu.

b. Đánh giá chéo (k-fold cross validation): Phương pháp này chia dữ liệu thành k phần, huấn luyện trên k-1 phần và kiểm tra trên phần còn lại. Quá trình này lặp lại k lần. Đánh giá chéo giúp đánh giá khách quan hiệu suất của mô hình và phát hiện overfitting bằng cách xem xét hiệu suất trên nhiều tập kiểm tra khác nhau.

c. Hold-out: Chia dữ liệu thành tập huấn luyện và tập kiểm tra. Mặc dù hữu ích để đánh giá mô hình, nhưng nó không trực tiếp ngăn chặn overfitting.

d. Huấn luyện và kiểm thử trên cùng tập dữ liệu: Đây là cách tệ nhất vì mô hình sẽ học thuộc lòng dữ liệu và không thể khái quát hóa cho dữ liệu mới, dẫn đến overfitting nghiêm trọng.

Vậy, phương pháp đánh giá chéo (k-fold cross validation) là một phương pháp quan trọng để phát hiện và khắc phục tình trạng overfitting bằng cách đánh giá mô hình trên nhiều tập dữ liệu khác nhau.

Câu 16:

Một phương pháp phân cụm tốt là phương pháp cho kết quả phân cụm mà trong đó:

Lời giải:

Đáp án đúng: C

Một phương pháp phân cụm tốt sẽ tạo ra các cụm mà các đối tượng trong cùng một cụm tương tự nhau (độ tương đồng bên trong cụm cao) và các cụm khác nhau khác biệt nhau (độ tương đồng giữa các cụm thấp). Vì vậy, đáp án đúng là 'Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp'.

Câu 17:

Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số lượng cụm cụ thể ta cần làm gì?

Lời giải:

Đáp án đúng: C

Câu hỏi này kiểm tra kiến thức về cách sử dụng thuật toán phân cụm phân cấp (HAC) trong Orange để đạt được một số lượng cụm mong muốn.

Phương án a: Chọn số lượng cụm k trên hộp thoại. Trong Orange, việc chọn số lượng cụm *k* trực tiếp trên hộp thoại không phải là cách để thu được số lượng cụm cụ thể trong HAC. HAC xây dựng một cây phân cấp, và số lượng cụm được xác định sau khi cây đã được xây dựng.

Phương án b: Chọn phương pháp tính khoảng cách trước khi chọn thuật toán. Việc chọn phương pháp tính khoảng cách là quan trọng cho HAC, nhưng nó không trực tiếp quyết định số lượng cụm cuối cùng.

Phương án c: Chọn đường cắt phù hợp trên cây phân cấp kết quả. Đây là phương pháp đúng. Sau khi thuật toán HAC tạo ra một cây phân cấp (dendrogram), bạn cần chọn một "đường cắt" (cut-off point) trên cây này. Vị trí của đường cắt sẽ xác định số lượng cụm được tạo ra. Nếu bạn cắt ở mức cao, bạn sẽ có ít cụm hơn; nếu bạn cắt ở mức thấp, bạn sẽ có nhiều cụm hơn.

Phương án d: Không cần làm gì cả. Điều này không đúng, vì mặc định HAC không tự động cho ra một số lượng cụm cụ thể. Cần phải có sự can thiệp để xác định số lượng cụm mong muốn.

Vậy, đáp án đúng là c.

Câu 18:

So sánh kết quả giữa các mô hình để xem xét tính hiệu quả của việc phân cụm thuộc cách đánh giá nào sau đây:

Lời giải:

Đáp án đúng: C

So sánh kết quả giữa các mô hình để xem xét tính hiệu quả của việc phân cụm thuộc cách đánh giá trong. Đánh giá trong (internal evaluation) sử dụng các độ đo như Silhouette coefficient, Davies-Bouldin index, hoặc Calinski-Harabasz index để đánh giá chất lượng của các cụm dựa trên chính dữ liệu và cấu trúc cụm mà không cần thông tin bên ngoài. Việc so sánh kết quả giữa các mô hình phân cụm khác nhau dựa trên các độ đo này cho phép xác định mô hình nào tạo ra các cụm tốt hơn.

Câu 19:

Thuật toán gom cụm nào sau đây không cần biết trước số cụm

Lời giải:

Đáp án đúng: B

Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán gom cụm dựa trên mật độ, không yêu cầu phải biết trước số lượng cụm. Nó xác định các cụm dựa trên các vùng có mật độ điểm cao, được phân tách bởi các vùng có mật độ điểm thấp. Các thuật toán khác như Fuzzy C-means và K-means đều yêu cầu xác định trước số lượng cụm (C hoặc K). Diana là một thuật toán phân cấp chia tách, cũng không nhất thiết phải biết trước số cụm cuối cùng, tuy nhiên, câu hỏi đang hướng đến các thuật toán không *cần* biết trước, và DBSCAN là ví dụ điển hình nhất. Do đó, DBSCAN là lựa chọn phù hợp nhất.

Câu 20:

Giá trị tại phần tử (i;j) trong ma trận nhầm lẫn cho biết:

Lời giải: