Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting:

Câu 20:

Một người bị nghi ngờ bệnh lao đi thực hiện xét nghiệm. Nếu kết quả xét nghiệm cho thấy người này bị lao trong khi anh ta thật sự không mắc bệnh lao. Trường hợp này, được gọi là:

Lời giải:

Đáp án đúng: C

Câu hỏi này liên quan đến các khái niệm cơ bản trong thống kê y học và đánh giá xét nghiệm chẩn đoán. Cụ thể, nó đề cập đến sai sót có thể xảy ra khi sử dụng một xét nghiệm để chẩn đoán bệnh.

Phân tích các lựa chọn:

A. Tỷ lệ bỏ sót (False Negative Rate): Đây là tỷ lệ những người thực sự mắc bệnh nhưng xét nghiệm lại cho kết quả âm tính (không phát hiện ra bệnh). Trong trường hợp này, người đó thực sự bị lao nhưng xét nghiệm lại không phát hiện ra.

B. Độ nhạy (Sensitivity): Độ nhạy của một xét nghiệm là khả năng xét nghiệm đó xác định chính xác những người thực sự mắc bệnh. Nó không mô tả trường hợp xét nghiệm dương tính ở người không bệnh.

C. Tỷ lệ báo động nhầm (False Positive Rate): Đây là tỷ lệ những người thực sự không mắc bệnh nhưng xét nghiệm lại cho kết quả dương tính (báo là có bệnh). Đây chính xác là tình huống được mô tả trong câu hỏi.

D. Độ lỗi: Đây là một thuật ngữ chung chung, không đặc tả loại sai sót cụ thể nào trong xét nghiệm.

Kết luận:

Trường hợp một người không mắc bệnh lao nhưng xét nghiệm lại cho kết quả dương tính (bị chẩn đoán là có bệnh) được gọi là tỷ lệ báo động nhầm (False Positive Rate). Vì vậy, đáp án đúng là C.

Câu 21:

Phân cụm dữ liệu là thuộc phương pháp

Lời giải:

Đáp án đúng: B

Phân cụm dữ liệu (clustering) là một kỹ thuật trong học máy không giám sát. Trong học máy không giám sát, chúng ta không có nhãn hoặc kết quả mong muốn trước cho dữ liệu. Thay vào đó, thuật toán phải tự tìm ra các cấu trúc, mẫu hoặc nhóm trong dữ liệu. Phân cụm dữ liệu thực hiện bằng cách nhóm các điểm dữ liệu tương tự lại với nhau thành các cụm. Vì vậy, đáp án đúng là B.

Câu 22:

Một phương pháp phân cụm tốt là phương pháp cho kết quả phân cụm mà trong đó:

Lời giải:

Đáp án đúng: C

Một phương pháp phân cụm được coi là tốt khi các đối tượng trong cùng một cụm có độ tương đồng cao (gần giống nhau), trong khi các đối tượng giữa các cụm khác nhau có độ tương đồng thấp (khác biệt nhau). Điều này đảm bảo rằng các cụm được phân chia rõ ràng và có ý nghĩa.

* Phương án A: Sai. Độ tương đồng giữa các cụm cao nghĩa là các cụm không được phân tách rõ ràng.
* Phương án B: Sai. Độ tương đồng bên trong cụm thấp nghĩa là các đối tượng trong cùng một cụm không giống nhau.
* Phương án C: Đúng. Độ tương đồng bên trong cụm cao và độ tương đồng giữa các cụm thấp là mục tiêu của một thuật toán phân cụm tốt.
* Phương án D: Sai. Độ tương đồng thấp ở cả trong và giữa các cụm cho thấy việc phân cụm không hiệu quả.

Câu 23:

Thuật toán nào sau đây cho phép một phần tử có thể thuộc về một hoặc nhiều cụm khác nhau:

Lời giải:

Đáp án đúng: D

Phân tích các thuật toán:

A. DIANA (Divisive Analysis Clustering): Là một thuật toán phân cụm phân cấp (hierarchical clustering) theo kiểu chia tách (divisive). Nó bắt đầu bằng việc coi toàn bộ tập dữ liệu là một cụm duy nhất, sau đó chia tách cụm này thành các cụm nhỏ hơn một cách đệ quy. Mỗi phần tử chỉ thuộc về một cụm duy nhất tại bất kỳ thời điểm nào.
B. K-means: Là một thuật toán phân cụm dựa trên khoảng cách. Mỗi điểm dữ liệu được gán cho cụm có trung tâm gần nhất. Do đó, mỗi điểm chỉ thuộc về một cụm duy nhất.
C. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. Nó nhóm các điểm dữ liệu gần nhau và đánh dấu các điểm dữ liệu nằm một mình trong các vùng có mật độ thấp là nhiễu (noise). Mỗi điểm hoặc thuộc về một cụm hoặc được coi là nhiễu, nhưng không thể thuộc về nhiều cụm.
D. Fuzzy C-means (FCM): Là một thuật toán phân cụm mềm (soft clustering). Thay vì gán mỗi điểm dữ liệu cho một cụm duy nhất, FCM gán cho mỗi điểm một độ thuộc (membership) cho mỗi cụm. Độ thuộc này thể hiện mức độ mà điểm đó thuộc về cụm đó. Một điểm có thể có độ thuộc khác không cho nhiều cụm, cho phép nó thuộc về nhiều cụm khác nhau ở các mức độ khác nhau.

Kết luận:

Fuzzy C-means (FCM) là thuật toán cho phép một phần tử thuộc về một hoặc nhiều cụm khác nhau.

Câu 24:

Thuật toán phân cụm nào sau đây không cần biết trước số cụm:

Lời giải:

Đáp án đúng: B

Câu hỏi này kiểm tra kiến thức về các thuật toán phân cụm và yêu cầu về việc xác định số cụm trước khi thực hiện thuật toán.

A. K-means: Thuật toán K-means yêu cầu phải xác định trước số lượng cụm (K). Thuật toán sẽ cố gắng chia dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm cụm của nó là nhỏ nhất.

B. Agnes (Agglomerative Nesting): Là một thuật toán phân cụm phân cấp kiểu bottom-up. Nó bắt đầu bằng việc coi mỗi điểm dữ liệu là một cụm riêng biệt, sau đó lặp đi lặp lại việc hợp nhất các cụm gần nhau nhất cho đến khi chỉ còn lại một cụm duy nhất, hoặc đạt đến một điều kiện dừng nào đó. Số cụm không cần xác định trước, mà có thể được xác định sau khi xây dựng xong cây phân cấp (dendrogram).

C. Fuzzy C-means (FCM): Tương tự như K-means, Fuzzy C-means cũng yêu cầu phải xác định trước số lượng cụm (C). Điểm khác biệt là FCM cho phép mỗi điểm dữ liệu thuộc về nhiều cụm với các mức độ thành viên khác nhau (fuzzy membership).

D. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Là một thuật toán phân cụm dựa trên mật độ. DBSCAN có thể tự động xác định số lượng cụm dựa trên mật độ của dữ liệu. Nó không yêu cầu phải xác định trước số cụm.

Vậy, thuật toán DBSCAN và Agnes không yêu cầu phải biết trước số cụm. Trong các lựa chọn trên, DBSCAN là đáp án đúng nhất vì Agnes còn có thể được dùng để xác định số cụm sau.

Câu 25:

Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số lượng cụm cụ thể ta cần làm gì?

Lời giải: