JavaScript is required

Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting:

A.

A. Chọn mẫu ngẫu nhiên (Random sampling)

B.

B. Đánh giá chéo (k-fold cross validation)

C.

C. Hold-out

D.

D. Huấn luyện và kiểm thử trên cùng tập dữ liệu

Trả lời:

Đáp án đúng: B


Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới. Để khắc phục tình trạng này, chúng ta cần các phương pháp đánh giá và chọn mô hình một cách khách quan. * **A. Chọn mẫu ngẫu nhiên (Random sampling):** Đây là một kỹ thuật lấy mẫu, bản thân nó không trực tiếp giải quyết overfitting. Tuy nhiên, việc tạo ra các tập dữ liệu khác nhau từ việc lấy mẫu ngẫu nhiên có thể được sử dụng trong các kỹ thuật khác như cross-validation. * **B. Đánh giá chéo (k-fold cross validation):** Đây là một phương pháp mạnh mẽ để đánh giá hiệu năng của mô hình một cách khách quan. Nó chia dữ liệu thành k phần, huấn luyện mô hình trên k-1 phần và kiểm tra trên phần còn lại. Quá trình này lặp lại k lần, mỗi lần một phần khác nhau được dùng làm tập kiểm tra. Kết quả là, ta có được ước lượng khách quan về hiệu năng của mô hình trên dữ liệu mới, giúp phát hiện và giảm thiểu overfitting. * **C. Hold-out:** Tương tự như cross-validation, hold-out chia dữ liệu thành tập huấn luyện và tập kiểm tra. Mô hình được huấn luyện trên tập huấn luyện và đánh giá trên tập kiểm tra. Mặc dù đơn giản, hold-out có thể không đủ tin cậy nếu tập kiểm tra không đủ lớn hoặc không đại diện cho toàn bộ dữ liệu. * **D. Huấn luyện và kiểm thử trên cùng tập dữ liệu:** Đây là cách làm tệ nhất vì nó không thể phát hiện overfitting. Mô hình sẽ hoạt động rất tốt trên dữ liệu nó đã thấy, nhưng rất có thể hoạt động kém trên dữ liệu mới. Vậy, đáp án đúng là B. Đánh giá chéo (k-fold cross validation) là phương pháp tốt nhất để khắc phục tình trạng overfitting vì nó cho phép đánh giá hiệu năng của mô hình một cách khách quan trên dữ liệu chưa từng thấy.

Câu hỏi liên quan