JavaScript is required

Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tinh trạng over-fitting:

A.

Chọn mẫu ngẫu nhiên (Random sampling)

B.

Đánh giá chéo (k-fold cross validation)

C.

Hold-out

D.

Huấn luyện và kiểm thử trên cùng tập dữ liệu

Trả lời:

Đáp án đúng: B


Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới. a. Chọn mẫu ngẫu nhiên (Random sampling): Chọn ngẫu nhiên không giải quyết trực tiếp vấn đề overfitting. Nó chỉ đơn giản là chọn một tập hợp con ngẫu nhiên từ dữ liệu. b. Đánh giá chéo (k-fold cross validation): Phương pháp này chia dữ liệu thành k phần, huấn luyện trên k-1 phần và kiểm tra trên phần còn lại. Quá trình này lặp lại k lần. Đánh giá chéo giúp đánh giá khách quan hiệu suất của mô hình và phát hiện overfitting bằng cách xem xét hiệu suất trên nhiều tập kiểm tra khác nhau. c. Hold-out: Chia dữ liệu thành tập huấn luyện và tập kiểm tra. Mặc dù hữu ích để đánh giá mô hình, nhưng nó không trực tiếp ngăn chặn overfitting. d. Huấn luyện và kiểm thử trên cùng tập dữ liệu: Đây là cách tệ nhất vì mô hình sẽ học thuộc lòng dữ liệu và không thể khái quát hóa cho dữ liệu mới, dẫn đến overfitting nghiêm trọng. Vậy, phương pháp đánh giá chéo (k-fold cross validation) là một phương pháp quan trọng để phát hiện và khắc phục tình trạng overfitting bằng cách đánh giá mô hình trên nhiều tập dữ liệu khác nhau.

Câu hỏi liên quan