JavaScript is required

Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting?

A.

Chọn mẫu ngẫu nhiên (Random sampling)

B.

Đánh giá chéo (k-fold cross validation)

C.

Hold-out

D.

Huấn luyện và kiểm thử trên cùng tập dữ liệu

Trả lời:

Đáp án đúng: C


Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến việc nó hoạt động tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả trên dữ liệu mới. Đánh giá chéo (k-fold cross validation) là một kỹ thuật được sử dụng để ước tính hiệu suất của mô hình trên dữ liệu chưa thấy bằng cách chia dữ liệu thành k phần, huấn luyện mô hình trên k-1 phần và kiểm tra trên phần còn lại, rồi lặp lại quá trình này k lần. Điều này giúp đánh giá mô hình một cách khách quan hơn và phát hiện overfitting. Các phương pháp chọn mẫu khác như chọn mẫu ngẫu nhiên (random sampling) hay hold-out chỉ đơn giản là chia dữ liệu thành tập huấn luyện và tập kiểm tra, nhưng không cung cấp một ước tính vững chắc về hiệu suất của mô hình như đánh giá chéo. Việc huấn luyện và kiểm thử trên cùng một tập dữ liệu chắc chắn sẽ dẫn đến overfitting vì mô hình sẽ "học thuộc" dữ liệu.

Câu hỏi liên quan