Kết quả nào đúng cho đoạn code sau?

X = numpy.array([[3, 89],

                 [23, 17],

                 [92, 26],

                 [34, 28],
                 [12, 9]])

print(numpy.ptp(X))

Error

Trả lời:

Đáp án đúng: C

`numpy.ptp(X)` trả về khoảng giá trị (range) của các phần tử trong mảng `X`. Khoảng giá trị được tính bằng hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất. Trong mảng `X` đã cho, giá trị lớn nhất là 92 và giá trị nhỏ nhất là 3. Vậy, `numpy.ptp(X)` sẽ trả về 92 - 3 = 89.

100+ câu hỏi trắc nghiệm Học máy đáp án và lời giải minh họa - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 47:

Khẳng định nào đúng?

1 - Tăng số đặc trưng không làm tăng số mẫu huấn luyện.

2 - Tăng đặc trưng không làm ảnh hưởng tới hiệu năng của hệ thống.

3 - Tăng đặc trưng không luôn luôn tăng độ chính xác của phân lớp.

Lời giải:

Đáp án đúng: A

Phân tích các khẳng định:

1 - Tăng số đặc trưng *không* làm tăng số mẫu huấn luyện. Đây là khẳng định đúng. Số lượng mẫu huấn luyện là số lượng các bản ghi dữ liệu có sẵn, việc tăng số lượng đặc trưng (số cột thông tin của mỗi bản ghi) không làm thay đổi số lượng bản ghi (số hàng).

2 - Tăng đặc trưng *không* làm ảnh hưởng tới hiệu năng của hệ thống. Đây là khẳng định sai. Việc tăng số lượng đặc trưng có thể ảnh hưởng đến hiệu năng của hệ thống. Nếu tăng quá nhiều đặc trưng không liên quan, có thể gây ra hiện tượng "lời nguyền chiều cao" (curse of dimensionality), làm giảm hiệu năng và độ chính xác của mô hình.

3 - Tăng đặc trưng *không* luôn luôn tăng độ chính xác của phân lớp. Đây là khẳng định đúng. Như đã nói ở trên, việc tăng quá nhiều đặc trưng không liên quan có thể làm giảm độ chính xác của mô hình. Ngoài ra, việc tăng đặc trưng có thể dẫn đến overfitting nếu số lượng mẫu huấn luyện không đủ lớn.

Vậy, các khẳng định đúng là 1 và 3.

Câu 48:

Giả sử bạn đang làm việc với bài toán phân lớp nhị phân và có 3 model với mỗi model có độ chính xác là 70%. Nếu bạn kết hợp kết quả của 3 model theo phương pháp bỏ phiếu (voting method) thì độ chính xác thấp nhất bạn nhận được là bao nhiêu?

Lời giải:

Đáp án đúng: A

Phương pháp bỏ phiếu (voting) trong bài toán phân lớp nhị phân hoạt động bằng cách kết hợp dự đoán từ nhiều model. Trong trường hợp này, chúng ta có 3 model với độ chính xác 70% mỗi model. Để xác định độ chính xác thấp nhất khi kết hợp các model này bằng phương pháp bỏ phiếu, ta cần xem xét các trường hợp có thể xảy ra.

Trường hợp xấu nhất là khi 2 trong số 3 model dự đoán sai và 1 model dự đoán đúng. Vì mỗi model có độ chính xác 70%, nên xác suất một model dự đoán đúng là 0.7 và xác suất dự đoán sai là 0.3.

Để độ chính xác của phương pháp bỏ phiếu thấp nhất, ta cần xem xét trường hợp mà sự kết hợp của các model mang lại kết quả tệ nhất. Vì mỗi model có độ chính xác là 70%, nên việc kết hợp chúng theo phương pháp bỏ phiếu sẽ không bao giờ cho kết quả tệ hơn 70% (nếu tất cả các model đều độc lập và có độ chính xác lớn hơn 50%). Nếu ít nhất 2 model đồng ý (chiếm đa số), thì kết quả sẽ là kết quả của đa số. Do đó, độ chính xác thấp nhất sẽ là khi có sự đồng thuận của ít nhất hai model.

Vì vậy, đáp án đúng là B. Lớn hơn hoặc bằng 70%.

Câu 49:

Hàm kích hoạt nào được sử dụng cho lớp đầu ra của model?

Lời giải:

Đáp án đúng: B

Hàm kích hoạt cho lớp đầu ra của model phụ thuộc vào bài toán cụ thể:

Sigmoid: Thường dùng cho bài toán phân loại nhị phân (binary classification), vì nó cho ra giá trị trong khoảng (0, 1), có thể hiểu là xác suất thuộc về một lớp nào đó.

Softmax: Dùng cho bài toán phân loại đa lớp (multi-class classification). Nó chuyển đổi một vector các số thực thành một phân phối xác suất, với tổng các xác suất bằng 1.

Linear/Identity: Dùng cho bài toán hồi quy (regression), khi cần giá trị đầu ra là một số thực bất kỳ.

ReLU, Tanh: Thường dùng cho các lớp ẩn (hidden layers) để giải quyết vấn đề vanishing gradient.

Do câu hỏi không chỉ rõ loại bài toán, nhưng phương án B (Sigmoid) là phù hợp nhất trong các lựa chọn được đưa ra, đặc biệt khi ta giả định đây là bài toán phân loại nhị phân.

Câu 50:

Hình ảnh dưới đây là biểu diễn của hàm kích hoạt nào?

Lời giải:

Đáp án đúng: B

Hình ảnh cho thấy hàm có giá trị bằng 0 khi đầu vào âm và tăng tuyến tính khi đầu vào dương. Đây là đặc điểm của hàm ReLU (Rectified Linear Unit). Các hàm LeakyReLU, SELU và ELU đều có giá trị khác 0 khi đầu vào âm.

Câu 1:

Thuật ngữ "overfitting" đề cập đến hiện tượng gì trong machine learning?

Lời giải:

Đáp án đúng: B

Overfitting xảy ra khi mô hình học quá kỹ dữ liệu huấn luyện, bao gồm cả những nhiễu (noise) trong dữ liệu. Điều này dẫn đến việc mô hình đạt độ chính xác cao trên dữ liệu huấn luyện, nhưng lại hoạt động kém trên dữ liệu mới (dữ liệu kiểm tra) do không thể tổng quát hóa được.

Phương án A sai vì nó mô tả underfitting (mô hình không đủ phức tạp để nắm bắt được cấu trúc dữ liệu).
Phương án C sai vì nó cũng mô tả trường hợp mô hình không học được gì.
Phương án D sai vì nó mô tả một mô hình lý tưởng, học tốt và tổng quát hóa tốt, không phải overfitting.

Câu 2:

Trong machine learning, thuật ngữ "unsupervised learning" ám chỉ điều gì?

Lời giải: