Giả sử x là tập dữ liệu hai chiều (samples, features). Cần chuẩn hóa các giá trị của đặc trưng về dạng có giá trị trung bình bằng 0 (a mean of 0) và có độ lệch chuẩn bằng 1 (a standard deviation of 1). Phương án nào dưới đây đáp ứng yêu cầu?

Đâu không phải là thuộc tính của module?

Lời giải:

Đáp án đúng: D

Trong Python, một module có các thuộc tính như `__file__` (đường dẫn đến file), `__name__` (tên của module), và `__dict__` (một dictionary chứa không gian tên của module). `list` không phải là thuộc tính mặc định của module.

Câu 41:

Xác định kết quả cho đoạn code sau:

import collections

c = collections.Counter()

print(c.most_common(1))

Lời giải:

Đáp án đúng: A

Đoạn code sử dụng `collections.Counter()` để tạo một bộ đếm. Khi khởi tạo `c = collections.Counter()`, bộ đếm `c` rỗng. Hàm `c.most_common(1)` trả về 1 phần tử phổ biến nhất (ở dạng list các tuple) trong bộ đếm. Vì bộ đếm rỗng, nó sẽ trả về một list rỗng. Tuy nhiên, khi in ra list rỗng, nó sẽ hiển thị là `[]`. Vì vậy, không có đáp án nào đúng trong các lựa chọn đã cho. Các đáp án A, B, C đều đưa ra các giá trị tuple không chính xác, và đáp án D 'Error' cũng không đúng vì code chạy mà không gặp lỗi.

Câu 42:

Đâu là kết quả của đoạn code sau?

colors = {1: 'blue', 2: 'red', 3: 'green'}

itm = colors.items()

print(itm)

Lời giải:

Đáp án đúng: A

Câu hỏi này kiểm tra kiến thức về phương thức items() trong Python dictionary.

Khi gọi colors.items(), phương thức này trả về một view object hiển thị một danh sách các cặp key-value trong dictionary. Kết quả trả về có kiểu dữ liệu là dict_items, chứa các tuple, mỗi tuple chứa một cặp key và value.

Trong trường hợp này, dictionary colors có các cặp key-value như sau: 1: 'blue', 2: 'red', và 3: 'green'. Do đó, colors.items() sẽ trả về dict_items([(1, 'blue'), (2, 'red'), (3, 'green')]).

Câu 43:

Đâu là ưu điểm của thuật toán Random Forest?

Lời giải:

Đáp án đúng: A

Ưu điểm của thuật toán Random Forest bao gồm:

Độ chính xác cao: Random Forest thường cho kết quả dự đoán tốt và chính xác hơn so với nhiều thuật toán khác, đặc biệt là khi dữ liệu phức tạp.

Giảm overfitting: Mặc dù mỗi cây quyết định riêng lẻ có thể bị overfitting, nhưng Random Forest kết hợp nhiều cây (thường là hàng trăm hoặc hàng nghìn) và lấy trung bình kết quả, giúp giảm thiểu overfitting.

Xử lý dữ liệu đa dạng: Random Forest có thể xử lý cả dữ liệu số và dữ liệu phân loại, cũng như dữ liệu bị thiếu một cách hiệu quả.

Đánh giá độ quan trọng của biến: Random Forest cung cấp một cách để đánh giá mức độ quan trọng của từng biến trong việc dự đoán kết quả.

Dựa trên các ưu điểm trên, đáp án A (Random Forest không bị overfitting) là đáp án chính xác nhất, mặc dù Random Forest vẫn có thể bị overfitting ở một mức độ nhất định nếu không được điều chỉnh tham số phù hợp, nhưng so với một cây quyết định đơn lẻ thì nó ít bị overfitting hơn nhiều. Đáp án B sai vì nói rằng Random Forest bị overfitting là không đúng bản chất của thuật toán. Đáp án C không hoàn toàn chính xác vì tốc độ xử lý của Random Forest có thể chậm hơn so với một số thuật toán đơn giản khác. Đáp án D sai vì Random Forest có thể áp dụng cho cả bài toán hồi quy và phân loại.

Câu 44:

Tìm kiếm đặc trưng theo chiến lược Heuristic có đặc điểm gì?

Lời giải:

Đáp án đúng: A

Chiến lược Heuristic là một phương pháp tìm kiếm hoặc giải quyết vấn đề dựa trên kinh nghiệm hoặc trực giác, thay vì đảm bảo tìm ra giải pháp tối ưu. Trong tìm kiếm đặc trưng, heuristic được sử dụng để giảm không gian tìm kiếm và tìm ra một tập đặc trưng con chấp nhận được trong một thời gian hợp lý. Tuy nhiên, vì heuristic không khám phá toàn bộ không gian tìm kiếm, nó không đảm bảo tìm thấy tập đặc trưng con tối ưu, mà chỉ tìm được tập đặc trưng con *cận tối ưu*. Do đó, đáp án C là chính xác.

Câu 45:

Tìm kiếm đặc trưng theo chiến lược Heuristic có đặc điểm gì?

Lời giải: