Cho cụm C gồm các điểm A(1, 1), B(2, 4), C(6,1). Giả sử tâm của cụm là vector trung bình. Tâm của cụm là:

mC = (3 ; 2)

mC = (2 ; 3)

mC = (2.5 ;1.5)

mC=(6 ; 1)

Trả lời:

Đáp án đúng: A

Để tìm tâm của cụm C, ta cần tính vector trung bình của các điểm A(1, 1), B(2, 4), C(6, 1). Tâm của cụm mC được tính như sau: mC = ((xA + xB + xC) / 3 ; (yA + yB + yC) / 3) mC = ((1 + 2 + 6) / 3 ; (1 + 4 + 1) / 3) mC = (9/3 ; 6/3) mC = (3 ; 2) Vậy, tâm của cụm là (3 ; 2).

200+ câu hỏi trắc nghiệm Data mining có lời giải chi tiết - Phần 2

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 15:

Phát biểu nào sau đây không là nhược điểm của thuật toán K-mean

Lời giải:

Đáp án đúng: A

Thuật toán K-means là một thuật toán clustering (phân cụm) phổ biến. Các nhược điểm thường gặp của thuật toán này bao gồm:

- Khó đảm bảo đạt được tối ưu toàn cục: Thuật toán có thể bị mắc kẹt ở các cực tiểu cục bộ.
- Khó phát hiện các cụm có hình dạng phức tạp (không lồi): K-means hoạt động tốt nhất với các cụm có hình dạng tròn hoặc gần tròn.
- Cần xác định trước số cụm k: Việc lựa chọn số lượng cụm phù hợp có thể là một thách thức.

Tuy nhiên, K-means lại là một thuật toán tương đối đơn giản để cài đặt và sử dụng. Do đó, phương án a (Thuật toán khó cài đặt) không phải là nhược điểm của thuật toán K-means.

Câu 16:

Thuật toán phân cụm k-mean dừng khi:

Lời giải:

Đáp án đúng: A

Thuật toán k-means là một thuật toán phân cụm lặp đi lặp lại nhằm chia dữ liệu thành k cụm, trong đó mỗi điểm dữ liệu thuộc về cụm có khoảng cách gần nhất đến tâm của cụm đó. Quá trình lặp này bao gồm hai bước chính: gán các điểm dữ liệu vào cụm gần nhất và cập nhật tâm cụm. Thuật toán dừng lại khi việc gán các điểm dữ liệu vào các cụm không còn thay đổi nữa, tức là không thể gán (hoặc gán lại) một điểm nào vào một cụm khác mà làm giảm tổng khoảng cách từ các điểm đến tâm cụm tương ứng của chúng. Các đáp án còn lại không phải là điều kiện dừng của thuật toán k-means:
- Số cụm sinh ra là k: Đây là một tham số đầu vào của thuật toán, không phải điều kiện dừng.
- Tùy theo yêu cầu của người dùng: Mặc dù người dùng có thể đặt số lần lặp tối đa, nhưng điều kiện dừng chính vẫn là sự hội tụ của các cụm.
- Khi tất cả các phần tử đã được gán vào k cụm: Điều này luôn đúng trong quá trình thuật toán chạy, không phải là điều kiện để thuật toán dừng lại.

Câu 17:

Kết quả của quá trình phân cụm phân cấp là:

Lời giải:

Đáp án đúng: A

Quá trình phân cụm phân cấp (hierarchical clustering) tạo ra một cấu trúc cây phân cấp, trong đó mỗi nút lá đại diện cho một điểm dữ liệu và các nút cha đại diện cho các cụm được hình thành bằng cách hợp nhất các cụm con. Cây này biểu diễn quá trình gom cụm theo từng bước, từ các điểm dữ liệu riêng lẻ đến một cụm duy nhất chứa tất cả các điểm. Do đó, kết quả của quá trình phân cụm phân cấp là một cây nhị phân (hoặc cây phân cấp) biểu diễn quá trình gom cụm. Các lựa chọn khác không mô tả đầy đủ hoặc chính xác kết quả của thuật toán phân cụm phân cấp:

- a. Một sơ đồ ngưỡng tương tự (hoặc không tương tự): Sơ đồ này có thể được sử dụng để xác định khi nào nên dừng quá trình gom cụm, nhưng nó không phải là kết quả chính của thuật toán.
- b. Một danh sách các cụm: Quá trình phân cụm phân cấp có thể tạo ra một danh sách các cụm tại một ngưỡng cụ thể, nhưng kết quả cốt lõi là cây phân cấp.
- d. k cụm được sinh ra, với k cho trước: Đây là kết quả của các thuật toán phân cụm khác, chẳng hạn như k-means, chứ không phải phân cụm phân cấp.

Câu 18:

Các bài toán chính trong ‘Tiền xử lí dữ liệu’ là:

Lời giải:

Đáp án đúng: A

Tiền xử lý dữ liệu (Data Preprocessing) là một bước quan trọng trong khai phá dữ liệu và học máy. Nó bao gồm các kỹ thuật để làm sạch, chuyển đổi và giảm dữ liệu để cải thiện chất lượng và hiệu suất của các mô hình học máy. Các bài toán chính bao gồm:

* Làm sạch dữ liệu (Data Cleaning): Xử lý các giá trị thiếu, loại bỏ nhiễu, sửa các giá trị không nhất quán.
* Tích hợp dữ liệu (Data Integration): Kết hợp dữ liệu từ nhiều nguồn khác nhau.
* Chuyển dạng dữ liệu (Data Transformation): Chuẩn hóa dữ liệu, rời rạc hóa dữ liệu.
* Rút gọn dữ liệu (Data Reduction): Giảm kích thước dữ liệu bằng cách loại bỏ các thuộc tính không liên quan hoặc sử dụng các kỹ thuật tổng hợp.
* Rời rạc hóa dữ liệu (Data Discretization): Chuyển đổi dữ liệu số thành dữ liệu rời rạc (ví dụ: chia khoảng giá trị).

Do đó, đáp án a là đáp án chính xác nhất.

Câu 19:

Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34. Chia thành 3 thùng theo chiều sâu. Kết quả phương pháp chia thùng làm trơn theo biên là:

Lời giải:

Đáp án đúng: A

Để giải quyết bài toán này, ta cần thực hiện các bước sau:

1. Xác định kích thước các thùng: Vì có 12 giá trị và chia thành 3 thùng, mỗi thùng sẽ có 12/3 = 4 giá trị.

2. Phân chia dữ liệu vào các thùng:
- Thùng 1: 4, 8, 9, 15
- Thùng 2: 21, 21, 24, 25
- Thùng 3: 26, 28, 29, 34

3. Làm trơn theo biên (smoothing by bin boundaries): Giá trị trong mỗi thùng sẽ được thay thế bằng giá trị biên gần nhất của thùng đó.

- Thùng 1:
- 4 giữ nguyên.
- 8 gần 4 hơn 15, nên thay bằng 4.
- 9 gần 15 hơn 4, nên thay bằng 15.
- 15 giữ nguyên.
=> Thùng 1 sau khi làm trơn: 4, 4, 15, 15

- Thùng 2:
- 21 giữ nguyên.
- 21 giữ nguyên.
- 24 gần 21 hơn 25, nên thay bằng 21.
- 25 giữ nguyên.
=> Thùng 2 sau khi làm trơn: 21, 21, 21, 25.

- Thùng 3:
- 26 giữ nguyên.
- 28 gần 26 hơn 34, nên thay bằng 26.
- 29 gần 26 hơn 34, nên thay bằng 26.
- 34 giữ nguyên.
=> Thùng 3 sau khi làm trơn: 26, 26, 26, 34

Như vậy, đáp án đúng phải là: Bin 1: 4, 4, 15, 15; Bin 2: 21, 21, 21, 25; Bin 3: 26, 26, 26, 34.

Tuy nhiên, không có đáp án nào hoàn toàn trùng khớp với kết quả này. Đáp án gần đúng nhất là a. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34, mặc dù thùng 1 và thùng 2 chưa chính xác hoàn toàn sau khi làm trơn theo biên.

Câu 20:

Cho miền giá trị từ 12000 đến 98000, Sử dụng phương pháp Min-Max để chuẩn hóa về đoạn [0.0 ; 1.0]. Giá trị 73000 được chuẩn hóa là:

Lời giải: