Trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần tử x sẽ được gán vào cụm C sao cho:

Khoảng cách từ x đến tâm cụm C là nhỏ nhất

Khoảng cách từ x đến tâm cụm C là lớn nhất

Khoảng cách từ x đến tâm cụm C bằng 0

Khoảng cách từ x đến tâm cụm C bằng k

Trả lời:

Đáp án đúng: A

Trong thuật toán k-means, mục tiêu là phân các điểm dữ liệu vào k cụm sao cho tổng khoảng cách từ mỗi điểm đến tâm cụm mà nó thuộc về là nhỏ nhất. Vì vậy, mỗi phần tử x sẽ được gán vào cụm C sao cho khoảng cách từ x đến tâm cụm C là nhỏ nhất.

200+ câu hỏi trắc nghiệm Data mining có lời giải chi tiết - Phần 1

50 câu hỏi 60 phút

Bắt đầu thi

Câu hỏi liên quan

Câu 23:

Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân cụm k mean:

Lời giải:

Đáp án đúng: A

Thuật toán k-means là một thuật toán phân cụm phổ biến. Nó hoạt động bằng cách lặp đi lặp lại việc gán các điểm dữ liệu cho các cụm dựa trên khoảng cách của chúng đến các tâm cụm, sau đó tính toán lại các tâm cụm dựa trên các điểm dữ liệu được gán cho chúng.

* a. Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm: Đây là một phát biểu ĐÚNG. Kết quả của thuật toán k-means có thể khác nhau tùy thuộc vào thứ tự ban đầu của dữ liệu. Điều này là do việc khởi tạo ngẫu nhiên các tâm cụm ban đầu. Vì vậy, phát biểu này không sai.
* b. Cần phải xác định trước số cụm cần sinh ra: Đây là một phát biểu ĐÚNG. Thuật toán k-means yêu cầu người dùng phải chỉ định số lượng cụm (k) trước khi chạy thuật toán. Vì vậy, phát biểu này không sai.
* c. k-mean phù hợp với các cụm có dạng hình cầu: Đây là một phát biểu ĐÚNG. Thuật toán k-means hoạt động tốt nhất khi các cụm có dạng hình cầu và có kích thước tương tự nhau. Vì vậy, phát biểu này không sai.
* d. Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó: Đây là một phát biểu ĐÚNG. Sau khi các điểm dữ liệu đã được gán cho các cụm, các tâm cụm mới được tính toán bằng cách lấy trung bình của tất cả các điểm dữ liệu trong mỗi cụm. Vì vậy, phát biểu này không sai.

Vì tất cả các phát biểu trên đều đúng, nên câu hỏi này không có đáp án sai. Tuy nhiên, theo nhiều tài liệu và cách hiểu thông thường, thứ tự các phần tử đưa vào phân cụm có thể ảnh hưởng đến kết quả cuối cùng (mặc dù mức độ ảnh hưởng có thể khác nhau tùy thuộc vào dữ liệu và cách triển khai), trong khi các phát biểu còn lại là các điều kiện tiên quyết hoặc đặc tính cơ bản của thuật toán k-means. Do đó, nếu phải chọn một đáp án "sai" nhất, ta có thể chọn a, vì nó mang tính chất ảnh hưởng chứ không phải là một yêu cầu bắt buộc hoặc một tính chất luôn đúng của thuật toán.

Tuy nhiên, do câu hỏi yêu cầu chọn phát biểu SAI, và cả 4 phát biểu đều đúng, nên câu hỏi này không hợp lệ. Trong trường hợp bắt buộc phải chọn, ta chọn phương án a với lý do đã giải thích ở trên.

Câu 24:

Tiến trình Khai phá tri thức – KDD gồm các bước như sau:

Lời giải:

Đáp án đúng: A

Tiến trình Khai phá tri thức (Knowledge Discovery in Databases - KDD) là một quy trình lặp đi lặp lại, bao gồm các bước chính sau:

1. Lựa chọn dữ liệu (Data Selection): Xác định và chọn tập dữ liệu phù hợp từ các nguồn khác nhau để phân tích.
2. Tiền xử lý dữ liệu (Data Preprocessing): Làm sạch dữ liệu, xử lý các giá trị thiếu, loại bỏ nhiễu và chuẩn hóa dữ liệu để đảm bảo chất lượng dữ liệu đầu vào.
3. Chuyển dạng dữ liệu (Data Transformation): Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá, ví dụ như rời rạc hóa, tổng hợp, hoặc tạo các thuộc tính mới.
4. Khai phá dữ liệu (Data Mining): Áp dụng các thuật toán và kỹ thuật khai phá dữ liệu để tìm kiếm các mẫu, quy luật, hoặc tri thức ẩn trong dữ liệu.
5. Trình diễn/Đánh giá tri thức (Knowledge Evaluation/Presentation): Đánh giá các mẫu hoặc tri thức đã khai phá được, trực quan hóa và trình bày kết quả theo cách dễ hiểu và hữu ích cho người dùng.

Dựa vào mô tả trên, đáp án a là đáp án chính xác nhất.

Câu 25:

Một số chiến lược rút gọn dữ liệu là:

Lời giải:

Đáp án đúng: A

Chiến lược rút gọn dữ liệu nhằm mục đích giảm kích thước dữ liệu nhưng vẫn giữ được tính toàn vẹn và khả năng sử dụng thông tin quan trọng. Các phương pháp thường được sử dụng bao gồm:

* Tập hợp khối dữ liệu (Data Cube Aggregation): Tổng hợp dữ liệu để có cái nhìn tổng quan hơn.
* Giảm đa chiều (Dimensionality Reduction): Loại bỏ các thuộc tính không quan trọng hoặc ít ảnh hưởng đến kết quả.
* Nén dữ liệu (Data Compression): Sử dụng các thuật toán để giảm kích thước file dữ liệu.
* Giảm tính số hóa (Numerosity Reduction): Thay thế dữ liệu bằng các mô hình toán học hoặc biểu diễn đơn giản hơn.
* Rời rạc hóa và sinh cây khái niệm (Discretization and Concept Hierarchy Generation): Chuyển đổi dữ liệu liên tục thành các khoảng rời rạc và xây dựng các cấp bậc khái niệm để đơn giản hóa dữ liệu.

Do đó, đáp án a là phù hợp nhất vì nó bao gồm đầy đủ các chiến lược rút gọn dữ liệu quan trọng. Các đáp án còn lại đề cập đến các kỹ thuật khác không hoàn toàn thuộc về rút gọn dữ liệu hoặc không đầy đủ.

Câu 26:

Phát biểu nào đúng về Phương pháp phân tích thành phần chính (Principal Component Analysis-PCA:

Lời giải:

Đáp án đúng: A

PCA (Principal Component Analysis) là một phương pháp giảm chiều dữ liệu. Cho N vector dữ liệu k-chiều, PCA tìm c (<= k) vector trực giao tốt nhất (các thành phần chính) để biểu diễn dữ liệu. Khi đó, tập dữ liệu gốc được rút gọn thành N vector dữ liệu c chiều, tức là mỗi vector ban đầu được biểu diễn bởi c thành phần chính. Mỗi vector dữ liệu mới (c chiều) là tổ hợp tuyến tính của các vector thành phần chính. Các vector thành phần chính này được chọn sao cho chúng nắm bắt được phương sai lớn nhất của dữ liệu.

* Phương án a mô tả chính xác các đặc điểm này.
* Phương án b sai vì sử dụng cụm từ "vector đại diện" thay vì "vector trực giao tốt nhất".
* Phương án c sai vì tập dữ liệu gốc được rút gọn thành N vector dữ liệu *c* chiều chứ không phải *k* chiều.
* Phương án d sai vì tập dữ liệu gốc được rút gọn thành *N* vector dữ liệu *c* chiều, không phải *1* vector dữ liệu *c* chiều.

Câu 27:

Rời rạc hóa là:

Lời giải:

Đáp án đúng: A

Rời rạc hóa (Discretization) là quá trình chuyển đổi một thuộc tính liên tục thành một thuộc tính rời rạc. Điều này thường được thực hiện bằng cách chia miền giá trị của thuộc tính liên tục thành các khoảng hoặc đoạn (bins), và sau đó gán nhãn cho mỗi đoạn. Các nhãn này sau đó được sử dụng để thay thế các giá trị thực tế của thuộc tính. Điều này giúp đơn giản hóa dữ liệu và có thể cải thiện hiệu suất của một số thuật toán khai thác dữ liệu. Vì vậy, đáp án a là chính xác nhất.

Các đáp án khác không chính xác vì:
- b. Đưa dữ liệu về dạng số nhị phân: Đây là một dạng mã hóa dữ liệu, không phải là rời rạc hóa.
- c. Biểu diễn dữ liệu thành dạng dữ liệu không liên tục: Mặc dù rời rạc hóa tạo ra dữ liệu không liên tục, nhưng nó đặc biệt liên quan đến việc chuyển đổi từ dữ liệu liên tục sang không liên tục.
- d. Chuyển đổi dữ liệu sang dạng sóng điện từ: Không liên quan đến rời rạc hóa.

Câu 28:

Cho L là tập mục thường xuyên, S là tập con của L thì với mọi tập con S’ của S ta có:

Lời giải: