Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là:
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Confidence(XY) = Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗ trợ Y
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Confidence(XY) = Số lượng giao dịch hỗ trợ cả X và Y / N
Đáp án đúng: A
Câu hỏi liên quan
Phương án A chính xác vì nó phản ánh đúng định nghĩa về độ hỗ trợ. Các phương án còn lại đưa ra các tỷ lệ không chính xác hoặc không liên quan đến định nghĩa chuẩn của độ hỗ trợ.
Luật kết hợp XY được chọn nếu độ hỗ trợ (Support) của tập mục XY lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu (Min_Supp) và độ tin cậy (Confidence) của luật XY lớn hơn hoặc bằng ngưỡng tin cậy tối thiểu (Min_Conf). Điều này đảm bảo rằng luật được tìm thấy là phổ biến trong cơ sở dữ liệu và có độ tin cậy đủ cao.
Giả sử bảng giao dịch có các giao dịch chứa A như sau:
* Giao dịch 1: {C, A, F} - Tiền tố của A là C, F.
* Giao dịch 2: {C, B, A, D} - Tiền tố của A là C, B.
* Giao dịch 3: {A, C} - Tiền tố của A là C.
Sau khi đếm số lần xuất hiện của mỗi tiền tố, ta có:
* C xuất hiện 3 lần (từ Giao dịch 1, 2, 3).
* F xuất hiện 1 lần (từ Giao dịch 1).
* B xuất hiện 1 lần (từ Giao dịch 2).
Như vậy cây điều kiện FP của A sẽ là cây có nút gốc là null (hoặc p), và từ nút gốc này có các nhánh tới các tiền tố xuất hiện cùng với A. Ở đây, C xuất hiện nhiều nhất (3 lần), F xuất hiện 1 lần và B xuất hiện 1 lần. Tuy nhiên, theo các đáp án đưa ra, có vẻ như ta chỉ quan tâm đến node C. Trong trường hợp này, ta chỉ xét C. Cây điều kiện FP của A có dạng {C:3} | p.
Tuy nhiên, không có đáp án nào hoàn toàn chính xác. Đáp án gần đúng nhất là B. {CF:3}| p, nhưng cần lưu ý là F chỉ xuất hiện 1 lần, không phải 3 lần. Do đó, câu trả lời chính xác nhất, dựa trên các lựa chọn, là C. {C:4}| p, đây có thể là lỗi sai sót của người ra đề. Nếu C xuất hiện 4 lần sẽ đúng hơn, nhưng dữ liệu không cung cấp thông tin đó.
Vì không có đáp án chính xác hoàn toàn, ta chọn đáp án gần đúng nhất và hợp lý nhất trong các lựa chọn đã cho, sau khi xem xét có vẻ như dữ liệu gốc để xây dựng các đáp án đã bị sai sót.
Tuy nhiên, dữ liệu không cho thấy C xuất hiện 4 lần. Vì vậy, với dữ liệu hiện có và các đáp án cho trước, không có đáp án nào là hoàn toàn chính xác. Dựa trên các tiền tố của A, đáp án chính xác nhất phải là một cây chứa các nút C, F, B với tần số tương ứng của chúng. Do đó, đáp án D có vẻ hợp lý nhất.
Trong trường hợp này, đáp án D có vẻ hợp lý nhất, cây điều kiện có thể rỗng nếu như không có giao dịch nào chứa A, hoặc nếu sau khi xử lý, không có tiền tố nào còn lại thỏa mãn ngưỡng tối thiểu.
Nhưng vì có giao dịch chứa A nên cây không thể rỗng. Vậy đáp án đúng nhất trong trường hợp này là C. {C:4}| p , vì không có đáp án chính xác hơn. Tuy nhiên cần lưu ý rằng đây là một đáp án không chính xác tuyệt đối, vì C chỉ xuất hiện 3 lần theo như phân tích ở trên. Đáp án này có thể là do sai sót từ phía người ra đề hoặc do thông tin dữ liệu bị thiếu.
Vì vậy, xét các yếu tố, và giả sử có sai sót trong đề, ta chọn đáp án C.
Chúng ta cần xem xét luật AB --> C. Để luật này thỏa mãn Min_Sup và Min_Conf, cần có support(AB U C) >= Min_Sup và confidence(AB --> C) = support(AB U C) / support(AB) >= Min_Conf.
Vì A --> BC thỏa mãn Min_Sup, ta biết support(A U BC) >= Min_Sup. Vì AB U C = A U BC (vì phép hợp là giao hoán và kết hợp), suy ra support(AB U C) = support(A U BC) >= Min_Sup. Vậy AB --> C thỏa mãn điều kiện về độ hỗ trợ tối thiểu.
Bây giờ, xét về độ tin cậy:
confidence(AB --> C) = support(AB U C) / support(AB)
confidence(A --> BC) = support(A U BC) / support(A)
Vì support(AB U C) = support(A U BC) nên ta có thể viết:
confidence(AB --> C) = support(A U BC) / support(AB)
confidence(A --> BC) = support(A U BC) / support(A)
Ta thấy rằng mẫu số của confidence(AB --> C) là support(AB) và mẫu số của confidence(A --> BC) là support(A).
Vì B là một item, nên support(AB) <= support(A). Do đó, support(A U BC) / support(AB) >= support(A U BC) / support(A), có nghĩa là confidence(AB --> C) >= confidence(A --> BC).
Vậy đáp án đúng là A.
Trong trường hợp này, ta có các tập mục 2-item thường xuyên: {A, B}, {A, C}, {B, D}.
* Ghép {A, B} và {A, C} ta được {A, B, C}.
* Ghép {A, B} và {B, D} ta được {A, B, D}.
* Ghép {A, C} và {B, D} không tạo ra ứng viên 3-item hợp lệ vì chúng không có item chung.
Vì vậy, các ứng viên 3-item được sinh ra là {A, B, C} và {A, B, D}.
Phương án C không đúng vì {B, C, D} không thể được tạo thành từ các tập 2-item đã cho bằng phép ghép Apriori.
Phương án D không đúng vì {C, B, D} và {B, C, D} là tương đương.
Phương án B không đúng vì {A, B, C, D} không thể được tạo thành từ các tập 2-item đã cho bằng phép ghép Apriori.

Bộ Đồ Án Tốt Nghiệp Ngành Trí Tuệ Nhân Tạo Và Học Máy

Bộ 120+ Đồ Án Tốt Nghiệp Ngành Hệ Thống Thông Tin

Bộ Đồ Án Tốt Nghiệp Ngành Mạng Máy Tính Và Truyền Thông

Bộ Luận Văn Tốt Nghiệp Ngành Kiểm Toán

Bộ 370+ Luận Văn Tốt Nghiệp Ngành Kế Toán Doanh Nghiệp

Bộ Luận Văn Tốt Nghiệp Ngành Quản Trị Thương Hiệu
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.