Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp ‘Bỏ qua bản ghi có giá trị thiếu’ chỉ thích hợp khi:
Trả lời:
Đáp án đúng: A
Phương pháp 'Bỏ qua bản ghi có giá trị thiếu' chỉ thích hợp khi số lượng bản ghi bị thiếu chiếm tỷ lệ nhỏ so với tổng số bản ghi. Nếu tỷ lệ này lớn, việc loại bỏ chúng sẽ làm mất đi một lượng lớn thông tin, ảnh hưởng đến tính chính xác và độ tin cậy của kết quả phân tích hoặc mô hình.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Luật kết hợp A-->BC có nghĩa là khi có A thì có BC. Điều này cũng có nghĩa là khi có A thì có C. Vì vậy, luật A-->C chắc chắn thỏa mãn Min_Sup và Min_Conf vì nó là một hệ quả trực tiếp của luật A-->BC. Tuy nhiên, trong các đáp án không có đáp án A-->C. Xem xét đáp án a. AB-->C, vì luật A-->BC đã thỏa mãn Min_Sup và Min_Conf nên việc thêm B vào vế trái có thể làm giảm độ hỗ trợ và độ tin cậy, do đó không chắc chắn thỏa mãn. Xét đáp án b. A-->D, không có mối liên hệ nào với luật A-->BC nên không thể kết luận. Xét đáp án c. ABD-->C, tương tự như đáp án a, việc thêm BD vào vế trái có thể làm giảm độ hỗ trợ và độ tin cậy, do đó không chắc chắn thỏa mãn. Xét đáp án d. D-->C, không có mối liên hệ nào với luật A-->BC nên không thể kết luận. Vì vậy, không có đáp án nào chắc chắn thỏa mãn Min_Sup và Min_Conf mà không cần tính toán dựa trên luật A-->BC đã cho. Tuy nhiên, theo nguyên tắc Apriori thì nếu A --> BC là frequent thì A --> B và A --> C cũng là frequent. Do đó đáp án gần đúng nhất là A --> C nhưng không có trong các lựa chọn. Vì vậy, câu hỏi này không có đáp án đúng.
Lời giải:
Đáp án đúng: A
Luật kết hợp A → BC thỏa mãn Min_Sup và Min_Conf nghĩa là support(A∪B∪C) ≥ Min_Sup và confidence(A → BC) = support(A∪B∪C) / support(A) ≥ Min_Conf.
Ta cần chứng minh AB → C có thỏa mãn Min_Sup và Min_Conf không.
* Độ hỗ trợ (Support): support(AB → C) = support(A∪B∪C). Vì A → BC thỏa mãn độ hỗ trợ tối thiểu, nên support(A∪B∪C) ≥ Min_Sup. Do đó, AB → C cũng thỏa mãn độ hỗ trợ tối thiểu.
* Độ tin cậy (Confidence): confidence(AB → C) = support(A∪B∪C) / support(A∪B). Ta cần so sánh confidence(AB → C) với confidence(A → BC).
confidence(A → BC) = support(A∪B∪C) / support(A).
Vì support(A) ≥ support(A∪B) (do support(A∪B) = support(A) + support(B) - support(A∩B) và support(B) - support(A∩B) ≥ 0 ), nên support(A∪B∪C) / support(A∪B) >= support(A∪B∪C) / support(A).
Điều này có nghĩa là confidence(AB → C) >= confidence(A → BC).
Vậy AB → C thỏa mãn độ tin cậy tối thiểu vì confidence(AB → C) >= confidence(A → BC) >= Min_Conf.
Ta cần chứng minh AB → C có thỏa mãn Min_Sup và Min_Conf không.
* Độ hỗ trợ (Support): support(AB → C) = support(A∪B∪C). Vì A → BC thỏa mãn độ hỗ trợ tối thiểu, nên support(A∪B∪C) ≥ Min_Sup. Do đó, AB → C cũng thỏa mãn độ hỗ trợ tối thiểu.
* Độ tin cậy (Confidence): confidence(AB → C) = support(A∪B∪C) / support(A∪B). Ta cần so sánh confidence(AB → C) với confidence(A → BC).
confidence(A → BC) = support(A∪B∪C) / support(A).
Vì support(A) ≥ support(A∪B) (do support(A∪B) = support(A) + support(B) - support(A∩B) và support(B) - support(A∩B) ≥ 0 ), nên support(A∪B∪C) / support(A∪B) >= support(A∪B∪C) / support(A).
Điều này có nghĩa là confidence(AB → C) >= confidence(A → BC).
Vậy AB → C thỏa mãn độ tin cậy tối thiểu vì confidence(AB → C) >= confidence(A → BC) >= Min_Conf.
Lời giải:
Đáp án đúng: A
Ta có công thức tính Confidence(X --> Y) = P(X U Y) / P(X)
Xét phương án a: Confidence(AC --> B) >= Confidence(A --> BC)
Confidence(AC --> B) = P(A U B U C) / P(A U C)
Confidence(A --> BC) = P(A U B U C) / P(A)
Vì P(A U C) >= P(A) => Confidence(AC --> B) <= Confidence(A --> BC). Vậy phương án a sai.
Xét phương án b: Confidence(AC --> B) : Confidence(A --> BC)
Đây không phải là một biểu thức so sánh hợp lệ.
Xét phương án c: Confidence(A --> AB) >= Confidence(AC --> C)
Confidence(A --> AB) = P(A U B) / P(A)
Confidence(AC --> C) = P(A U C) / P(A U C) = 1
Ta thấy Confidence(A --> AB) có thể lớn hơn hoặc nhỏ hơn 1 tùy vào P(A U B) và P(A).
Ví dụ, nếu A và B độc lập và P(B) lớn, Confidence(A --> AB) có thể nhỏ hơn 1. Ngược lại, nếu B là tập con của A thì P(A U B) = P(A) và Confidence(A --> AB) = 1.
Tuy nhiên, Confidence(A --> AB) = P(A ∩ B) / P(A). Vì P(A ∩ B) <= P(A), suy ra Confidence(A --> AB) <= 1. Do đó Confidence(A --> AB) không lớn hơn hoặc bằng Confidence(AC --> C) một cách tổng quát. Phương án c sai.
Xét phương án d: Confidence(AB --> C) >= Confidence(AC --> B)
Confidence(AB --> C) = P(A U B U C) / P(A U B)
Confidence(AC --> B) = P(A U B U C) / P(A U C)
Nếu P(A U B) <= P(A U C) thì Confidence(AB --> C) >= Confidence(AC --> B). Điều này không phải lúc nào cũng đúng.
Tuy nhiên, ta có thể sửa lại phương án a thành Confidence(AC --> B) <= Confidence(A --> BC) thì nó đúng. Nhưng vì câu hỏi không cho phép sửa, ta xét thêm một cách tiếp cận khác cho phương án a.
Confidence(AC --> B) = P(ABC) / P(AC)
Confidence(A --> BC) = P(ABC) / P(A)
Vì P(AC) <= P(A) => Confidence(AC --> B) >= Confidence(A --> BC) là sai, phải là nhỏ hơn hoặc bằng.
Không có đáp án nào đúng trong các phương án trên.
Xét phương án a: Confidence(AC --> B) >= Confidence(A --> BC)
Confidence(AC --> B) = P(A U B U C) / P(A U C)
Confidence(A --> BC) = P(A U B U C) / P(A)
Vì P(A U C) >= P(A) => Confidence(AC --> B) <= Confidence(A --> BC). Vậy phương án a sai.
Xét phương án b: Confidence(AC --> B) : Confidence(A --> BC)
Đây không phải là một biểu thức so sánh hợp lệ.
Xét phương án c: Confidence(A --> AB) >= Confidence(AC --> C)
Confidence(A --> AB) = P(A U B) / P(A)
Confidence(AC --> C) = P(A U C) / P(A U C) = 1
Ta thấy Confidence(A --> AB) có thể lớn hơn hoặc nhỏ hơn 1 tùy vào P(A U B) và P(A).
Ví dụ, nếu A và B độc lập và P(B) lớn, Confidence(A --> AB) có thể nhỏ hơn 1. Ngược lại, nếu B là tập con của A thì P(A U B) = P(A) và Confidence(A --> AB) = 1.
Tuy nhiên, Confidence(A --> AB) = P(A ∩ B) / P(A). Vì P(A ∩ B) <= P(A), suy ra Confidence(A --> AB) <= 1. Do đó Confidence(A --> AB) không lớn hơn hoặc bằng Confidence(AC --> C) một cách tổng quát. Phương án c sai.
Xét phương án d: Confidence(AB --> C) >= Confidence(AC --> B)
Confidence(AB --> C) = P(A U B U C) / P(A U B)
Confidence(AC --> B) = P(A U B U C) / P(A U C)
Nếu P(A U B) <= P(A U C) thì Confidence(AB --> C) >= Confidence(AC --> B). Điều này không phải lúc nào cũng đúng.
Tuy nhiên, ta có thể sửa lại phương án a thành Confidence(AC --> B) <= Confidence(A --> BC) thì nó đúng. Nhưng vì câu hỏi không cho phép sửa, ta xét thêm một cách tiếp cận khác cho phương án a.
Confidence(AC --> B) = P(ABC) / P(AC)
Confidence(A --> BC) = P(ABC) / P(A)
Vì P(AC) <= P(A) => Confidence(AC --> B) >= Confidence(A --> BC) là sai, phải là nhỏ hơn hoặc bằng.
Không có đáp án nào đúng trong các phương án trên.
Lời giải:
Đáp án đúng: A
Thuật toán ID3 và C4.5 (là tiền thân của Quilan) sử dụng Information Gain (độ lợi thông tin) để chọn thuộc tính tốt nhất để phân nhánh tại mỗi bước. Information Gain dựa trên Entropy. Thuộc tính nào có Information Gain cao nhất (tức là giảm Entropy nhiều nhất) sẽ được chọn. Như vậy, ta chọn thuộc tính có độ phân biệt cao nhất.
Lời giải:
Đáp án đúng: A
Độ đo khoảng cách trong không gian Ơclit (Euclidean space) được sử dụng để tính toán sự tương đồng giữa các đối tượng. Khoảng cách càng nhỏ, mức độ tương đồng càng cao. Do đó, nó là một độ đo tương tự.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng