Độ phân biệt (độ lộn xộn) của kết luận C với thuộc tính A được tính theo công thức:
Trả lời:
Đáp án đúng: A
Độ phân biệt (Gain) hay còn gọi là Information Gain, đo lường sự giảm độ không chắc chắn về biến C khi biết giá trị của thuộc tính A. Công thức tính Gain(C, A) được định nghĩa là hiệu giữa entropy của C và entropy của C sau khi đã biết A. Như vậy công thức đúng là Gain(C,A) = Entropy(C) - Entropy(A).
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Câu hỏi yêu cầu tìm kết luận sai trong các lựa chọn đã cho.
* Phương án a: Thuật toán Quilan sử dụng độ lợi thông tin (Information Gain) để chọn thuộc tính làm gốc cây quyết định, không phải chọn ngẫu nhiên. Vì vậy, phương án a sai.
* Phương án b: Độ phân biệt (độ lộn xộn) cao tương ứng với Entropy cao, và ngược lại. Vì vậy, phương án b đúng.
* Phương án c: Thuật toán CLS không chọn ngẫu nhiên thuộc tính làm gốc cây quyết định. Vì vậy, phương án c sai.
* Phương án d: Entropy là một số nằm trong đoạn [0,1]. Vì vậy, phương án d đúng.
Vì câu hỏi yêu cầu chọn kết luận sai, nên đáp án là a và c. Tuy nhiên, theo khuôn dạng chỉ được chọn một đáp án, ta chọn a là đáp án sai rõ ràng và thường gặp hơn trong các tài liệu về cây quyết định.
* Phương án a: Thuật toán Quilan sử dụng độ lợi thông tin (Information Gain) để chọn thuộc tính làm gốc cây quyết định, không phải chọn ngẫu nhiên. Vì vậy, phương án a sai.
* Phương án b: Độ phân biệt (độ lộn xộn) cao tương ứng với Entropy cao, và ngược lại. Vì vậy, phương án b đúng.
* Phương án c: Thuật toán CLS không chọn ngẫu nhiên thuộc tính làm gốc cây quyết định. Vì vậy, phương án c sai.
* Phương án d: Entropy là một số nằm trong đoạn [0,1]. Vì vậy, phương án d đúng.
Vì câu hỏi yêu cầu chọn kết luận sai, nên đáp án là a và c. Tuy nhiên, theo khuôn dạng chỉ được chọn một đáp án, ta chọn a là đáp án sai rõ ràng và thường gặp hơn trong các tài liệu về cây quyết định.
Lời giải:
Đáp án đúng: A
Entropy, trong lý thuyết thông tin, là một đại lượng đo độ không chắc chắn hoặc độ ngẫu nhiên của một biến ngẫu nhiên. Entropy có giá trị không âm và có thể lớn hơn 1.
Phương án a. [0 ; 1] không đúng vì entropy có thể lớn hơn 1.
Phương án b. (0 ; 1) không đúng vì entropy có thể bằng 0 và lớn hơn 1.
Phương án c. Miền giá trị là tập số nguyên dương không đúng vì entropy có thể là số thực.
Phương án d. Miền giá trị là tập số thực dương là đáp án đúng. Entropy là một số thực không âm.
Phương án a. [0 ; 1] không đúng vì entropy có thể lớn hơn 1.
Phương án b. (0 ; 1) không đúng vì entropy có thể bằng 0 và lớn hơn 1.
Phương án c. Miền giá trị là tập số nguyên dương không đúng vì entropy có thể là số thực.
Phương án d. Miền giá trị là tập số thực dương là đáp án đúng. Entropy là một số thực không âm.
Lời giải:
Đáp án đúng: A
Thuật toán k-means là một thuật toán phân cụm dựa trên khoảng cách. Để giải bài toán này, chúng ta cần thực hiện các bước sau:
1. Khởi tạo: Chọn k tâm cụm ban đầu (trong trường hợp này, k=2). Vì không có thông tin về tâm cụm ban đầu, ta giả sử chọn ngẫu nhiên A(1, 1) và D(5, 4) làm tâm cụm ban đầu.
2. Gán điểm vào cụm: Tính khoảng cách Euclidean từ mỗi điểm đến các tâm cụm. Điểm nào gần tâm cụm nào hơn thì gán vào cụm đó.
* Khoảng cách từ B(2, 1) đến A(1, 1) là √((2-1)² + (1-1)²) = 1
* Khoảng cách từ B(2, 1) đến D(5, 4) là √((2-5)² + (1-4)²) = √(9+9) = √18 ≈ 4.24
=> B thuộc cụm C1={A}
* Khoảng cách từ C(4, 3) đến A(1, 1) là √((4-1)² + (3-1)²) = √(9+4) = √13 ≈ 3.61
* Khoảng cách từ C(4, 3) đến D(5, 4) là √((4-5)² + (3-4)²) = √(1+1) = √2 ≈ 1.41
=> C thuộc cụm C2={D}
* Khoảng cách từ E(1, 0) đến A(1, 1) là √((1-1)² + (0-1)²) = 1
* Khoảng cách từ E(1, 0) đến D(5, 4) là √((1-5)² + (0-4)²) = √(16+16) = √32 ≈ 5.66
=> E thuộc cụm C1={A, B}
Vậy ta có C1 = {A, B, E}, C2 = {C, D}.
3. Tính lại tâm cụm: Tính trung bình cộng tọa độ của các điểm trong mỗi cụm để cập nhật tâm cụm mới.
Với cách phân tích như trên, đáp án đúng là C1={A, B, E} ; C2={C, D}.
1. Khởi tạo: Chọn k tâm cụm ban đầu (trong trường hợp này, k=2). Vì không có thông tin về tâm cụm ban đầu, ta giả sử chọn ngẫu nhiên A(1, 1) và D(5, 4) làm tâm cụm ban đầu.
2. Gán điểm vào cụm: Tính khoảng cách Euclidean từ mỗi điểm đến các tâm cụm. Điểm nào gần tâm cụm nào hơn thì gán vào cụm đó.
* Khoảng cách từ B(2, 1) đến A(1, 1) là √((2-1)² + (1-1)²) = 1
* Khoảng cách từ B(2, 1) đến D(5, 4) là √((2-5)² + (1-4)²) = √(9+9) = √18 ≈ 4.24
=> B thuộc cụm C1={A}
* Khoảng cách từ C(4, 3) đến A(1, 1) là √((4-1)² + (3-1)²) = √(9+4) = √13 ≈ 3.61
* Khoảng cách từ C(4, 3) đến D(5, 4) là √((4-5)² + (3-4)²) = √(1+1) = √2 ≈ 1.41
=> C thuộc cụm C2={D}
* Khoảng cách từ E(1, 0) đến A(1, 1) là √((1-1)² + (0-1)²) = 1
* Khoảng cách từ E(1, 0) đến D(5, 4) là √((1-5)² + (0-4)²) = √(16+16) = √32 ≈ 5.66
=> E thuộc cụm C1={A, B}
Vậy ta có C1 = {A, B, E}, C2 = {C, D}.
3. Tính lại tâm cụm: Tính trung bình cộng tọa độ của các điểm trong mỗi cụm để cập nhật tâm cụm mới.
Với cách phân tích như trên, đáp án đúng là C1={A, B, E} ; C2={C, D}.
Lời giải:
Đáp án đúng: A
Câu hỏi này kiểm tra hiểu biết về các nguyên nhân dẫn đến sự bùng nổ dữ liệu trong những năm gần đây.
Phương án a là đáp án đúng nhất vì nó bao gồm các yếu tố quan trọng nhất thúc đẩy sự bùng nổ dữ liệu: sự phát triển mạnh mẽ của công nghệ phần cứng (khả năng lưu trữ và xử lý dữ liệu lớn), năng lực số hóa của con người ngày càng cao (tạo ra nhiều dữ liệu hơn thông qua các hoạt động trực tuyến), sự bùng nổ của công nghệ mạng (tạo điều kiện cho việc thu thập và chia sẻ dữ liệu dễ dàng hơn), và sự gia tăng của các tác nhân tạo mới dữ liệu (IoT, thiết bị di động,...).
Phương án b chỉ đề cập đến sự tiến bộ của khoa học kỹ thuật và nguồn nhân lực CNTT, nhưng không trực tiếp chỉ ra các yếu tố tạo ra dữ liệu.
Phương án c đề cập đến các loại dữ liệu cụ thể, nhưng không bao quát được nguyên nhân chung.
Phương án d chỉ tập trung vào quảng cáo và mạng xã hội, bỏ qua các nguồn dữ liệu quan trọng khác.
Phương án a là đáp án đúng nhất vì nó bao gồm các yếu tố quan trọng nhất thúc đẩy sự bùng nổ dữ liệu: sự phát triển mạnh mẽ của công nghệ phần cứng (khả năng lưu trữ và xử lý dữ liệu lớn), năng lực số hóa của con người ngày càng cao (tạo ra nhiều dữ liệu hơn thông qua các hoạt động trực tuyến), sự bùng nổ của công nghệ mạng (tạo điều kiện cho việc thu thập và chia sẻ dữ liệu dễ dàng hơn), và sự gia tăng của các tác nhân tạo mới dữ liệu (IoT, thiết bị di động,...).
Phương án b chỉ đề cập đến sự tiến bộ của khoa học kỹ thuật và nguồn nhân lực CNTT, nhưng không trực tiếp chỉ ra các yếu tố tạo ra dữ liệu.
Phương án c đề cập đến các loại dữ liệu cụ thể, nhưng không bao quát được nguyên nhân chung.
Phương án d chỉ tập trung vào quảng cáo và mạng xã hội, bỏ qua các nguồn dữ liệu quan trọng khác.
Lời giải:
Đáp án đúng: A
Phương pháp Xếp thùng (Binning) là một kỹ thuật tiền xử lý dữ liệu thường được sử dụng để làm mịn (smoothing) dữ liệu hoặc giảm nhiễu. Quá trình này bao gồm việc sắp xếp dữ liệu, sau đó chia chúng vào các "thùng" (bins). Các thùng này có thể có kích thước bằng nhau hoặc khác nhau, tùy thuộc vào yêu cầu của bài toán. Sau khi dữ liệu được chia vào các thùng, các phương pháp làm trơn (smoothing) như làm trơn theo trung bình (mean smoothing), làm trơn theo biên (boundary smoothing), hoặc làm trơn theo trung tuyến (median smoothing) sẽ được áp dụng trên các giá trị trong mỗi thùng để giảm sự biến động và làm nổi bật các xu hướng quan trọng.
Trong các lựa chọn được đưa ra:
- Lựa chọn a không chính xác vì nó chia đều dữ liệu vào các thùng sau khi sắp xếp, điều này không phải lúc nào cũng đúng trong phương pháp binning.
- Lựa chọn b không chính xác vì nó không sắp xếp dữ liệu trước khi chia vào các thùng, điều này là một bước quan trọng trong phương pháp binning.
- Lựa chọn c là chính xác nhất. Nó mô tả đúng quy trình của phương pháp Binning, bao gồm sắp xếp dữ liệu tăng dần, chia vào các thùng có kích thước tùy ý, và sau đó áp dụng các phương pháp làm trơn.
- Lựa chọn d không chính xác vì nó sắp xếp dữ liệu giảm dần và loại bỏ các thùng không cần thiết, điều này không phải là một phần của phương pháp Binning tiêu chuẩn.
Do đó, đáp án chính xác nhất là c.
Trong các lựa chọn được đưa ra:
- Lựa chọn a không chính xác vì nó chia đều dữ liệu vào các thùng sau khi sắp xếp, điều này không phải lúc nào cũng đúng trong phương pháp binning.
- Lựa chọn b không chính xác vì nó không sắp xếp dữ liệu trước khi chia vào các thùng, điều này là một bước quan trọng trong phương pháp binning.
- Lựa chọn c là chính xác nhất. Nó mô tả đúng quy trình của phương pháp Binning, bao gồm sắp xếp dữ liệu tăng dần, chia vào các thùng có kích thước tùy ý, và sau đó áp dụng các phương pháp làm trơn.
- Lựa chọn d không chính xác vì nó sắp xếp dữ liệu giảm dần và loại bỏ các thùng không cần thiết, điều này không phải là một phần của phương pháp Binning tiêu chuẩn.
Do đó, đáp án chính xác nhất là c.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng