Làm sạch dữ liệu (Data Cleaning) là quá trình:
Trả lời:
Đáp án đúng: A
Làm sạch dữ liệu (Data Cleaning) là quá trình loại bỏ nhiễu (ví dụ: dữ liệu sai, không đầy đủ, không chính xác) và dữ liệu không nhất quán (ví dụ: định dạng khác nhau, giá trị trùng lặp) khỏi tập dữ liệu. Mục tiêu là cải thiện chất lượng dữ liệu để có thể sử dụng cho các phân tích và mô hình hóa chính xác hơn. Các phương án còn lại mô tả các hoạt động khác liên quan đến dữ liệu, nhưng không phải là làm sạch dữ liệu.
Câu hỏi liên quan
Lời giải:
Đáp án đúng: A
Khai phá dữ liệu (Data Mining) là quá trình tìm kiếm và khám phá các mẫu thông tin ẩn, hữu ích từ một lượng lớn dữ liệu. Các ứng dụng của khai phá dữ liệu rất đa dạng và phong phú, bao gồm:
* Phân tích và quản lý thị trường: Giúp doanh nghiệp hiểu rõ hơn về khách hàng, xu hướng thị trường, và đối thủ cạnh tranh.
* Quản lý và phân tích rủi ro: Hỗ trợ các tổ chức tài chính và bảo hiểm trong việc đánh giá và quản lý rủi ro tín dụng, rủi ro hoạt động, và rủi ro thị trường.
* Quản lý và phân tích các sai hỏng: Giúp các nhà sản xuất xác định nguyên nhân gốc rễ của các sai hỏng sản phẩm và cải thiện chất lượng.
* Khai thác Web: Thu thập và phân tích dữ liệu từ web để tìm kiếm thông tin, theo dõi xu hướng, và cá nhân hóa trải nghiệm người dùng.
* Khai thác văn bản (text mining): Phân tích các văn bản để tìm kiếm thông tin, trích xuất tri thức, và phân loại tài liệu.
Các phương án còn lại có thể đúng trong một số trường hợp cụ thể, nhưng không bao quát được phạm vi ứng dụng rộng lớn của khai phá dữ liệu như phương án a.
* Phân tích và quản lý thị trường: Giúp doanh nghiệp hiểu rõ hơn về khách hàng, xu hướng thị trường, và đối thủ cạnh tranh.
* Quản lý và phân tích rủi ro: Hỗ trợ các tổ chức tài chính và bảo hiểm trong việc đánh giá và quản lý rủi ro tín dụng, rủi ro hoạt động, và rủi ro thị trường.
* Quản lý và phân tích các sai hỏng: Giúp các nhà sản xuất xác định nguyên nhân gốc rễ của các sai hỏng sản phẩm và cải thiện chất lượng.
* Khai thác Web: Thu thập và phân tích dữ liệu từ web để tìm kiếm thông tin, theo dõi xu hướng, và cá nhân hóa trải nghiệm người dùng.
* Khai thác văn bản (text mining): Phân tích các văn bản để tìm kiếm thông tin, trích xuất tri thức, và phân loại tài liệu.
Các phương án còn lại có thể đúng trong một số trường hợp cụ thể, nhưng không bao quát được phạm vi ứng dụng rộng lớn của khai phá dữ liệu như phương án a.
Lời giải:
Đáp án đúng: A
Thuật ngữ Big Data dùng để chỉ các tập dữ liệu có kích thước rất lớn và độ phức tạp cao, vượt quá khả năng xử lý của các công cụ và kỹ thuật xử lý dữ liệu truyền thống. Do đó, đáp án a là chính xác nhất vì nó bao hàm cả hai yếu tố quan trọng là kích thước lớn và độ phức tạp, gây khó khăn cho việc xử lý bằng các phương pháp thông thường. Các đáp án còn lại chỉ đề cập đến một phần của định nghĩa Big Data, chưa đầy đủ.
Lời giải:
Đáp án đúng: A
Bioinformatics là một lĩnh vực liên ngành phát triển các phương pháp và công cụ phần mềm để hiểu dữ liệu sinh học. Nó kết hợp khoa học máy tính, thống kê, toán học và kỹ thuật để phân tích và diễn giải dữ liệu sinh học. Mục tiêu cuối cùng của tin sinh học là có được sự hiểu biết mới về sinh học và phát triển các ứng dụng trong y học, nông nghiệp và các lĩnh vực khác. Do đó, đáp án a chính xác nhất vì nó mô tả đúng bản chất của Bioinformatics là sử dụng các phương pháp của khoa học tính toán để giải quyết các bài toán sinh học.
Lời giải:
Đáp án đúng: A
Đáp án đúng là a. Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD.
Giải thích:
- Data Mining (Khai phá dữ liệu) là một giai đoạn trong quy trình Khám phá Tri thức từ Dữ liệu (Knowledge Discovery in Databases - KDD). Quy trình KDD bao gồm các bước: làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), lựa chọn dữ liệu (data selection), chuyển đổi dữ liệu (data transformation), khai phá dữ liệu (data mining), đánh giá mẫu (pattern evaluation), và biểu diễn tri thức (knowledge representation). Data Mining là bước sử dụng các thuật toán để tìm ra các mẫu, quy luật ẩn chứa trong dữ liệu.
- b sai vì Tiền xử lí dữ liệu là quá trình làm sạch, chuyển đổi và tích hợp dữ liệu, không chỉ là chọn ra các đặc trưng tiêu biểu.
- c sai vì không phải mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google. Nhiều dữ liệu được lưu trữ trong các cơ sở dữ liệu riêng hoặc ở các định dạng không thể index bởi các công cụ tìm kiếm thông thường.
- d sai vì Data Mining là một lĩnh vực khoa học dữ liệu, không phải là một công cụ giúp các lập trình viên tìm kiếm thông tin dễ dàng hơn.
Giải thích:
- Data Mining (Khai phá dữ liệu) là một giai đoạn trong quy trình Khám phá Tri thức từ Dữ liệu (Knowledge Discovery in Databases - KDD). Quy trình KDD bao gồm các bước: làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), lựa chọn dữ liệu (data selection), chuyển đổi dữ liệu (data transformation), khai phá dữ liệu (data mining), đánh giá mẫu (pattern evaluation), và biểu diễn tri thức (knowledge representation). Data Mining là bước sử dụng các thuật toán để tìm ra các mẫu, quy luật ẩn chứa trong dữ liệu.
- b sai vì Tiền xử lí dữ liệu là quá trình làm sạch, chuyển đổi và tích hợp dữ liệu, không chỉ là chọn ra các đặc trưng tiêu biểu.
- c sai vì không phải mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google. Nhiều dữ liệu được lưu trữ trong các cơ sở dữ liệu riêng hoặc ở các định dạng không thể index bởi các công cụ tìm kiếm thông thường.
- d sai vì Data Mining là một lĩnh vực khoa học dữ liệu, không phải là một công cụ giúp các lập trình viên tìm kiếm thông tin dễ dàng hơn.
Lời giải:
Đáp án đúng: A
Làm sạch dữ liệu (data cleaning) là quá trình phát hiện và sửa chữa (hoặc loại bỏ) các dữ liệu sai lệch, không chính xác, không đầy đủ, không liên quan và trùng lặp trong một tập dữ liệu. Mục tiêu của quá trình làm sạch dữ liệu là cải thiện chất lượng dữ liệu để có thể sử dụng dữ liệu đó một cách hiệu quả cho các phân tích, mô hình hóa và ra quyết định. Các công việc chính trong làm sạch dữ liệu bao gồm:
* Xử lý giá trị thiếu: Điền các giá trị còn thiếu bằng các phương pháp phù hợp (ví dụ: sử dụng giá trị trung bình, giá trị phổ biến nhất, hoặc các phương pháp phức tạp hơn).
* Xử lý dữ liệu nhiễu:
* Định danh ngoại lai (outlier): Xác định và xử lý các giá trị nằm ngoài phạm vi bình thường.
* Làm trơn dữ liệu: Sử dụng các kỹ thuật như binning (phân nhóm), regression (hồi quy) hoặc clustering (phân cụm) để giảm nhiễu.
* Chỉnh sửa dữ liệu không nhất quán: Sửa chữa các dữ liệu mâu thuẫn hoặc không tuân thủ các quy tắc.
* Giải quyết tính dư thừa sau tích hợp dữ liệu: Loại bỏ các bản ghi trùng lặp hoặc các thuộc tính dư thừa sau khi tích hợp dữ liệu từ nhiều nguồn.
Với các phân tích trên, đáp án a là đáp án chính xác nhất.
Các đáp án còn lại không đúng vì:
* Đáp án b: "Làm trơn theo biên, phương pháp đóng thùng" chỉ là một phần của "làm trơn dữ liệu" nói chung.
* Đáp án c và d: Phân cụm, phân lớp, hồi quy, tìm luật kết hợp, tìm kiếm đặc trưng là các bước thuộc khai phá dữ liệu, không phải làm sạch dữ liệu.
* Xử lý giá trị thiếu: Điền các giá trị còn thiếu bằng các phương pháp phù hợp (ví dụ: sử dụng giá trị trung bình, giá trị phổ biến nhất, hoặc các phương pháp phức tạp hơn).
* Xử lý dữ liệu nhiễu:
* Định danh ngoại lai (outlier): Xác định và xử lý các giá trị nằm ngoài phạm vi bình thường.
* Làm trơn dữ liệu: Sử dụng các kỹ thuật như binning (phân nhóm), regression (hồi quy) hoặc clustering (phân cụm) để giảm nhiễu.
* Chỉnh sửa dữ liệu không nhất quán: Sửa chữa các dữ liệu mâu thuẫn hoặc không tuân thủ các quy tắc.
* Giải quyết tính dư thừa sau tích hợp dữ liệu: Loại bỏ các bản ghi trùng lặp hoặc các thuộc tính dư thừa sau khi tích hợp dữ liệu từ nhiều nguồn.
Với các phân tích trên, đáp án a là đáp án chính xác nhất.
Các đáp án còn lại không đúng vì:
* Đáp án b: "Làm trơn theo biên, phương pháp đóng thùng" chỉ là một phần của "làm trơn dữ liệu" nói chung.
* Đáp án c và d: Phân cụm, phân lớp, hồi quy, tìm luật kết hợp, tìm kiếm đặc trưng là các bước thuộc khai phá dữ liệu, không phải làm sạch dữ liệu.
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP
Lời giải:
Bạn cần đăng ký gói VIP để làm bài, xem đáp án và lời giải chi tiết không giới hạn. Nâng cấp VIP

FORM.08: Bộ 130+ Biểu Mẫu Thống Kê Trong Doanh Nghiệp
136 tài liệu563 lượt tải

FORM.07: Bộ 125+ Biểu Mẫu Báo Cáo Trong Doanh Nghiệp
125 tài liệu585 lượt tải

FORM.06: Bộ 320+ Biểu Mẫu Hành Chính Thông Dụng
325 tài liệu608 lượt tải

FORM.05: Bộ 330+ Biểu Mẫu Thuế - Kê Khai Thuế Mới Nhất
331 tài liệu1010 lượt tải

FORM.04: Bộ 240+ Biểu Mẫu Chứng Từ Kế Toán Thông Dụng
246 tài liệu802 lượt tải

CEO.22: Bộ Tài Liệu Quy Trình Kiểm Toán, Kiểm Soát Nội Bộ Doanh Nghiệp
138 tài liệu417 lượt tải
ĐĂNG KÝ GÓI THI VIP
- Truy cập hơn 100K đề thi thử và chính thức các năm
- 2M câu hỏi theo các mức độ: Nhận biết – Thông hiểu – Vận dụng
- Học nhanh với 10K Flashcard Tiếng Anh theo bộ sách và chủ đề
- Đầy đủ: Mầm non – Phổ thông (K12) – Đại học – Người đi làm
- Tải toàn bộ tài liệu trên TaiLieu.VN
- Loại bỏ quảng cáo để tăng khả năng tập trung ôn luyện
- Tặng 15 ngày khi đăng ký gói 3 tháng, 30 ngày với gói 6 tháng và 60 ngày với gói 12 tháng.
77.000 đ/ tháng