Mục đích của lệnh sau đây là gì:
(trainingData, testData) = dataset.randomSplit([0.8, 0.2], seed=100)
Trả lời:
Đáp án đúng: A
Lệnh `dataset.randomSplit([0.8, 0.2], seed=100)` được sử dụng để chia một tập dữ liệu (`dataset`) thành hai phần: dữ liệu huấn luyện (`trainingData`) và dữ liệu kiểm tra (`testData`).
- `[0.8, 0.2]` chỉ định tỷ lệ phần trăm của mỗi phần. Trong trường hợp này, 80% dữ liệu sẽ được sử dụng cho huấn luyện (0.8) và 20% còn lại cho kiểm tra (0.2).
- `seed=100` đảm bảo rằng việc chia dữ liệu là ngẫu nhiên nhưng có thể tái tạo được. Sử dụng cùng một giá trị `seed` sẽ luôn tạo ra cùng một kết quả chia dữ liệu, điều này hữu ích cho việc gỡ lỗi và so sánh các mô hình.
Vì vậy, mục đích chính của lệnh này là chia dữ liệu thành hai tập con cho mục đích huấn luyện và đánh giá mô hình học máy.