Câu hỏi yêu cầu thực hiện ba phần tính toán thống kê dựa trên dữ liệu bán hàng của sản phẩm A tại một siêu thị B:
Phần a) Ước lượng doanh thu trung bình hàng tuần với độ tin cậy 95%:
1. Xác định loại dữ liệu: Dữ liệu là khối lượng bán theo khoảng (dữ liệu nhóm) và tần suất tương ứng. Để tính toán các giá trị thống kê, ta cần tìm điểm giữa của mỗi khoảng lớp.
* Khoảng 10-30: Điểm giữa = (10+30)/2 = 20
* Khoảng 30-40: Điểm giữa = (30+40)/2 = 35
* Khoảng 40-50: Điểm giữa = (40+50)/2 = 45
* Khoảng 50-60: Điểm giữa = (50+60)/2 = 55
* Khoảng 60-70: Điểm giữa = (60+70)/2 = 65
* Khoảng 70-80: Điểm giữa = (70+80)/2 = 75
* Khoảng 80-90: Điểm giữa = (80+90)/2 = 85
* Khoảng 90-100: Điểm giữa = (90+100)/2 = 95
* Khoảng 100-130: Điểm giữa = (100+130)/2 = 115
2. Tính trung bình mẫu (khối lượng bán trung bình hàng ngày):
* Tổng số ngày điều tra (N) = 4 + 8 + 30 + 45 + 25 + 20 + 15 + 10 + 3 = 160 ngày.
* Trung bình mẫu (x̄) = Σ(xᵢ * nᵢ) / N
= (20*4 + 35*8 + 45*30 + 55*45 + 65*25 + 75*20 + 85*15 + 95*10 + 115*3) / 160
= (80 + 280 + 1350 + 2475 + 1625 + 1500 + 1275 + 950 + 345) / 160
= 9880 / 160 = 61.75 kg/ngày.
3. Tính phương sai mẫu (s²) và độ lệch chuẩn mẫu (s):
* Phương sai mẫu hiệu chỉnh (s²) = [Σ(nᵢ * (xᵢ - x̄)²) ] / (N-1)
Hoặc sử dụng công thức tính nhanh: s² = [Σ(nᵢ * xᵢ²) - N * x̄²] / (N-1)
Σ(nᵢ * xᵢ²) = 4*20² + 8*35² + 30*45² + 45*55² + 25*65² + 20*75² + 15*85² + 10*95² + 3*115²
= 4*400 + 8*1225 + 30*2025 + 45*3025 + 25*4225 + 20*5625 + 15*7225 + 10*9025 + 3*13225
= 1600 + 9800 + 60750 + 136125 + 105625 + 112500 + 108375 + 90250 + 39675
= 664700
s² = (664700 - 160 * 61.75²) / (160 - 1)
s² = (664700 - 160 * 3813.0625) / 159
s² = (664700 - 610090) / 159
s² = 54610 / 159 ≈ 343.459
* Độ lệch chuẩn mẫu (s) = √s² ≈ √343.459 ≈ 18.533 kg/ngày.
4. Xây dựng khoảng tin cậy cho trung bình tổng thể (μ) của khối lượng bán hàng:
* Vì N lớn (160 > 30) và độ lệch chuẩn tổng thể không biết, ta sử dụng phân phối t. Tuy nhiên, với N lớn, phân phối t xấp xỉ phân phối chuẩn. Tuy nhiên, ta vẫn nên sử dụng t.
* Độ tin cậy 95% tương ứng với α = 0.05. Với N=160, bậc tự do df = N-1 = 159. Giá trị tα/2, df cho α/2 = 0.025 và df=159 gần với giá trị t cho ∞ bậc tự do (từ bảng t, t0.025, ∞ ≈ 1.96). Sử dụng t0.025, 159 ≈ 1.975 (tra bảng hoặc dùng phần mềm).
* Sai số chuẩn của trung bình mẫu (SE) = s / √N = 18.533 / √160 ≈ 18.533 / 12.649 ≈ 1.465 kg/ngày.
* Khoảng tin cậy cho μ: x̄ ± tα/2, N-1 * SE
61.75 ± 1.975 * 1.465
61.75 ± 2.892
[58.858, 64.642] kg/ngày.
5. Ước lượng doanh thu trung bình hàng tuần:
* Doanh thu trung bình hàng ngày = Trung bình mẫu khối lượng * Giá bán
Giá bán = 5000 đồng/kg.
* Khoảng tin cậy cho doanh thu trung bình hàng ngày:
[58.858 * 5000, 64.642 * 5000]
[294,290,000 đồng, 323,210,000 đồng].
* Doanh thu trung bình hàng tuần (ước lượng từ trung bình mẫu hàng ngày) = 61.75 kg/ngày * 5000 đồng/kg * 7 ngày/tuần
= 308.75 kg/tuần * 5000 đồng/kg = 1,543,750,000 đồng/tuần.
* Khoảng tin cậy cho doanh thu trung bình hàng tuần:
[294,290,000 * 7, 323,210,000 * 7]
[2,060,030,000 đồng, 2,262,470,000 đồng].
(Lưu ý: Có thể hiểu câu hỏi là ước lượng doanh thu trung bình của 160 ngày rồi nhân với 7/160 hoặc nhân trung bình 1 ngày với 7. Cách thứ hai phổ biến hơn khi tính trung bình tuần dựa trên trung bình ngày.)
Phần b) Kiểm định xem độ biến động (độ lệch chuẩn) ở siêu thị C có cao hơn ở siêu thị B không:
1. Thiết lập giả thuyết:
* Giả thuyết không H₀: Độ lệch chuẩn ở siêu thị B (σ_B) ≥ Độ lệch chuẩn ở siêu thị C (σ_C).
* Giả thuyết đối H₁: Độ lệch chuẩn ở siêu thị B (σ_B) < Độ lệch chuẩn ở siêu thị C (σ_C).
Hoặc viết theo phương sai: H₀: σ²_B ≥ σ²_C và H₁: σ²_B < σ²_C.
2. Dữ liệu:
* Độ lệch chuẩn ở siêu thị C (cho trước, là độ lệch chuẩn tổng thể của C): σ_C = 20 kg/ngày => Phương sai σ²_C = 20² = 400.
* Từ phần a), ta có độ lệch chuẩn mẫu của siêu thị B là s_B ≈ 18.533 kg/ngày => Phương sai mẫu s²_B ≈ 343.459.
* Kích thước mẫu N_B = 160.
* Mức ý nghĩa α = 5% = 0.05.
3. Chọn kiểm định: Kiểm định F cho hai phương sai hoặc kiểm định Chi-bình phương cho một phương sai (vì ta chỉ có dữ liệu từ siêu thị B và giả định về độ lệch chuẩn của siêu thị C).
Ở đây, ta sẽ dùng kiểm định Chi-bình phương cho phương sai của siêu thị B so với một giá trị giả định cho trước (phương sai của siêu thị C).
* Kiểm định H₀: σ²_B = 400 (hoặc σ²_B ≥ 400) so với H₁: σ²_B < 400.
* Hoặc H₀: σ²_C = 400 (độ lệch chuẩn của C bằng 400) so với H₁: σ²_C > 400 (độ biến động ở C cao hơn B, tức là độ biến động ở B thấp hơn C).
* Câu hỏi là: "có thể cho rằng độ biến động này [của siêu thị C] cao hơn độ biến động về khối lượng bán trong một ngày ở siêu thị B hay không?" Điều này tương đương với việc so sánh σ_C với σ_B.
* Giả thuyết là: H₀: σ_C ≤ σ_B và H₁: σ_C > σ_B.
* Với dữ liệu chỉ có từ siêu thị B (N=160, s²_B = 343.459) và thông tin về siêu thị C (σ_C = 20, σ²_C = 400).
* Ta kiểm định xem phương sai mẫu của B có đủ nhỏ hơn phương sai của C hay không.
* Kiểm định Chi-bình phương cho một phương sai: (N-1) * s²_B / σ²_C (với σ²_C là giá trị giả định theo H₀).
* Nếu H₀: σ_B = σ_C, thì ta so sánh s²_B với σ²_C = 400.
* Nếu H₁: σ_C > σ_B, thì ta đang xem xét liệu phương sai của B có nhỏ hơn đáng kể so với 400 hay không.
* Thống kê kiểm định: χ² = (N-1) * s²_B / σ²_H₀ (trong đó σ²_H₀ là giá trị phương sai dưới H₀).
* Ta muốn kiểm định liệu phương sai của B (s²_B ≈ 343.459) có thấp hơn phương sai của C (σ²_C = 400) hay không.
* Giả thuyết: H₀: σ²_B ≥ 400, H₁: σ²_B < 400.
* Thống kê kiểm định: χ² = (160-1) * 343.459 / 400 = 159 * 343.459 / 400 ≈ 136.65.
* Bậc tự do df = N-1 = 159.
* Với mức ý nghĩa α = 0.05 và kiểm định một phía (bên trái vì H₁: σ²_B < 400), ta tìm giá trị tới hạn χ²α, df = χ²0.05, 159. Tra bảng hoặc dùng phần mềm, giá trị này xấp xỉ 134.805.
* So sánh: Giá trị thống kê kiểm định (136.65) > Giá trị tới hạn (134.805).
* Kết luận: Do giá trị thống kê kiểm định nằm ở bên phải của vùng bác bỏ (vùng bác bỏ là các giá trị nhỏ hơn 134.805), ta không bác bỏ giả thuyết H₀. Điều này có nghĩa là không có đủ bằng chứng thống kê để kết luận rằng độ biến động ở siêu thị B thấp hơn độ biến động được giả định của siêu thị C (là 400).
* Nói cách khác, với mức ý nghĩa 5%, ta không thể khẳng định rằng độ biến động về khối lượng bán của siêu thị C (20 kg) cao hơn độ biến động của siêu thị B (ước tính ~18.53 kg).
* Diễn giải lại theo câu hỏi: "có thể cho rằng độ biến động này [ở C, 20kg] cao hơn độ biến động về khối lượng bán trong một ngày ở siêu thị B [~18.53kg] hay không?" Vì ta không bác bỏ H₀ (σ²_B ≥ 400), có nghĩa là phương sai của B có thể bằng hoặc lớn hơn phương sai của C. Do đó, ta không có đủ bằng chứng để nói rằng độ biến động ở C cao hơn ở B.
Phần c) Xác định số ngày cần điều tra thêm để ước lượng tỷ lệ ngày “không đạt chỉ tiêu”:
1. Thiết lập yêu cầu:
* Tỷ lệ ngày “không đạt chỉ tiêu” (p) cần được ước lượng.
* Độ chính xác mong muốn (sai số biên) = E = 0.05.
* Độ tin cậy = 95%, tương ứng với α = 0.05. Giá trị Zα/2 = Z0.025 ≈ 1.96.
2. Công thức tính kích thước mẫu cho tỷ lệ:
* n = (Zα/2² * p̂ * (1-p̂)) / E²
* Vì chưa có ước lượng ban đầu về tỷ lệ p̂, ta sử dụng trường hợp xấu nhất (worst-case scenario) để đảm bảo kích thước mẫu đủ lớn, đó là p̂ = 0.5.
* Khi p̂ = 0.5, thì p̂ * (1-p̂) = 0.5 * 0.5 = 0.25, đây là giá trị lớn nhất có thể.
3. Tính kích thước mẫu cần thiết (n_total):
* n_total = (1.96² * 0.5 * 0.5) / 0.05²
= (3.8416 * 0.25) / 0.0025
= 0.9604 / 0.0025
= 384.16.
* Do số ngày phải là số nguyên, ta làm tròn lên: n_total = 385 ngày.
4. Tính số ngày cần điều tra thêm:
* Số ngày đã điều tra ban đầu là N = 160 ngày.
* Trong 160 ngày này, có bao nhiêu ngày “không đạt chỉ tiêu”? Ngày “không đạt chỉ tiêu” là những ngày bán không quá 50 kg.
* Ta cần xem xét các khoảng lớp có điểm giữa ≤ 50.
* Khoảng 10-30 (điểm giữa 20): 4 ngày.
* Khoảng 30-40 (điểm giữa 35): 8 ngày.
* Khoảng 40-50 (điểm giữa 45): 30 ngày.
* Tổng số ngày đã biết có số kg bán ≤ 50 là: 4 + 8 + 30 = 42 ngày.
* Tuy nhiên, cách tính này chỉ đúng nếu ta có thể gán các ngày này cho một nhóm 'không đạt chỉ tiêu'. Dữ liệu là theo khoảng, nên 42 ngày này chắc chắn là những ngày không đạt chỉ tiêu.
* Ước lượng tỷ lệ ban đầu từ dữ liệu đã có: p̂_initial = 42 / 160 = 0.2625.
* Sử dụng p̂_initial = 0.2625 để tính kích thước mẫu chính xác hơn:
n_total = (1.96² * 0.2625 * (1-0.2625)) / 0.05²
n_total = (3.8416 * 0.2625 * 0.7375) / 0.0025
n_total = (3.8416 * 0.19359375) / 0.0025
n_total = 0.7440171875 / 0.0025
n_total ≈ 297.6
* Làm tròn lên: n_total = 298 ngày.
* Số ngày cần điều tra thêm = n_total - số ngày đã có đủ thông tin để tính p̂ ban đầu.
* Ở đây, N = 160 là tổng số ngày đã điều tra. Chúng ta đã có 42 ngày 'không đạt chỉ tiêu' và 118 ngày 'đạt chỉ tiêu' (hoặc hơn).
* Chúng ta đã có dữ liệu cho 160 ngày. Nếu p̂_initial = 0.2625 là đủ tin cậy, thì tổng số ngày cần là 298. Số ngày cần điều tra thêm là 298 - 160 = 138 ngày.
* Tuy nhiên, câu hỏi thường ngụ ý là tính kích thước mẫu tối thiểu cần thiết cho toàn bộ nghiên cứu, sau đó trừ đi những gì đã có. Nếu ta giả định 160 ngày là dữ liệu ban đầu và muốn bổ sung để đạt đủ kích thước mẫu thì ta sẽ lấy 298 - 160.
* Tuy nhiên, cũng có cách hiểu là ta chỉ cần bổ sung thêm số ngày cần thiết dựa trên p̂_initial. Tức là ta cần 298 ngày. Đã có 160 ngày. Vậy cần thêm 298 - 160 = 138 ngày.
* Một cách hiểu khác: ta đã có 42 ngày 'không đạt chỉ tiêu'. Ta cần tổng số ngày là 298. Vậy ta cần thêm 298 - 42 = 256 ngày nữa để có đủ số ngày 'không đạt chỉ tiêu' (0.2625*298 ≈ 77 ngày) và số ngày 'đạt chỉ tiêu'.
* Cách thông thường nhất khi hỏi "cần điều tra thêm bao nhiêu ngày nữa" là lấy kích thước mẫu cần thiết cho toàn bộ khảo sát (n_total) trừ đi số ngày đã khảo sát (N). Nếu p̂ đã ước tính được từ N, thì lấy n_total - N.
* n_total = 298 ngày. N = 160 ngày. Số ngày cần thêm = 298 - 160 = 138 ngày.
* Nếu sử dụng p̂ = 0.5 (trường hợp xấu nhất), n_total = 385 ngày. Số ngày cần thêm = 385 - 160 = 225 ngày.
* Với độ chính xác 0.05 và độ tin cậy 95%, ta cần n = 385 ngày nếu không có ước lượng ban đầu. Đã có 160 ngày, vậy cần thêm 385 - 160 = 225 ngày.
* Nếu dùng ước lượng p̂ = 0.2625, ta cần 298 ngày. Đã có 160 ngày, vậy cần thêm 298 - 160 = 138 ngày.
* Thông thường, khi đề bài cho dữ liệu ban đầu, ta nên dùng ước lượng từ dữ liệu đó. Vậy ta dùng n_total = 298.
* Số ngày cần điều tra thêm = 298 - 160 = 138 ngày.
Do câu hỏi không cung cấp các đáp án cụ thể để lựa chọn, tôi sẽ phân tích cách giải và đưa ra kết quả cho từng phần.
Tổng kết các kết quả tính toán:
a) Doanh thu trung bình hàng tuần (ước lượng): 1,543,750,000 đồng/tuần.
Khoảng tin cậy 95% cho doanh thu trung bình hàng tuần: [2,060,030,000 đồng, 2,262,470,000 đồng].
b) Với mức ý nghĩa 5%, không đủ bằng chứng để kết luận độ biến động ở siêu thị C (20 kg) cao hơn độ biến động ở siêu thị B (ước tính 18.53 kg).
c) Cần điều tra thêm 138 ngày nữa để ước lượng tỷ lệ ngày “không đạt chỉ tiêu” với độ chính xác 0,05 và độ tin cậy 95% (dựa trên ước lượng ban đầu từ dữ liệu có sẵn).
Hoặc cần điều tra thêm 225 ngày nếu dùng trường hợp xấu nhất (p=0.5).