PHN 2 THNG K Thng k l khoa
- Slides: 74
PHẦN 2 THỐNG KÊ Thống kê là khoa học về các phương pháp thu thập, tổ chức, trình bày, phân tích và xử lý số liệu. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 1
Ví dụ 1. Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ? 2. Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày? 3. Phụ nữ có xu hướng khóc nhiều hơn đàn ông? 4. Số thẻ tín dụng của sinh viên lớp này là thông thường là bao nhiêu? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 2
Ví dụ mở đầu • Trung bình xe của bạn đi được bao nhiêu km trên 1 lít xăng? • Sinh viên A: • Khoảng 40 km. Ta có ước lượng điểm • Từ 35 - 45 km. Ta có ước lượng khoảng Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 3
Tổng thể và Mẫu Tổng thể (population) Mẫu (Sample) Tham số (parameter) Thống kê (statistic) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 4
Bài tập Hãy mô tả tổng thể và mẫu tương ứng với các câu hỏi khảo sát sau: • Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ? • Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày? • Phụ nữ có xu hướng khóc nhiều hơn đàn ông? • Số thẻ ATM của sinh viên lớp này là thông thường là bao nhiêu? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 5
Tổng thể và Mẫu Ta không nghiên cứu được toàn bộ các phần tử của tổng thể vì: - Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 6
Chọn mẫu ngẫu nhiên Mẫu ngẫu nhiên (random sample) - Mỗi phần tử chọn ngẫu nhiên và độc lập - Mỗi phần tử có khả năng được chọn như nhau - Mọi mẫu cỡ n có cùng khả năng được chọn Phương pháp chọn mẫu đơn giản - Đánh số - Chọn ngẫu nhiên, lần lượt, hoàn lại Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 7
Thống kê mô tả & suy luận TK mô tả (descriptive statistics) : thu thập, tổng hợp, xử lý dữ liệu để biến đổi dữ liệu thành thông tin - Thu thập dữ liệu: khảo sát, đo đạc … - Biểu diễn dữ liệu: dùng bảng, đồ thị … - Tổng hợp dữ liệu: trung bình mẫu, phương sai mẫu, trung vị … Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 8
Thống kê mô tả & suy luận Suy luận: rút ra các kết luận hoặc đưa ra các quyết định về tổng thể dựa trên các nghiên cứu trên mẫu. TK suy luận (inferential statistics): xử lý các thông tin có được từ thống kê mô tả, từ đó đưa ra các cơ sở để dự đoán, dự báo, ước lượng… - Ước lượng: … - Kiểm định giả thuyết: … Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 9
Thống kê mô tả Bảng biểu Phân phối tần số Đồ thị Số đặc trưng Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 10
Mô tả dữ liệu bằng đồ thị • Bảng • Đồ thị • Tùy thuộc vào loại biến quan sát • Hay dùng: biểu đồ đường, tần số, nhánh và lá, phân tán… Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 11
Đồ thị Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 12
Ví dụ • Vẽ đồ thị: • Mục tiêu của phân phối tần số: – Tạo ra phân phối không quá lởm chởm, nhiều đỉnh và không có dạng khối – Chỉ ra sự biến thiên trong dữ liệu – Là một quá trình “thử - sai” Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 13
Hình dạng phân phối • Đối xứng Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 14
Hình dạng phân phối • Bất đối xứng Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 15
Đồ thị Stem and Leaf • Sắp xếp số liệu tăng dần • Gồm 2 phần: – Stem: gồm các chữ số đầu – Leaf: gồm các chữ số đuôi Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 16
Đồ thị Stem and Leaf • Ví dụ 1: Stem 2 3 4 Leaves 144677 028 1 Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 17
Đồ thị Stem and Leaf • Ví dụ 2: Stem 6 7 8 9 10 11 12 Bài giảng Xác suất Thống kê 2015 Leaves 136 2258 346699 13368 356 47 2 Nguyễn Văn Tiến 18
Ví dụ • Vẽ đồ thị Stem-leaf cho tập dữ liệu sau Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 19
Đồ thị phân tán (tham khảo) • Scatter plot • Được sử dụng để xác định mối liên hệ giữa hai biến X, Y Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 20
Mô tả dữ liệu số • Độ đo trung tâm: – Trung bình – Trung vị – Mode • Sự biến thiên – Miền giá trị – Miền phân vị – Phương sai – Độ lệch tiêu chuẩn – Hệ số biến thiên Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 21
Độ đo trung tâm Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 22
Trung bình • Trung bình tổng thể: • Trung bình mẫu: • Trung bình bị ảnh hưởng bởi các giá trị ngoại lai (outliers) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 23
Trung vị • Là giá trị chính giữa của tập dữ liệu khi sắp tăng dần. • Không bị ảnh hưởng bởi các giá trị outliers • Gọi i là vị trí trung vị • Nếu i chẵn • Nếu i lẻ Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 24
Mode • • • Đo xu hướng trung tâm của dữ liệu Không bị ảnh hưởng bởi outliers Là giá trị thường xảy ra nhất Dùng cho cả biến định tính và định lượng Có thể có nhiều mode hoặc không có mode Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 25
Độ đo nào tốt nhất • Trung bình luôn được dùng nếu outlier không tồn tại. • Trung vị thường được dùng vì không bị ảnh hưởng bởi outlier • Vị trí của trung vị và trung bình ảnh hưởng bởi hình dạng của phân phối. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 26
Độ đo sự biến thiên • Cho biết thông tin về sự phân tán hay sự biến thiên của số liệu Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 27
Miền giá trị (range) • Độ đo sự biến thiên đơn giản nhất • Là chênh lệch giữa giá trị lớn nhất và nhỏ nhất • Miền giá trị=Xmax-Xmin • Bỏ qua sự phân bố của số liệu • Bị ảnh hưởng bởi outliers Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 28
Miền phân vị • Có thể loại bỏ outlier bằng cách sử dụng miền phân vị 25% 25% • Miền phân vị: (interquatile range) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 29
Đồ thị boxplot • Biểu diễn miền phân vị và các điểm outliers • • Công thức: Q 1=0, 25(n+1) Q 2=0, 5(n+1) Q 3=0, 75(n+1) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 30
Đồ thị boxplot • Ví dụ: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 31
Yêu cầu chương 6 • Phân biệt được tổng thể và mẫu • Phân biệt cách ký hiệu các đặc trưng của tổng thể và mẫu • Tính được các đặc trưng của tổng thể và mẫu tổng quát • Tính được các đặc trưng của mẫu cụ thể trong cả 2 trường hợp – Mẫu không lặp – Mẫu có lặp Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 32
Yêu cầu chương 6 • Biết được thế nào là mẫu tổng quát (mẫu lý thuyết) và mẫu cụ thể. • Khác biệt trong việc ký hiệu các đặc trưng của mẫu tổng quát và cụ thể • Tham số là gì? • Thống kê cụ thể là gì? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 33
Yêu cầu chương 6 • Hiểu được nội dung định lý giới hạn trung tâm (Central Limit Theorem) • Nắm được phân phối xác suất của các đặc trưng mẫu hay nhìn chung là thống kê mẫu. • Biết cách áp dụng trong bài tập cụ thể. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 34
Phương sai • • Phương sai tổng thể Phương sai mẫu hiệu chỉnh Phương sai mẫu (biết ) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 35
Phương sai • Phương sai tổng thể • Phương sai mẫu Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 36
Phương sai • Phương sai mẫu hiệu chỉnh: • Phương sai mẫu: (đã biết trung bình tổng thể ) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 37
Tính các thống kê mẫu • Cho mẫu định lượng cụ thể thu gọn: X x 1 x 2 … xk Tần số n 1 n 2 … nk • Trung bình mẫu: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 38
Tính các thống kê mẫu • Phương sai mẫu: • Phương sai mẫu hiệu chỉnh: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 39
Các thống kê mẫu_cụ thể • Độ lệch chuẩn mẫu: • Độ lệch chuẩn mẫu hiệu chỉnh: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 40
Tỷ lệ mẫu_tổng quát • Xét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p. • Lấy mẫu ngẫu nhiên kích thước n: (X 1, . . . , Xn) • Tỉ lệ mẫu tổng quát: • Xi là các biến ngẫu nhiên có phân phối A(p) • Tỷ lệ mẫu = trung bình của n biến ngẫu nhiên cùng phân phối A(p) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 41
Tỷ lệ mẫu_cụ thể • Xét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p. • Lấy mẫu cụ thể kích thước n: (x 1, x 2 , . . . , xn) • Tỉ lệ mẫu cụ thể: • k: số phần tử trong mẫu có tính chất A. • n: cỡ mẫu • Với mẫu cụ thể ta đếm cho nhanh. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 42
Tính thống kê mẫu Điều tra thời gian sử dụng internet trong tuần của 90 sinh viên một trường ta được bảng số liệu sau: Thời gian (giờ) Số sv 3 4 5 6 7 8 17 24 20 14 Hãy tính các thống kê mẫu sau: a) Trung bình mẫu, phương sai mẫu hiệu chỉnh? b) Tỷ lệ sinh viên trong mẫu có thời gian sử dụng trên 5 giờ một tuần? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 43
Cách 1_Lập bảng xi …. …. Tổng ni …. …. Bài giảng Xác suất Thống kê 2015 xi n i …. …. (xi)2 ni …. …. Nguyễn Văn Tiến 44
Cách 1_Lập bảng xi 3 4 5 6 7 8 Tổng ni 7 8 17 24 20 14 90 Bài giảng Xác suất Thống kê 2015 xi n i 21 32 85 144 140 112 534 (xi)2 ni 63 128 425 864 980 896 3356 Nguyễn Văn Tiến 45
Cách 1_Lập bảng • Cỡ mẫu: • Trung bình mẫu: • Phương sai mẫu hiệu chỉnh: Bài giảng Xác suất Thống kê 2015 Độ lệch mẫu hiệu chỉnh: Nguyễn Văn Tiến 46
Cách 2__dùng máy tính 570 ES 1. 2. 3. 4. Shift + 9 + 3 + =: Reset máy Shift + Mode + + 4 + 1: bật tần số Mode + 3 + 1: vào tính thống kê 1 biến Khi này ta có bảng sau: X FREQ 1 2 3 Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 47
Cách 2__dùng máy tính 570 ES • Ta nhập vào như sau: 1 2 3 4 5 6 X 3 4 5 6 7 8 FREQ 7 8 17 24 20 14 • Nhấn AC để thoát. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 48
Cách 2_dùng máy tính 570 ES 6. Lấy số liệu thống kê: Shift + 1 + 5. Ta có bảng sau: 1: n 2: 3: x 4: sx Tương ứng: 1: cỡ mẫu 2: trung bình mẫu Không phải 3. Độ lệch chuẩn mẫu. phương 4. Độ lệch chuẩn mẫu hiệu chỉnh. sai Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 49
Đối với FX 500 MS hoặc 570 MS 1. Reset máy: Shift + Mode + 3 + = 2. Vào hệ SD: • Máy 500 MS: Mode + 2 • Máy 570 MS: Mode + 1 3. Nhập dữ liệu: “Giá trị Shift , Tần số M+” • 3 Shift , 7 M+ • Nhập đến hết. Nhấn AC 4. Lấy số liệu: • Shift 2 1 = : Trung bình mẫu. • Shift 2 3 = : Độ lệch chuẩn mẫu hiệu chỉnh. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 50
Ví dụ 1 Đường kính (mm) của 100 chi tiết do một máy sản xuất kết quả cho ở bảng sau: a) Tính thống kê mẫu? b) Tính tỷ lệ chi tiết từ 20 mm trở lên trong mẫu? Bài giảng Xác suất Thống kê 2015 Đường kính 19, 80 – 19, 85 – 19, 90 – 19, 95 – 20, 00 – 20, 05 – 20, 10 – 20, 15 – 20, 20 Số chi tiết 3 5 16 28 23 14 7 4 Nguyễn Văn Tiến 51
Ví dụ 1 • Ta viết lại mẫu: xi 19, 825 19. 875 19. 925 19. 975 20. 025 ni 3 5 16 28 23 20. 075 20. 125 20. 175 14 7 4 • • Từ mẫu ta có: Cỡ mẫu: n=100 Trung bình mẫu: x=20, 0015 Độ lệch chuẩn mẫu hiệu chỉnh: s=0, 077997≈0, 0780 Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 52
Tổng thể và mẫu Tổng thể Mẫu TQ Mẫu cụ thể N n n Kích thước Trung bình Phương sai Độ lệch chuẩn Tỷ lệ A Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 53
Các tham số tổng thể § Trung bình cộng tổng thể: § Phương sai tổng thể: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 54
Các tham số tổng thể • Xét tổng thể định tính, dấu hiệu A. • Tỉ lệ tổng thể: • N: kích thước tổng thể. • M: số phần tử trong tổng thể có dấu hiệu A. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 55
Ví dụ • Tổng thể nghiên cứu là một xí nghiệp có 40 công nhân với dấu hiệu nghiên cứu là năng suất lao động (sản phẩm/ đơn vị thời gian) Năng suất lao động 50 55 60 65 70 75 Số công nhân 3 5 10 12 7 3 • Tính trung bình, phương sai tổng thể • Tính tỉ lệ công nhân có năng suất cao hơn 65 sp. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 56
Định lí Giới hạn trung tâm (CLT) 1. 2. 3. 4. Cho n biến ngẫu nhiên độc lập. Cùng kỳ vọng, cùng phương sai. Số lượng biến ngẫu nhiên đủ lớn (>30). Trung bình của n biến ngẫu nhiên này sẽ có phân phối xấp xỉ phân phối chuẩn 5. Điều này đúng bất chấp phân phối của các biến ngẫu nhiên thành phần là gì. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 57
PH N PHỐI MẪU • Trung bình mẫu • Tỷ lệ mẫu • Phương sai mẫu Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 58
Tính chất của trung bình mẫu • Cho tổng thể có kì vọng và phương sai 2 • Lấy mẫu ngẫu nhiên cỡ n. • Gọi là trung bình mẫu. Ta có: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 59
Phân phối của trung bình mẫu Tổng thể Trung bình mẫu Kích thước mẫu Tùy ý Không chuẩn n>30 Không chuẩn nhưng đối xứng. Có thể được với n nhỏ. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 60
Chuẩn hóa ppxs Tổng thể TB mẫu Chuẩn hóa Chuẩn, đã biết n>30, chưa biết Chuẩn, n<30 chưa biết Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 61
Ví dụ 1 • Giả sử bạn lấy mẫu 100 giá trị từ tổng thể có trung bình 500 và độ lệch chuẩn 80. Tính xác suất để trung bình mẫu nằm trong khoảng (490, 510) Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 62
Ví dụ 2 Một mẫu kích thước n được rút ra từ tổng thể phân phối chuẩn với trung bình là μ và độ lệch chuẩn 10. Hãy xác định n sao cho: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 63
Ví dụ 3 Trọng lượng một loại sản phẩm là biến ngẫu nhiên phân phối chuẩn với trung bình là 20, 5 và độ lệch chuẩn 2. Lấy ngẫu nhiên 4 sản phẩm để kiểm tra thì với xác suất 0, 95 trọng lượng trung bình của chúng sai lệch so với trọng lượng qui định tối đa là bao nhiêu? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 64
Tính chất của PS mẫu • Cho tổng thể có kì vọng và phương sai 2 • Lấy mẫu ngẫu nhiên cỡ n. • Ta có: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 65
Phân phối của hàm PS mẫu Tổng thể Chuẩn, đã biết PS mẫu Hàm của PS mẫu Chuẩn chưa biết Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 66
Ví dụ • Chiều dài của một loại sản phẩm là bnn pp chuẩn với trung bình 20 m và độ lệch chuẩn 0, 2 m. Lấy một mẫu ngẫu nhiên 25 sp. a) Cho biết ppxs của trung bình mẫu. Tính kỳ vọng và phương sai của nó. b) Xs để trung bình mẫu tối thiểu 30, 06 m c) Tìm số k để tỷ số giữa phương sai mẫu hiệu chỉnh và phương sai tổng thể ít nhất bằng k có xác suất bằng 0, 1. Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 67
Ví dụ • Giả sử X là năng suất lúa vùng A có pp chuẩn với phương sai bằng 3 (tạ/ha)2. Lấy một mẫu ngẫu nhiên kích thước 100. Tính xác suất để: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 68
Tính chất của tỷ lệ mẫu • Cho tổng thể có tỷ lệ p về tính chất A. • Lấy mẫu ngẫu nhiên cỡ n. • Gọi F là tỷ lệ mẫu. Ta có: Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 69
Phân phối của tỷ lệ mẫu Tổng thể Phân phối B(1, p) Bài giảng Xác suất Thống kê 2015 Tỷ lệ mẫu Kích thước mẫu n>30 Nguyễn Văn Tiến 70
Ví dụ • Tỷ lệ người hút thuốc ở một vùng là 10%. Với xác suất 0, 95 hãy cho biết nếu kiểm tra ngẫu nhiên 100 người thì sẽ có tối đa bao nhiêu người hút thuốc lá? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 71
Câu hỏi ôn tập 1. Mẫu ngẫu nhiên kích thước n về dấu hiệu nghiên cứu X là một dãy gồm n biến ngẫu nhiên X 1, X 2, …, Xn độc lập và có cùng phân bố với X? 2. Trung bình mẫu của tổng thể có dấu hiệu nghiên cứu có phân phối chuẩn cũng có phân phối chuẩn? 3. Phương sai mẫu của dấu hiệu nghiên cứu có phân phối chuẩn cũng có phân phối chuẩn? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 72
Bài 3 Chiều cao của thanh niên ở một địa phương là biến ngẫu nhiên phân phối chuẩn với trung bình 170 cm và độ lệch chuẩn 10 cm. Chọn ngẫu nhiên 31 thanh niên ở vùng đó. a) Tìm xác suất để chiều cao trung bình của số thanh niên nói trên không vượt quá 172 cm? b)Tìm xác suất để độ lệch chuẩn hiệu chỉnh về chiều cao của số thanh niên nói trên lớn hơn 15 cm? Bài giảng Xác suất Thống kê 2015 Nguyễn Văn Tiến 73
Tổng thể và mẫu Kích thước Trung bình Phương sai Độ lệch chuẩn Tổng thể N n 2 Tỷ lệ p Mode Median Skew, Kurtosis … Gọi là tham số Bài giảng Xác suất Thống kê 2015 Mẫu F Gọi là thống kê Nguyễn Văn Tiến 74