Thống kê Mô tả - Độ đo Tập trung | MinAI Learning

Lý thuyết

2/12•1 giờ

Đang tải...

Thống kê Mô tả - Độ đo Tập trung

Mean, Median, Mode và các khái niệm cơ bản

🎯 Mục tiêu bài học

TB5 min

Sau bài học này, bạn sẽ:

✅ Hiểu và tính toán Mean, Median, Mode

✅ Biết khi nào sử dụng độ đo nào

✅ Phân biệt Population vs Sample Statistics

✅ Hiểu ảnh hưởng của Outliers lên các độ đo

Thời gian: 1 giờ | Độ khó: Cơ bản | Yêu cầu: Bài 01-02

Task 0

📖 Bảng Thuật Ngữ Quan Trọng

TB5 min

Thuật ngữ	Tiếng Việt	Mô tả
Mean	Trung bình cộng	Tổng giá trị chia cho số phần tử
Median

Task 1

Tiếp: Thống kê Mô tả - Độ đo Phân tán

📊 Các Loại Dữ Liệu

TB5 min

Phân loại dữ liệu

📊Các loại Dữ liệu

Phân loại

Nominal (Màu sắc, Giới tính)

Ordinal (Xếp hạng, Mức độ)

Định lượng

Discrete (Số học sinh)

Continuous (Chiều cao)

Loại	Ví dụ	Độ đo phù hợp
Nominal	Màu sắc, Nhóm máu	Mode
Ordinal	Xếp hạng 1-5 sao	Median, Mode
Discrete	Số con, Số xe	Mean, Median, Mode
Continuous	Chiều cao, Thu nhập	Mean, Median

Task 2

📐 Mean (Trung bình cộng)

TB5 min

Công thức

Population Mean (Trung bình tổng thể):

$\mu = \frac{1}{N}\sum_{i=1}^{N} x_i = \frac{x_1 + x_2 + ... + x_N}{N}$

Sample Mean (Trung bình mẫu):

$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$

Population vs Sample

Population (N): Toàn bộ đối tượng nghiên cứu
Sample (n): Một phần được chọn từ tổng thể
Ký hiệu: μ (mu) cho population, x̄ (x-bar) cho sample

Ví dụ tính tay

Dữ liệu: Điểm thi của 8 học sinh: [7, 8, 6, 9, 7, 8, 10, 5]

$\bar{x} = \frac{7 + 8 + 6 + 9 + 7 + 8 + 10 + 5}{8} = \frac{60}{8} = 7.5$

Weighted Mean (Trung bình có trọng số)

$\bar{x}_w = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}$

Ví dụ: Tính điểm trung bình học phần

Môn	Điểm (x)	Số tín chỉ (w)	w × x
Toán	8	4	32
Lý	7	3	21
Hóa	9	2	18
Tổng	-	9	71

$\bar{x}_w = \frac{32 + 21 + 18}{4 + 3 + 2} = \frac{71}{9} = 7.89$

Code Python

Python

1import numpy as np
2
3# Dữ liệu
4scores = [7, 8, 6, 9, 7, 8, 10, 5]
5
6# Mean đơn giản
7mean_score = np.mean(scores)
8print(f"Mean: {mean_score}")  # 7.5
9
10# Weighted Mean
11grades = [8, 7, 9]
12credits = [4, 3, 2]
13weighted_mean = np.average(grades, weights=credits)
14print(f"Weighted Mean: {weighted_mean:.2f}")  # 7.89

Checkpoint

Tính Weighted Mean điểm học kỳ: Toán 8.5 (4 TC), Văn 7.0 (3 TC), Anh 9.0 (3 TC), TD 8.0 (2 TC).

Task 3

📊 Median (Trung vị)

TB5 min

Định nghĩa

Median là giá trị ở vị trí giữa khi sắp xếp dữ liệu theo thứ tự.

Cách tính:

Nếu n lẻ: Median = giá trị ở vị trí $\frac{n+1}{2}$
Nếu n chẵn: Median = trung bình của 2 giá trị giữa

Ví dụ tính tay

Ví dụ 1: n lẻ

Dữ liệu: [3, 7, 2, 9, 4]

Sắp xếp: [2, 3, 4, 7, 9]

Vị trí giữa: $\frac{5+1}{2} = 3$ → Median = 4

Ví dụ 2: n chẵn

Dữ liệu: [3, 7, 2, 9, 4, 6]

Sắp xếp: [2, 3, 4, 6, 7, 9]

Hai giá trị giữa: 4 và 6 → Median = $\frac{4+6}{2}$ = 5

Code Python

Python

1import numpy as np
2
3# n lẻ
4data_odd = [3, 7, 2, 9, 4]
5print(f"Median (n lẻ): {np.median(data_odd)}")  # 4.0
6
7# n chẵn
8data_even = [3, 7, 2, 9, 4, 6]
9print(f"Median (n chẵn): {np.median(data_even)}")  # 5.0

Task 4

🔢 Mode (Yếu vị)

TB5 min

Định nghĩa

Mode là giá trị xuất hiện nhiều lần nhất trong tập dữ liệu.

Unimodal: 1 mode
Bimodal: 2 modes
Multimodal: nhiều modes
No mode: tất cả xuất hiện bằng nhau

Ví dụ

Dữ liệu	Mode	Loại
[1, 2, 2, 3, 4]	2	Unimodal
[1, 1, 2, 2, 3]	1, 2	Bimodal
[1, 2, 3, 4, 5]	None	No mode

Code Python

Python

1from scipy import stats
2import numpy as np
3
4# Unimodal
5data = [1, 2, 2, 3, 4]
6mode_result = stats.mode(data, keepdims=True)
7print(f"Mode: {mode_result.mode[0]}")  # 2
8print(f"Count: {mode_result.count[0]}")  # 2
9
10# Sử dụng pandas cho multiple modes
11import pandas as pd
12data_bimodal = pd.Series([1, 1, 2, 2, 3])
13print(f"Modes: {data_bimodal.mode().tolist()}")  # [1, 2]

Checkpoint

Dữ liệu: [5, 3, 5, 7, 3, 5, 8, 3]. Mode là gì? Unimodal hay Bimodal?

Task 5

⚖️ So Sánh Mean, Median, Mode

TB5 min

Ảnh hưởng của Outliers

📊Data với Outliers

⚠️Mean (Bị ảnh hưởng)

✅Median (Bền vững)

❓Mode (Tùy thuộc)

Ví dụ: Thu nhập (triệu/tháng): [10, 12, 11, 13, 100]

Độ đo	Giá trị	Nhận xét
Mean	29.2	Bị kéo lên bởi outlier 100
Median	12	Không bị ảnh hưởng

Khi nào dùng độ đo nào?

Tình huống	Độ đo phù hợp
Dữ liệu đối xứng, không có outliers	Mean
Dữ liệu lệch (skewed) hoặc có outliers	Median
Dữ liệu categorical	Mode
Thu nhập, giá nhà	Median
Điểm số, chiều cao	Mean
Màu sắc yêu thích	Mode

Skewness và vị trí các độ đo

🔴Lệch trái: Mean < Median < Mode

🟢Đối xứng: Mean ≈ Median ≈ Mode

🔵Lệch phải: Mode < Median < Mean

Code minh họa

Python

1import numpy as np
2import matplotlib.pyplot as plt
3from scipy import stats
4
5# Tạo dữ liệu với outlier
6data_normal = [10, 12, 11, 13, 14, 12, 11, 13]
7data_with_outlier = [10, 12, 11, 13, 14, 12, 11, 100]
8
9# So sánh
10print("=== Data without outlier ===")
11print(f"Mean: {np.mean(data_normal):.2f}")
12print(f"Median: {np.median(data_normal):.2f}")
13
14print("\n=== Data with outlier ===")
15print(f"Mean: {np.mean(data_with_outlier):.2f}")
16print(f"Median: {np.median(data_with_outlier):.2f}")
17
18# Visualization
19fig, axes = plt.subplots(1, 2, figsize=(12, 4))
20
21# Normal data
22axes[0].hist(data_normal, bins=10, edgecolor='black', alpha=0.7)
23axes[0].axvline(np.mean(data_normal), color='red', linestyle='--', label=f'Mean: {np.mean(data_normal):.1f}')
24axes[0].axvline(np.median(data_normal), color='green', linestyle='--', label=f'Median: {np.median(data_normal):.1f}')
25axes[0].set_title('Without Outlier')
26axes[0].legend()
27
28# Data with outlier
29axes[1].hist(data_with_outlier, bins=10, edgecolor='black', alpha=0.7)
30axes[1].axvline(np.mean(data_with_outlier), color='red', linestyle='--', label=f'Mean: {np.mean(data_with_outlier):.1f}')
31axes[1].axvline(np.median(data_with_outlier), color='green', linestyle='--', label=f'Median: {np.median(data_with_outlier):.1f}')
32axes[1].set_title('With Outlier')
33axes[1].legend()
34
35plt.tight_layout()
36plt.show()

Checkpoint

Lương nhân viên (triệu/tháng): [15, 18, 16, 17, 19, 150]. Mean hay Median phản ánh thực tế hơn? Tại sao?

Task 6

📝 Tổng Kết

TB5 min

Độ đo	Công thức	Ưu điểm	Nhược điểm
Mean	$\bar{x} = \frac{\sum x_i}{n}$	Sử dụng tất cả dữ liệu	Nhạy với outliers
Median	Giá trị giữa	Robust với outliers	Bỏ qua giá trị cực trị
Mode	Giá trị phổ biến nhất	Dùng cho categorical	Có thể không duy nhất

Câu hỏi tự kiểm tra

Khi nào nên sử dụng Median thay vì Mean để mô tả dữ liệu?
Mode có thể áp dụng cho loại dữ liệu nào mà Mean và Median không phù hợp?
Tại sao cần kiểm tra phân phối dữ liệu trước khi chọn độ đo xu hướng trung tâm?
Nếu một tập dữ liệu có outliers lớn, Mean và Median sẽ khác nhau như thế nào?

Điểm chính

Mean phù hợp cho dữ liệu đối xứng
Median robust hơn khi có outliers
Mode dùng cho dữ liệu categorical
Luôn kiểm tra distribution trước khi chọn độ đo

🎉 Tuyệt vời! Bạn đã hoàn thành bài học Đo lường xu hướng trung tâm!

Tiếp theo: Chúng ta sẽ tìm hiểu về các độ đo phân tán (Range, Variance, Standard Deviation) để hiểu dữ liệu trải rộng như thế nào.

📚 Tài liệu tham khảo

Nguồn	Nội dung	Link
Khan Academy	Mean, Median, Mode giải thích trực quan	Measures of Center
StatQuest	Video giải thích Mean, Median, Mode	StatQuest YouTube
Penn State STAT 500	Giáo trình thống kê online miễn phí	STAT 500 - Central Tendency

Task 8

Khóa học

Mentor & Hỗ trợ

Blog

Giới thiệu

Thống kê Mô tả - Độ đo Tập trung

🎯 Mục tiêu bài học

📖 Bảng Thuật Ngữ Quan Trọng

Checkpoint

📊 Các Loại Dữ Liệu

Phân loại dữ liệu

📐 Mean (Trung bình cộng)

Công thức

Ví dụ tính tay

Weighted Mean (Trung bình có trọng số)

Code Python

Checkpoint

📊 Median (Trung vị)

Định nghĩa

Ví dụ tính tay

Code Python

🔢 Mode (Yếu vị)

Định nghĩa

Ví dụ

Code Python

Checkpoint

⚖️ So Sánh Mean, Median, Mode

Ảnh hưởng của Outliers

Ảnh hưởng của Outliers

Khi nào dùng độ đo nào?

Skewness và vị trí các độ đo

Skewness và vị trí các độ đo

Code minh họa

Checkpoint

🧩 Bài Tập Thực Hành

Bài tập 1: Tính các độ đo

Bài tập 2: Weighted Mean

Bài tập 3: Phân tích outlier

📝 Tổng Kết

Câu hỏi tự kiểm tra

📚 Tài liệu tham khảo