🎯 Mục tiêu bài học
Sau bài học này, bạn sẽ:
✅ Hiểu Thống kê là gì và tại sao quan trọng trong Data Science
✅ Phân biệt Thống kê Mô tả và Thống kê Suy luận
✅ Nắm được lộ trình khóa học và các công cụ sử dụng
✅ Hiểu phương pháp học tập hiệu quả
Thời gian: 30 phút | Độ khó: Beginner | Yêu cầu: Toán cơ bản
📖 Bảng Thuật Ngữ Quan Trọng
| Thuật ngữ | Tiếng Việt | Mô tả |
|---|---|---|
| Statistics | Thống kê | Khoa học thu thập, phân tích, giải thích dữ liệu |
| Descriptive Statistics | Thống kê mô tả | Tóm tắt và mô tả dữ liệu |
| Inferential Statistics | Thống kê suy luận | Suy luận về tổng thể từ mẫu |
| Population | Tổng thể | Toàn bộ đối tượng nghiên cứu |
| Sample | Mẫu | Một phần của tổng thể được chọn để nghiên cứu |
| Parameter | Tham số | Đại lượng mô tả tổng thể |
| Statistic | Thống kê lượng | Đại lượng tính từ mẫu |
Checkpoint
Bạn có thể phân biệt Population vs Sample chưa? Đây là nền tảng của toàn bộ khóa học!
📊 Thống kê là gì?
Thống kê (Statistics) là ngành khoa học về việc thu thập, phân tích, giải thích và trình bày dữ liệu. Thống kê giúp chúng ta đưa ra quyết định dựa trên dữ liệu thực tế.
Thống kê là nền tảng của Data Science, Machine Learning và AI. Hiểu thống kê giúp bạn phân tích dữ liệu đúng cách, đánh giá model chính xác và đưa ra quyết định có cơ sở khoa học.
🌳 Hai Nhánh Chính của Thống kê
1. Thống kê Mô tả (Descriptive Statistics)
- Tóm tắt và mô tả dữ liệu
- Các độ đo tập trung: Mean, Median, Mode
- Các độ đo phân tán: Variance, Standard Deviation
- Trực quan hóa dữ liệu: Histogram, Box Plot
2. Thống kê Suy luận (Inferential Statistics)
- Suy luận về tổng thể từ mẫu
- Kiểm định giả thuyết (Hypothesis Testing)
- Khoảng tin cậy (Confidence Intervals)
- Phân tích hồi quy (Regression Analysis)
Checkpoint
Nếu bạn tính điểm trung bình của lớp — đó là Descriptive hay Inferential Statistics? Còn khi bạn suy luận điểm trung bình toàn trường từ 1 lớp mẫu thì sao?
🌍 Ứng dụng của Thống kê
| Lĩnh vực | Ứng dụng |
|---|---|
| 🏥 Y tế | Clinical Trials, Drug Testing |
| 💰 Tài chính | Risk Analysis, Portfolio Optimization |
| 🛒 Marketing | A/B Testing, Customer Segmentation |
| 🤖 Machine Learning | Model Evaluation, Feature Selection |
| 🏭 Sản xuất | Quality Control, Process Improvement |
| 🎮 Gaming | Player Analytics, Balancing |
📋 Nội Dung Khóa Học
1. Thống kê Mô tả (Descriptive Statistics)
- ✅ Tính toán các độ đo tập trung: Mean, Median, Mode
- ✅ Tính toán các độ đo phân tán: Range, Variance, Standard Deviation
- ✅ Hiểu và sử dụng Percentiles, Quartiles, IQR
- ✅ Phát hiện và xử lý Outliers
2. Xác suất (Probability)
- ✅ Nắm vững các quy tắc xác suất cơ bản
- ✅ Hiểu xác suất có điều kiện và Bayes' Theorem
- ✅ Áp dụng vào bài toán thực tế
3. Phân phối Xác suất (Probability Distributions)
- ✅ Phân phối rời rạc: Binomial, Poisson
- ✅ Phân phối liên tục: Normal, Exponential
- ✅ Central Limit Theorem
4. Thống kê Suy luận (Inferential Statistics)
- ✅ Sampling và Sampling Distribution
- ✅ Confidence Intervals
- ✅ Hypothesis Testing (Z-test, T-test, Chi-square)
- ✅ P-value và Statistical Significance
5. Correlation và Regression
- ✅ Pearson vs Spearman Correlation
- ✅ Simple Linear Regression
- ✅ R-squared và Model Evaluation
📅 Cấu Trúc Bài Học
| STT | Chủ đề | Thời lượng |
|---|---|---|
| 1 | Tổng quan & Mục tiêu | 30 phút |
| 2 | Descriptive Statistics - Central Tendency | 1 giờ |
| 3 | Descriptive Statistics - Spread | 1 giờ |
| 4 | Percentiles & Outliers | 45 phút |
| 5 | Probability & Bayes' Theorem | 2 giờ |
| 6 | Discrete Distributions | 1.5 giờ |
| 7 | Continuous Distributions | 1.5 giờ |
| 8 | Sampling & CLT | 1 giờ |
| 9 | Confidence Intervals | 1 giờ |
| 10 | Hypothesis Testing & T-tests | 2.5 giờ |
| 11 | Correlation & Regression | 1.5 giờ |
| 12 | Quiz tổng hợp | 30 phút |
🗺️ Roadmap Khóa Học
📝 Phương Pháp Học
Quy trình học tập
Checkpoint
Phương pháp học hiệu quả nhất: Lý thuyết → Ví dụ tính tay → Code Python → Visualization → Bài tập. Hãy luôn thực hành song song với lý thuyết!
🎓 Kết Quả Đầu Ra
Câu hỏi tự kiểm tra
- Thống kê mô tả và Thống kê suy luận khác nhau ở điểm nào?
- Phân biệt Population (tổng thể) và Sample (mẫu) — tại sao sự phân biệt này quan trọng?
- Thống kê đóng vai trò gì trong Data Science và Machine Learning?
- Tại sao cần kết hợp lý thuyết với thực hành code Python khi học thống kê?
- Phân tích dữ liệu một cách khoa học
- Đưa ra quyết định dựa trên dữ liệu
- Thiết kế thí nghiệm (A/B Testing)
- Đánh giá model Machine Learning
- Trình bày kết quả thống kê chuyên nghiệp
🎉 Tuyệt vời! Bạn đã hoàn thành bài học Tổng quan & Mục tiêu khóa học!
Tiếp theo: Chúng ta sẽ bắt đầu với bài học đầu tiên — Đo lường xu hướng trung tâm (Mean, Median, Mode).
Yêu cầu tiên quyết
- 📐 Toán cơ bản (số học, đại số)
- 🐍 Python cơ bản (khuyến khích)
- 💡 Tư duy logic
Tiến độ học tập khuyến nghị
- Beginner: 2-3 bài/tuần
- Intermediate: 3-4 bài/tuần
- Advanced: Có thể học nhanh hơn
- Làm bài tập sau mỗi bài học
- Thực hành code Python
- Ghi chú các công thức quan trọng
- Áp dụng vào dự án thực tế
