🎯 Mục tiêu bài học
Sau bài này, bạn sẽ:
✅ Nắm rõ kiến thức và kỹ năng cần đạt sau mỗi tuần
✅ Hiểu chuẩn đầu ra của khóa học: tự xây dựng end-to-end ML Pipeline
✅ Biết cách đánh giá tiến độ học tập của bản thân
Bài này giúp bạn có cái nhìn toàn cảnh về những gì sẽ học được sau 10 tuần. Đây là "bản đồ" giúp bạn đi đúng hướng!
📖 Bảng Thuật Ngữ Quan Trọng
| Thuật ngữ | Tiếng Việt | Giải thích đơn giản |
|---|---|---|
| ML Pipeline | Quy trình ML | Chuỗi các bước từ thu thập dữ liệu đến triển khai mô hình |
| Feature Engineering | Kỹ thuật tạo đặc trưng | Tạo và chọn lọc biến đầu vào tốt cho mô hình |
| EDA | Phân tích khám phá | Khám phá dữ liệu bằng thống kê và trực quan hóa |
| Regularization | Chính quy hóa | Kỹ thuật giảm overfitting bằng cách "phạt" mô hình phức tạp |
| Hyperparameter | Siêu tham số | Tham số được chỉnh tay trước khi huấn luyện, không do model tự học |
| Cross-Validation | Kiểm chứng chéo | Kỹ thuật đánh giá model bằng cách chia dữ liệu thành nhiều fold |
Checkpoint
Bạn đã đọc qua bảng thuật ngữ? Hãy ghi nhớ các khái niệm này!
🧠 Mục tiêu theo từng giai đoạn
Tuần 1: Nền tảng Machine Learning
| Loại | Chi tiết |
|---|---|
| Kiến thức | Phân biệt Supervised vs Unsupervised Learning, hiểu ML workflow |
| Kỹ năng | Thiết lập môi trường Python, sử dụng NumPy, Feature Scaling |
| Tư duy | Nhận diện bài toán ML trong thực tế |
Tuần 2-3: Data Processing và EDA
| Loại | Chi tiết |
|---|---|
| Kiến thức | Các loại dữ liệu, Missing values, Outliers, Encoding |
| Kỹ năng | Thành thạo Pandas, trực quan hóa với Matplotlib/Seaborn |
| Tư duy | Đặt câu hỏi đúng khi khám phá dữ liệu |
Tuần 4-6: Supervised Learning — Regression
| Loại | Chi tiết |
|---|---|
| Kiến thức | Linear/Polynomial Regression, Regularization (L1, L2) |
| Kỹ năng | Implement và đánh giá với MSE, RMSE, MAE, R² |
| Tư duy | Chọn mô hình phù hợp dựa trên đặc điểm dữ liệu |
Checkpoint
Bạn có thấy Regression liên quan đến công việc hoặc lĩnh vực của mình không?
📊 Mục tiêu Classification & Evaluation
Tuần 7-8: Classification
| Loại | Chi tiết |
|---|---|
| Kiến thức | Logistic Regression, Decision Trees, Random Forest, SVM, Gini Impurity |
| Kỹ năng | Confusion Matrix, ROC-AUC, Threshold Analysis |
| Tư duy | Chọn metrics phù hợp với bài toán business |
Tuần 9: Unsupervised Learning
| Loại | Chi tiết |
|---|---|
| Kiến thức | K-Means Clustering, PCA, Anomaly Detection |
| Kỹ năng | Chọn số clusters (Elbow, Silhouette), giảm chiều với PCA |
| Tư duy | Khi nào nên dùng Unsupervised vs Supervised |
Tuần 10: Ensemble & Tổng kết
| Loại | Chi tiết |
|---|---|
| Kiến thức | Bagging vs Boosting, XGBoost, Gradient Boosting |
| Kỹ năng | Hyperparameter Tuning với GridSearchCV, complete ML Pipeline |
| Tư duy | Tổng hợp kiến thức, đưa ra quyết định trong thực tế |
Checkpoint
Bạn đã lên kế hoạch học tập cho từng giai đoạn chưa?
🏗️ Chuẩn đầu ra — ML Pipeline hoàn chỉnh
Mục tiêu cuối cùng: Sau khóa học, bạn có khả năng tự xây dựng end-to-end ML pipeline cho các bài toán thực tế.
| Bước | Hoạt động | Output |
|---|---|---|
| 1. Data Collection | Thu thập dữ liệu thô | Raw Dataset |
| 2. Data Cleaning | Xử lý missing, outliers | Clean Dataset |
| 3. Feature Engineering | Tạo features mới, encoding | Feature Matrix |
| 4. Model Training | Chọn thuật toán, huấn luyện | Trained Model |
| 5. Evaluation | Đánh giá metrics | Performance Report |
| 6. Tuning | Tối ưu hyperparameters | Optimized Model |
| 7. Deployment | Triển khai production | API/Service |
Checkpoint
Bạn đã hiểu tổng quan quy trình ML Pipeline chưa?
📊 Bảng tổng hợp kỹ năng
Kỹ năng đạt được sau khóa học
| Kỹ năng | Mức độ | Ghi chú |
|---|---|---|
| Python/NumPy/Pandas | Thành thạo | Xử lý dữ liệu, tính toán |
| Scikit-learn | Thành thạo | Implement tất cả thuật toán ML |
| Data Preprocessing | Thành thạo | Cleaning, Encoding, Scaling |
| Model Evaluation | Thành thạo | Confusion Matrix, ROC-AUC, F1 |
| Visualization | Khá | Matplotlib, Seaborn |
| Feature Engineering | Khá | Tạo và chọn lọc features |
| Hyperparameter Tuning | Khá | GridSearchCV, RandomSearchCV |
Gợi ý: Đánh dấu bảng này và quay lại sau mỗi tuần để tự đánh giá tiến độ của mình!
Checkpoint
Bạn đã xem qua bảng kỹ năng? Hãy đặt mục tiêu cá nhân cho khóa học!
📝 Tổng Kết
Key Takeaways:
- 📐 Tuần 1-3: Nền tảng — Toán, Python, xử lý dữ liệu
- 🧠 Tuần 4-6: Supervised — Regression + đánh giá
- 📊 Tuần 7-8: Classification + Evaluation Metrics chuyên sâu
- 🔍 Tuần 9: Unsupervised — Clustering, PCA, Anomaly Detection
- 🚀 Tuần 10: Ensemble Methods + Complete Pipeline
Câu hỏi tự kiểm tra
- Khóa học ML Fundamentals được chia thành mấy giai đoạn chính và mỗi giai đoạn tập trung vào nội dung gì?
- ML Pipeline hoàn chỉnh bao gồm những bước nào từ thu thập dữ liệu đến triển khai?
- Tại sao Cross-Validation lại quan trọng trong việc đánh giá model?
- Sau khóa học, bạn cần đạt được những kỹ năng nào về Python và Scikit-learn?
Tiếp theo: Bắt đầu bài học đầu tiên — Giới thiệu Machine Learning!
