Mục tiêu học tập chi tiết
🎯 Mục tiêu tổng quan
Sau khóa học, học viên có khả năng tự xây dựng end-to-end ML pipeline cho các bài toán thực tế.
📋 Chi tiết theo từng tuần
Tuần 1: Nền tảng Machine Learning
Kiến thức:
- Phân biệt Supervised vs Unsupervised Learning
- Hiểu workflow chuẩn của ML project
- Nắm vững các khái niệm: Features, Labels, Training, Testing
Kỹ năng:
- Thiết lập môi trường Python cho ML
- Sử dụng NumPy cho tính toán ma trận
- Hiểu và áp dụng Feature Scaling
Tuần 2-3: Data Processing và EDA
Kiến thức:
- Các loại dữ liệu và cách xử lý
- Missing values, Outliers, Encoding
- Exploratory Data Analysis (EDA)
Kỹ năng:
- Thành thạo Pandas để xử lý dữ liệu
- Trực quan hóa với Matplotlib/Seaborn
- Xây dựng Data Pipeline
Tuần 4-6: Supervised Learning - Regression
Kiến thức:
- Linear Regression và các giả định
- Polynomial Regression
- Regularization (L1, L2)
Kỹ năng:
- Implement và đánh giá Regression models
- Sử dụng MSE, RMSE, MAE, R-squared
- Xử lý Overfitting với Regularization
Tuần 7-8: Supervised Learning - Classification
Kiến thức:
- Logistic Regression
- Decision Trees và Gini Impurity
- Random Forest, SVM
Kỹ năng:
- Implement các thuật toán Classification
- Đánh giá với Confusion Matrix
- Hiểu và sử dụng ROC-AUC, Threshold
Tuần 9: Unsupervised Learning
Kiến thức:
- K-Means Clustering
- PCA (Principal Component Analysis)
- Anomaly Detection
Kỹ năng:
- Chọn số clusters tối ưu (Elbow, Silhouette)
- Giảm chiều dữ liệu với PCA
- Phát hiện anomaly với Isolation Forest
Tuần 10: Ensemble và Tổng kết
Kiến thức:
- Bagging vs Boosting
- XGBoost, Gradient Boosting
- ML Pipeline và Best Practices
Kỹ năng:
- Implement Ensemble methods
- Hyperparameter Tuning với GridSearchCV
- Xây dựng complete ML Pipeline
🏆 Chuẩn đầu ra
ML Pipeline hoàn chỉnh
| Bước | Hoạt động | Output |
|---|---|---|
| 1. Data Collection | Thu thập dữ liệu thô | Raw Dataset |
| 2. Data Cleaning | Xử lý missing, outliers | Clean Dataset |
| 3. Feature Engineering | Tạo features mới, encoding | Feature Matrix |
| 4. Model Selection | Chọn thuật toán phù hợp | Base Model |
| 5. Training | Huấn luyện model | Trained Model |
| 6. Evaluation | Đánh giá metrics | Performance Report |
| 7. Tuning | Tối ưu hyperparameters | Optimized Model |
| 8. Deployment | Triển khai production | API/Service |

Hình: ML Model Selection Workflow
📊 Bảng tổng hợp kỹ năng
| Kỹ năng | Mức độ |
|---|---|
| Python/NumPy/Pandas | Thành thạo |
| Scikit-learn | Thành thạo |
| Data Preprocessing | Thành thạo |
| Model Evaluation | Thành thạo |
| Visualization | Khá |
| Feature Engineering | Khá |
| Hyperparameter Tuning | Khá |
