Machine Learning nâng cao, MLOps và Production Systems
| Thuật ngữ | Tiếng Việt | Giải thích đơn giản |
|---|---|---|
| AutoML | ML tự động | Tự động hóa chọn model, tuning hyperparameters |
| MLOps | Vận hành ML | DevOps cho ML — CI/CD, monitoring, deployment |
| Feature Store | Kho đặc trưng | Lưu trữ và phục vụ features cho training + inference |
| Recommendation System | Hệ gợi ý | Dự đoán item phù hợp cho user (Netflix, Shopee) |
| Transfer Learning | Học chuyển giao | Dùng model đã pretrain cho bài toán mới |
| A/B Testing | Thử nghiệm A/B | So sánh 2 phiên bản để chọn tốt hơn |
| Model Serving | Phục vụ model | Triển khai model để nhận request real-time |
| Ensemble | Kết hợp model | Gộp nhiều models để dự đoán tốt hơn |
Khóa học Advanced ML & AI đưa bạn từ research đến production, tập trung vào:
1Thực tế tuyển dụng ML Engineer / Data Scientist (2024-2025):2 3 "Biết train model" ← Chỉ 30% job description4 "Biết DEPLOY + MONITOR model" ← 70% còn lại!5 6 Kaggle competition: Train model → submit → xong7 Production ML: Train → Validate → Deploy → Monitor → Retrain → ...8 ↑ khóa này dạy phần NÀY9 10Ví dụ cụ thể — Shopee Recommendation System:11 - 350 triệu sản phẩm × 200 triệu users12 - Response time < 100ms (real-time serving)13 - Retrain hàng ngày với data mới14 - A/B test liên tục: 50+ experiments/tháng15 → Không chỉ cần model tốt, cần HỆ THỐNG tốt!Bạn có thể mô tả 3 năng lực cốt lõi của khóa (advanced techniques, production ML, và end-to-end project) và cách chúng liên kết với nhau không?
Bài 2: Hyperparameter Tuning nâng cao
Bài 3: AutoML
Bài 4: Advanced Ensemble Methods
Bài 5: Transfer Learning & Fine-tuning
Bài 6: Recommendation Systems Overview
Bài 7: Matrix Factorization
Bài 8: Deep Learning for RecSys
Bài 9: MLOps Fundamentals
Mô tả: Xây dựng hệ thống gợi ý sản phẩm hoàn chỉnh cho website thương mại điện tử.
Components:
Tech Stack:
Metrics:
| Công cụ | Điểm mạnh | Trường hợp sử dụng |
|---|---|---|
| Auto-sklearn | Tương thích Scikit-learn | Dữ liệu dạng bảng |
| TPOT | Thuật toán di truyền | Feature engineering |
| H2O AutoML | Sẵn sàng cho doanh nghiệp | Production ML |
| AutoKeras | Mạng neural | Hình ảnh, văn bản |
1# Experiment tracking2import mlflow3mlflow.start_run()4mlflow.log_params({"lr": 0.01, "epochs": 100})5mlflow.log_metric("accuracy", 0.95)6mlflow.sklearn.log_model(model, "model")78# Feature store9from feast import FeatureStore10store = FeatureStore(repo_path=".")11features = store.get_online_features(12 features=["user_features:age", "product_features:category"],13 entity_rows=[{"user_id": 123, "product_id": 456}]14)1516# Model monitoring17from evidently import ColumnMapping18from evidently.dashboard import Dashboard19dashboard = Dashboard(tabs=[DataDriftTab()])20dashboard.calculate(reference_data, production_data)1# ML frameworks2pip install scikit-learn xgboost lightgbm3 4# Deep Learning5pip install torch torchvision transformers6 7# AutoML8pip install auto-sklearn tpot h2o9 10# MLOps11pip install mlflow wandb dvc feast12 13# Deployment14pip install fastapi uvicorn docker15 16# Monitoring17pip install evidently prometheus-client| Thành phần | Trọng số | Tiêu chí |
|---|---|---|
| Bài tập hàng tuần | 30% | Chất lượng code, hiệu suất |
| Cuộc thi Kaggle | 20% | Xếp hạng bảng điểm |
| Dự án MLOps | 20% | Triển khai, giám sát |
| Dự án cuối khóa | 30% | Thiết kế hệ thống, metrics, trình bày |
Bài toán: E-commerce RecSys cho 1M users, 50K products
1Ước lượng data:2 Interaction matrix: 1M × 50K = 50 tỷ cells3 Nhưng sparse! (mỗi user tương tác ~50 products = 0.1%)4 → Actual data: 1M × 50 = 50M interactions ≈ 400MB5 6Feature dimensions:7 User features: age, city, income, purchase_count... → 20 features × 1M = 20M8 Product features: category, price, embedding... → 15 features × 50K = 750K9 Interaction features: recency, frequency, monetary → 5 features × 50M = 250M10 11Total data: ~1.5GB (float32) — vừa RAM 16GB12 13Training estimates:14 Collaborative Filtering (SVD): ~5 phút, CPU OK15 Neural Collaborative: ~30 phút, GPU recommended16 Deep RecSys (full): ~2-4 giờ, GPU required| Module | Bài | Nội dung | Output |
|---|---|---|---|
| ML Techniques | 02-05 | Tuning, AutoML, Ensemble, Transfer | Model baseline ≥ 0.85 AUC |
| RecSys | 06-08 | CF, Matrix Factorization, Deep RecSys | Prototype NDCG@10 ≥ 0.45 |
| MLOps | 09-11 |
Next: Bài 2 - Hyperparameter Tuning Nâng cao
| Bài toán | Kỹ thuật ưu tiên | Lý do |
|---|---|---|
| Dự đoán dạng bảng | GBDT + tuning + feature engineering | Hiệu năng mạnh, chi phí hợp lý |
| Xếp hạng/Gợi ý | Hybrid RecSys + retrieval | Tối ưu theo tương tác user-item |
| Rủi ro drift production | Monitoring + retraining policy | Duy trì chất lượng lâu dài |
| Nguồn | Nội dung | Link |
|---|---|---|
| XGBoost | Gradient boosting hiệu năng cao | XGBoost Documentation |
| LightGBM | Gradient boosting nhanh từ Microsoft | LightGBM Documentation |
| Optuna | Framework hyperparameter tuning tự động | Optuna Documentation |
| MLflow | Nền tảng quản lý vòng đời ML | MLflow Documentation |
| Google Vertex AI |
Bài 10: Model Deployment
Bài 11: Feature Store & Model Monitoring
Bài 12: Capstone Project - E-commerce Recommendation System
Bài 13: Quiz tổng hợp
| Tracking, Deploy, Monitoring |
| API + dashboard deployed |
| Capstone | 12 | End-to-end project | Full pipeline: data → deploy |
Sau khóa học, bạn có thể:
Ở cấp độ advanced, chiến thắng không chỉ là tăng vài điểm metric, mà là tăng metric một cách bền vững và deploy được.
| Nền tảng ML toàn diện từ Google |
| Vertex AI Documentation |
| Weights & Biases | Theo dõi thí nghiệm & giám sát model | W&B Documentation |