🎯 Mục tiêu bài Quiz
Kiểm tra kiến thức của bạn qua các câu hỏi trắc nghiệm và bài tập thực hành!
✅ 18 câu hỏi trắc nghiệm (6 phần)
✅ 3 bài tập thực hành
✅ Yêu cầu: Hoàn thành toàn bộ khóa học
Thời gian: 30 phút cho trắc nghiệm, thêm 45–60 phút cho bài tập thực hành | Độ khó: Tổng hợp | Đạt yêu cầu: ≥ 14/18 câu đúng
| Phần | Chủ đề | Số câu |
|---|---|---|
| 1 | API Design & Serving | 3 |
| 2 | Model Optimization | 3 |
| 3 | Infrastructure & Cloud | 3 |
| 4 | Monitoring & Quality | 3 |
| 5 | Security & Safety | 3 |
| 6 | Scaling & CI/CD | 3 |
| 7 | Bài tập thực hành | 3 |
Phần 1: API Design & Serving
Phần 2: Model Optimization
Phần 3: Infrastructure & Cloud
Phần 4: Monitoring & Quality
Phần 5: Security & Safety
Phần 6: Scaling & CI/CD
Phần 7: Bài tập thực hành
Bài tập 1: Thiết kế API & Serving Pipeline
Yêu cầu: Thiết kế kiến trúc hoàn chỉnh cho một hệ thống serving LLM bao gồm:
- API Layer — FastAPI endpoints:
/v1/chat/completions(streaming + non-streaming),/v1/models(list available models),/health(health check). - Serving Engine — So sánh và chọn giữa vLLM, TGI, hoặc Ollama. Giải thích lý do.
- Request Flow — Vẽ sơ đồ từ client request → load balancer → API server → inference engine → response.
- Error Handling — Xử lý timeout, model not loaded, out of GPU memory.
Deliverable: Viết code FastAPI skeleton (pseudo-code hoặc thực tế) và sơ đồ kiến trúc.
Bài tập 2: Optimization & Cost Analysis
Yêu cầu: Cho một model LLaMA 3.1 70B, hãy:
- Quantization Plan — So sánh FP16 vs INT8 vs INT4 (GPTQ) vs INT4 (AWQ) về: kích thước model, VRAM cần thiết, throughput (tokens/s), và quality loss ước tính.
- Hardware Selection — Với budget $2,000/tháng, chọn cloud GPU instance phù hợp (so sánh ít nhất 3 options từ AWS/GCP/Azure).
- Cost Projection — Ước tính chi phí serving 100K requests/ngày, mỗi request trung bình 500 input tokens + 200 output tokens.
- Optimization Strategy — Đề xuất ít nhất 3 kỹ thuật giảm chi phí (caching, batching, prompt optimization...).
Deliverable: Bảng so sánh và cost analysis spreadsheet.
Bài tập 3: Production Monitoring & Security Setup
Yêu cầu: Xây dựng monitoring và security plan cho production LLM:
- Monitoring Dashboard — Liệt kê tất cả metrics cần track: latency (TTFT, E2E), throughput (TPS, RPS), resource (GPU util, VRAM), quality (user rating, error rate).
- Alerting Rules — Thiết lập alert thresholds: P99 latency lớn hơn 5s, error rate lớn hơn 1%, GPU util lớn hơn 95% sustained, token usage spike lớn hơn 3x normal.
- Security Checklist — Implement: rate limiting config, prompt injection detection, PII filtering pipeline, API key rotation policy.
- Incident Response — Viết runbook cho 3 scenarios: model degradation, GPU OOM, prompt injection attack detected.
Deliverable: Monitoring config (Prometheus/Grafana), security middleware code, và incident response document.
📊 Đánh giá kết quả
| Số câu đúng | Đánh giá |
|---|---|
| 16-18 | 🌟 Xuất sắc! Bạn nắm vững kiến thức |
| 12-15 | 👍 Tốt! Cần ôn lại một số chủ đề |
| 8-11 | 📚 Cần học thêm, xem lại các bài |
| dưới 8 | 🔄 Nên học lại từ đầu |
Tổng điểm:
- Trắc nghiệm: 60% (18 câu × 3.33 điểm)
- Bài tập thực hành: 40% (3 bài × 13.33 điểm)
🎓 Hoàn thành khóa học!
🎉 Chúc mừng bạn đã hoàn thành quiz tổng hợp GenAI Deployment & Production!
Bạn đã nắm vững:
- ✅ Thiết kế REST API và streaming responses cho LLM (FastAPI, SSE)
- ✅ Model serving với vLLM, TGI, và Ollama
- ✅ Tối ưu model bằng quantization (GPTQ, AWQ, GGUF), pruning, và distillation
- ✅ Lựa chọn infrastructure (GPU vs CPU, cloud providers, cost optimization)
- ✅ Monitoring production (latency, throughput, token usage, quality metrics)
- ✅ Bảo mật hệ thống (prompt injection, data privacy, rate limiting, content filtering)
- ✅ Quản lý chi phí (token pricing, caching, batching strategies)
- ✅ CI/CD cho AI (model versioning, A/B testing, canary deployment)
- ✅ Scaling hệ thống (horizontal scaling, load balancing, auto-scaling)
- ✅ Fine-tuning pipeline (data preparation, training, evaluation, deployment)
🚀 Áp dụng kiến thức vào dự án thực tế — deploy một LLM application hoàn chỉnh từ development đến production!
