Quiz tổng hợp

🎯 Mục tiêu bài Quiz

TB5 min

Kiểm tra kiến thức của bạn qua các câu hỏi trắc nghiệm và bài tập thực hành!

✅ 18 câu hỏi trắc nghiệm (6 phần)

✅ 3 bài tập thực hành

✅ Yêu cầu: Hoàn thành toàn bộ khóa học

Thời gian: 30 phút cho trắc nghiệm, thêm 45–60 phút cho bài tập thực hành | Độ khó: Tổng hợp | Đạt yêu cầu: ≥ 14/18 câu đúng

Phần	Chủ đề	Số câu
1	API Design & Serving	3
2	Model Optimization	3
3	Infrastructure & Cloud	3
4	Monitoring & Quality	3
5	Security & Safety	3
6	Scaling & CI/CD	3
7	Bài tập thực hành	3

Task 0

Phần 1: API Design & Serving

TB5 min

Task 1

Phần 2: Model Optimization

TB5 min

Task 2

Phần 3: Infrastructure & Cloud

TB5 min

Task 3

Phần 4: Monitoring & Quality

TB5 min

Task 4

Phần 5: Security & Safety

TB5 min

Task 5

Phần 6: Scaling & CI/CD

TB5 min

Task 6

Phần 7: Bài tập thực hành

TB5 min

Bài tập 1: Thiết kế API & Serving Pipeline

Yêu cầu: Thiết kế kiến trúc hoàn chỉnh cho một hệ thống serving LLM bao gồm:

API Layer — FastAPI endpoints: /v1/chat/completions (streaming + non-streaming), /v1/models (list available models), /health (health check).
Serving Engine — So sánh và chọn giữa vLLM, TGI, hoặc Ollama. Giải thích lý do.
Request Flow — Vẽ sơ đồ từ client request → load balancer → API server → inference engine → response.
Error Handling — Xử lý timeout, model not loaded, out of GPU memory.

Deliverable: Viết code FastAPI skeleton (pseudo-code hoặc thực tế) và sơ đồ kiến trúc.

Bài tập 2: Optimization & Cost Analysis

Yêu cầu: Cho một model LLaMA 3.1 70B, hãy:

Quantization Plan — So sánh FP16 vs INT8 vs INT4 (GPTQ) vs INT4 (AWQ) về: kích thước model, VRAM cần thiết, throughput (tokens/s), và quality loss ước tính.
Hardware Selection — Với budget $2,000/tháng, chọn cloud GPU instance phù hợp (so sánh ít nhất 3 options từ AWS/GCP/Azure).
Cost Projection — Ước tính chi phí serving 100K requests/ngày, mỗi request trung bình 500 input tokens + 200 output tokens.
Optimization Strategy — Đề xuất ít nhất 3 kỹ thuật giảm chi phí (caching, batching, prompt optimization...).

Deliverable: Bảng so sánh và cost analysis spreadsheet.

Bài tập 3: Production Monitoring & Security Setup

Yêu cầu: Xây dựng monitoring và security plan cho production LLM:

Monitoring Dashboard — Liệt kê tất cả metrics cần track: latency (TTFT, E2E), throughput (TPS, RPS), resource (GPU util, VRAM), quality (user rating, error rate).
Alerting Rules — Thiết lập alert thresholds: P99 latency lớn hơn 5s, error rate lớn hơn 1%, GPU util lớn hơn 95% sustained, token usage spike lớn hơn 3x normal.
Security Checklist — Implement: rate limiting config, prompt injection detection, PII filtering pipeline, API key rotation policy.
Incident Response — Viết runbook cho 3 scenarios: model degradation, GPU OOM, prompt injection attack detected.

Deliverable: Monitoring config (Prometheus/Grafana), security middleware code, và incident response document.

Task 7

📊 Đánh giá kết quả

TB5 min

Số câu đúng	Đánh giá
16-18	🌟 Xuất sắc! Bạn nắm vững kiến thức
12-15	👍 Tốt! Cần ôn lại một số chủ đề
8-11	📚 Cần học thêm, xem lại các bài
dưới 8	🔄 Nên học lại từ đầu

Tổng điểm:

Trắc nghiệm: 60% (18 câu × 3.33 điểm)
Bài tập thực hành: 40% (3 bài × 13.33 điểm)

Task 8

🎓 Hoàn thành khóa học!

TB5 min

🎉 Chúc mừng bạn đã hoàn thành quiz tổng hợp GenAI Deployment & Production!

Bạn đã nắm vững:

✅ Thiết kế REST API và streaming responses cho LLM (FastAPI, SSE)
✅ Model serving với vLLM, TGI, và Ollama
✅ Tối ưu model bằng quantization (GPTQ, AWQ, GGUF), pruning, và distillation
✅ Lựa chọn infrastructure (GPU vs CPU, cloud providers, cost optimization)
✅ Monitoring production (latency, throughput, token usage, quality metrics)
✅ Bảo mật hệ thống (prompt injection, data privacy, rate limiting, content filtering)
✅ Quản lý chi phí (token pricing, caching, batching strategies)
✅ CI/CD cho AI (model versioning, A/B testing, canary deployment)
✅ Scaling hệ thống (horizontal scaling, load balancing, auto-scaling)
✅ Fine-tuning pipeline (data preparation, training, evaluation, deployment)

Bước tiếp theo

🚀 Áp dụng kiến thức vào dự án thực tế — deploy một LLM application hoàn chỉnh từ development đến production!

Task 9

🎯 Mục tiêu bài Quiz

Phần 1: API Design & Serving

Phần 2: Model Optimization

Phần 3: Infrastructure & Cloud

Phần 4: Monitoring & Quality

Phần 5: Security & Safety

Phần 6: Scaling & CI/CD

Phần 7: Bài tập thực hành

Bài tập 1: Thiết kế API & Serving Pipeline

Bài tập 2: Optimization & Cost Analysis

Bài tập 3: Production Monitoring & Security Setup

📊 Đánh giá kết quả

🎓 Hoàn thành khóa học!

Khóa học

Mentor & Hỗ trợ

Blog

Giới thiệu