MinAI - Về trang chủ
Quiz
13/1330 phút
Đang tải...

Quiz tổng hợp

Kiểm tra kiến thức toàn khóa học GenAI Deployment & Production

0

🎯 Mục tiêu bài Quiz

TB5 min

Kiểm tra kiến thức của bạn qua các câu hỏi trắc nghiệm và bài tập thực hành!

✅ 18 câu hỏi trắc nghiệm (6 phần)

✅ 3 bài tập thực hành

✅ Yêu cầu: Hoàn thành toàn bộ khóa học

Thời gian: 30 phút cho trắc nghiệm, thêm 45–60 phút cho bài tập thực hành | Độ khó: Tổng hợp | Đạt yêu cầu: ≥ 14/18 câu đúng

PhầnChủ đềSố câu
1API Design & Serving3
2Model Optimization3
3Infrastructure & Cloud3
4Monitoring & Quality3
5Security & Safety3
6Scaling & CI/CD3
7Bài tập thực hành3
1

Phần 1: API Design & Serving

TB5 min
2

Phần 2: Model Optimization

TB5 min
3

Phần 3: Infrastructure & Cloud

TB5 min
4

Phần 4: Monitoring & Quality

TB5 min
5

Phần 5: Security & Safety

TB5 min
6

Phần 6: Scaling & CI/CD

TB5 min
7

Phần 7: Bài tập thực hành

TB5 min

Bài tập 1: Thiết kế API & Serving Pipeline

Yêu cầu: Thiết kế kiến trúc hoàn chỉnh cho một hệ thống serving LLM bao gồm:

  1. API Layer — FastAPI endpoints: /v1/chat/completions (streaming + non-streaming), /v1/models (list available models), /health (health check).
  2. Serving Engine — So sánh và chọn giữa vLLM, TGI, hoặc Ollama. Giải thích lý do.
  3. Request Flow — Vẽ sơ đồ từ client request → load balancer → API server → inference engine → response.
  4. Error Handling — Xử lý timeout, model not loaded, out of GPU memory.

Deliverable: Viết code FastAPI skeleton (pseudo-code hoặc thực tế) và sơ đồ kiến trúc.

Bài tập 2: Optimization & Cost Analysis

Yêu cầu: Cho một model LLaMA 3.1 70B, hãy:

  1. Quantization Plan — So sánh FP16 vs INT8 vs INT4 (GPTQ) vs INT4 (AWQ) về: kích thước model, VRAM cần thiết, throughput (tokens/s), và quality loss ước tính.
  2. Hardware Selection — Với budget $2,000/tháng, chọn cloud GPU instance phù hợp (so sánh ít nhất 3 options từ AWS/GCP/Azure).
  3. Cost Projection — Ước tính chi phí serving 100K requests/ngày, mỗi request trung bình 500 input tokens + 200 output tokens.
  4. Optimization Strategy — Đề xuất ít nhất 3 kỹ thuật giảm chi phí (caching, batching, prompt optimization...).

Deliverable: Bảng so sánh và cost analysis spreadsheet.

Bài tập 3: Production Monitoring & Security Setup

Yêu cầu: Xây dựng monitoring và security plan cho production LLM:

  1. Monitoring Dashboard — Liệt kê tất cả metrics cần track: latency (TTFT, E2E), throughput (TPS, RPS), resource (GPU util, VRAM), quality (user rating, error rate).
  2. Alerting Rules — Thiết lập alert thresholds: P99 latency lớn hơn 5s, error rate lớn hơn 1%, GPU util lớn hơn 95% sustained, token usage spike lớn hơn 3x normal.
  3. Security Checklist — Implement: rate limiting config, prompt injection detection, PII filtering pipeline, API key rotation policy.
  4. Incident Response — Viết runbook cho 3 scenarios: model degradation, GPU OOM, prompt injection attack detected.

Deliverable: Monitoring config (Prometheus/Grafana), security middleware code, và incident response document.

8

📊 Đánh giá kết quả

TB5 min
Số câu đúngĐánh giá
16-18🌟 Xuất sắc! Bạn nắm vững kiến thức
12-15👍 Tốt! Cần ôn lại một số chủ đề
8-11📚 Cần học thêm, xem lại các bài
dưới 8🔄 Nên học lại từ đầu

Tổng điểm:

  • Trắc nghiệm: 60% (18 câu × 3.33 điểm)
  • Bài tập thực hành: 40% (3 bài × 13.33 điểm)
9

🎓 Hoàn thành khóa học!

TB5 min

🎉 Chúc mừng bạn đã hoàn thành quiz tổng hợp GenAI Deployment & Production!

Bạn đã nắm vững:

  • ✅ Thiết kế REST API và streaming responses cho LLM (FastAPI, SSE)
  • ✅ Model serving với vLLM, TGI, và Ollama
  • ✅ Tối ưu model bằng quantization (GPTQ, AWQ, GGUF), pruning, và distillation
  • ✅ Lựa chọn infrastructure (GPU vs CPU, cloud providers, cost optimization)
  • ✅ Monitoring production (latency, throughput, token usage, quality metrics)
  • ✅ Bảo mật hệ thống (prompt injection, data privacy, rate limiting, content filtering)
  • ✅ Quản lý chi phí (token pricing, caching, batching strategies)
  • ✅ CI/CD cho AI (model versioning, A/B testing, canary deployment)
  • ✅ Scaling hệ thống (horizontal scaling, load balancing, auto-scaling)
  • ✅ Fine-tuning pipeline (data preparation, training, evaluation, deployment)
Bước tiếp theo

🚀 Áp dụng kiến thức vào dự án thực tế — deploy một LLM application hoàn chỉnh từ development đến production!