🎯 Mục tiêu bài Quiz
Kiểm tra kiến thức của bạn qua các câu hỏi trắc nghiệm và bài tập thực hành!
✅ 18 câu hỏi trắc nghiệm (6 phần)
✅ 3 bài tập thực hành
✅ Yêu cầu: Hoàn thành toàn bộ khóa học
Thời gian: 30 phút | Độ khó: Tổng hợp | Đạt yêu cầu: ≥ 13/18 câu đúng
Phần 1: NLP & Tokenization
Phần 2: Text Generation
Phần 3: Summarization & Translation
Phần 4: Fine-tuning & PEFT
Phần 5: LangChain
Phần 6: Embeddings & Classification
Phần 7: Bài tập thực hành
Bài tập 1: Xây dựng Pipeline Tóm tắt Văn bản
Yêu cầu: Sử dụng LangChain và một LLM (OpenAI GPT hoặc mô hình open-source qua Hugging Face) để xây dựng pipeline tóm tắt văn bản tiếng Việt.
Các bước thực hiện:
- Nhận đầu vào là một đoạn văn bản dài (ít nhất 500 từ) bằng tiếng Việt
- Sử dụng Prompt Template để hướng dẫn LLM tóm tắt với yêu cầu: giữ lại ý chính, ngắn gọn trong 3-5 câu
- Áp dụng Chain (LCEL) để kết nối PromptTemplate → LLM → OutputParser
- So sánh kết quả khi thay đổi temperature (0.0 vs 0.7)
Output mong đợi: Bản tóm tắt tiếng Việt ngắn gọn, đầy đủ ý chính, và nhận xét về ảnh hưởng của temperature.
Bài tập 2: Fine-tuning với LoRA cho Sentiment Analysis
Yêu cầu: Fine-tune một mô hình ngôn ngữ nhỏ (ví dụ: vinai/phobert-base) cho tác vụ phân loại sentiment tiếng Việt sử dụng LoRA.
Các bước thực hiện:
- Chuẩn bị dataset sentiment tiếng Việt (ít nhất 3 class: positive, negative, neutral)
- Cấu hình LoRA: chọn
r(rank),lora_alpha,lora_dropout,target_modules - Huấn luyện với Hugging Face
Trainer+ PEFT library - Đánh giá mô hình trên tập test: accuracy, F1-score, confusion matrix
- So sánh số lượng trainable parameters giữa LoRA và full fine-tuning
Output mong đợi: Mô hình fine-tuned đạt accuracy ≥ 85% trên tập test, báo cáo so sánh LoRA vs full fine-tuning.
Bài tập 3: Xây dựng Chatbot RAG với LangChain
Yêu cầu: Xây dựng chatbot hỏi đáp dựa trên tài liệu (RAG — Retrieval-Augmented Generation) sử dụng LangChain.
Các bước thực hiện:
- Chuẩn bị tài liệu: load file PDF/TXT bằng LangChain Document Loaders
- Chia tài liệu thành chunks (RecursiveCharacterTextSplitter, chunk_size=500, overlap=50)
- Tạo embeddings bằng Sentence Transformers và lưu vào vector store (FAISS hoặc Chroma)
- Xây dựng RetrievalQA chain: query → retriever → LLM → answer
- Thêm ConversationBufferMemory để chatbot nhớ lịch sử hội thoại
- Kiểm thử với ít nhất 5 câu hỏi liên tiếp liên quan đến nội dung tài liệu
Output mong đợi: Chatbot trả lời chính xác dựa trên nội dung tài liệu, duy trì ngữ cảnh qua nhiều lượt hội thoại.
📊 Đánh giá kết quả
| Số câu đúng | Đánh giá |
|---|---|
| 16-18 | 🌟 Xuất sắc! Bạn nắm vững kiến thức |
| 13-15 | 👍 Tốt! Cần ôn lại một số chủ đề |
| 9-12 | 📚 Cần học thêm, xem lại các bài |
| dưới 9 | 🔄 Nên học lại từ đầu |
🎓 Hoàn thành khóa học!
Câu hỏi tự kiểm tra
- Sự khác biệt giữa BPE, WordPiece và SentencePiece là gì?
- Tại sao Nucleus Sampling thường được ưa chuộng hơn Greedy Decoding cho text generation?
- LoRA giúp giảm chi phí fine-tuning như thế nào so với full fine-tuning?
- Agent trong LangChain khác Chain thông thường ở điểm nào?
🎉 Tuyệt vời! Bạn đã hoàn thành toàn bộ khóa học GenAI cho Văn bản & Ngôn ngữ!
Tóm tắt kiến thức đã học:
- NLP Fundamentals: Tokenization (BPE, WordPiece, SentencePiece), xử lý văn bản
- Text Generation: Autoregressive decoding, Beam Search, Nucleus Sampling
- Summarization & Translation: Extractive vs Abstractive, Seq2Seq, Attention
- Fine-tuning: LoRA, QLoRA, PEFT — tối ưu hóa chi phí huấn luyện
- LangChain: Chains, Prompts, Memory, Agents — xây dựng ứng dụng LLM
- Embeddings: Word2Vec, BERT, Sentence Transformers — biểu diễn ngữ nghĩa
- Ứng dụng: Text Classification, NER, Prompt Chaining, RAG
Bạn đã hoàn thành khóa học GenAI cho Văn bản & Ngôn ngữ!
Next steps:
- Áp dụng kiến thức vào dự án thực tế
- Xây dựng ứng dụng GenAI hoàn chỉnh
- Thực hành với LangChain và các mô hình open-source
