Lý thuyết
Bài 5/5

RAG & Vector Databases

Xây dựng Document QA Systems với Retrieval-Augmented Generation và Vector Databases.

📋 Mô tả khóa học

RAG là architecture quan trọng nhất trong enterprise AI applications. Khóa học này giúp bạn xây dựng systems có thể "đọc" documents và trả lời câu hỏi chính xác dựa trên knowledge base của riêng bạn.

🎯 Bạn sẽ học được gì?

  • ✅ RAG architecture & concepts
  • ✅ Vector embeddings & similarity search
  • ✅ Vector databases (Pinecone, ChromaDB, Weaviate)
  • ✅ Document processing & chunking strategies
  • ✅ LangChain for RAG pipelines
  • ✅ Hybrid search & reranking

👥 Khóa học dành cho ai?

  • Developers building document AI
  • Engineers creating chatbots với custom knowledge
  • Teams implementing internal search systems
  • Anyone needing AI with specific domain knowledge

📚 Chương trình học (14 bài)

Module 1: RAG Fundamentals

  1. RAG Concepts - Why RAG, architecture overview
  2. Vector Embeddings - What are embeddings, models
  3. Similarity Search - Cosine similarity, ANN algorithms

Module 2: Vector Databases

  1. ChromaDB - Local vector database, quick start
  2. Pinecone - Cloud vector DB, scalable
  3. Weaviate - Hybrid search, schema design
  4. Comparison & Selection - Which DB for what use case

Module 3: Document Processing

  1. Document Loaders - PDF, Word, Web, multiple formats
  2. Chunking Strategies - Fixed, semantic, recursive
  3. Metadata & Filtering - Tags, sources, permissions

Module 4: Advanced RAG

  1. Query Enhancement - HyDE, multi-query, step-back
  2. Hybrid Search - Keyword + semantic
  3. Reranking - Cohere, cross-encoders
  4. Evaluation & Optimization - Metrics, RAGAS framework

🛠️ Tech Stack

  • Python 3.10+
  • LangChain, LlamaIndex
  • ChromaDB, Pinecone, Weaviate
  • OpenAI Embeddings, Sentence Transformers
  • Streamlit, FastAPI

🚀 Dự án chính

  1. Document QA System - Upload & ask questions
  2. Internal Knowledge Base Chatbot - Company wiki assistant
  3. PDF Analyzer - Extract insights with citations
  4. Semantic Search Engine - Enterprise search solution

⚙️ Prerequisites

  • ✅ GenAI Text Applications course
  • ✅ Python intermediate level
  • ✅ Basic database concepts

Thời lượng: 6-8 tuần (5-7 giờ/tuần)
Level: Intermediate
Pathway: GenAI Coding

Bắt đầu học →