Lý thuyết
Bài 3/3

GenAI Image & Multimodal AI

Tạo và phân tích hình ảnh với DALL-E, Stable Diffusion, GPT-4V - Xây dựng Multimodal AI Apps.

📋 Mô tả khóa học

AI không chỉ là text - khóa học này giúp bạn generate images, analyze visuals, và build multimodal applications kết hợp text + image + audio. Từ DALL-E đến GPT-4V và Stable Diffusion.

🎯 Bạn sẽ học được gì?

  • ✅ Image generation (DALL-E 3, Midjourney, SD)
  • ✅ Image editing & inpainting
  • ✅ Vision models (GPT-4V, Claude 3 Vision)
  • ✅ Multimodal applications architecture
  • ✅ ComfyUI & ControlNet
  • ✅ Image-to-text & text-to-image pipelines

👥 Khóa học dành cho ai?

  • Developers expanding to visual AI
  • Product teams building image features
  • Creative technologists
  • Anyone building multimodal applications

📚 Chương trình học (14 bài)

Module 1: Image Generation

  1. Image Gen Fundamentals - How diffusion models work
  2. DALL-E 3 - API usage, prompt engineering for images
  3. Stable Diffusion - Local setup, models, samplers
  4. Advanced Prompting - Style, composition, consistency

Module 2: Image Editing & Control

  1. Image Editing - Inpainting, outpainting, variations
  2. ComfyUI - Node-based workflows
  3. ControlNet - Pose, depth, edge control
  4. Style Transfer - Consistent characters, brand styles

Module 3: Vision & Understanding

  1. Vision Models - GPT-4V, Claude 3 Vision
  2. Image Analysis - OCR, object detection, classification
  3. Visual QA - Answer questions about images
  4. Document Vision - Extract data from documents/receipts

Module 4: Multimodal Applications

  1. Multimodal Pipelines - Combine text, image, audio
  2. Capstone Project - Complete multimodal app

🛠️ Tech Stack

  • Python 3.10+
  • OpenAI API (DALL-E, GPT-4V)
  • Anthropic Claude 3 Vision
  • Stable Diffusion, ComfyUI
  • Replicate API

🚀 Dự án chính

  1. AI Art Generator - Custom style image creation
  2. Visual QA System - Upload image, ask questions
  3. Product Image Analyzer - E-commerce image processing
  4. Video Thumbnail Generator - Auto-generate thumbnails

⚙️ Prerequisites

  • ✅ RAG & Vector Databases course
  • ✅ Python intermediate level
  • ✅ GPU recommended (for local SD)

Thời lượng: 6-8 tuần (5-7 giờ/tuần)
Level: Intermediate
Pathway: GenAI Coding

Bắt đầu học →