Giới thiệu CNN và Convolution

🎯 Mục tiêu bài học

TB5 min

Sau bài này, bạn sẽ:

✅ Hiểu CNN là gì và tại sao dùng cho ảnh

✅ Hiểu Convolution (phép tích chập) hoạt động thế nào

✅ Biết Filter/Kernel phát hiện features như thế nào

✅ Hiểu Stride và Padding

Bắt đầu Module mới: CNN!

Module trước (ANN) học về neural network cơ bản.

Module này (CNN): Chuyên xử lý hình ảnh - nhận dạng khuôn mặt, phân loại ảnh, xe tự lái...

Task 0

📖 Bảng Thuật Ngữ CNN

TB5 min

Thuật ngữ	Tiếng Việt	Giải thích
CNN	Mạng nơ-ron tích chập	Mạng neural chuyên xử lý dữ liệu có cấu trúc lưới (ảnh)
Convolution	Phép tích chập	Phép toán trượt filter qua ảnh để trích xuất đặc trưng
Filter/Kernel	Bộ lọc	Ma trận nhỏ dùng để phát hiện đặc trưng
Feature Map	Bản đồ đặc trưng	Kết quả sau khi áp dụng filter
Stride	Bước nhảy	Số pixel di chuyển mỗi lần trượt filter
Padding	Đệm viền	Thêm pixel vào viền ảnh
Channel	Kênh màu	Số chiều màu (RGB = 3, Grayscale = 1)
Receptive Field	Trường tiếp nhận	Vùng ảnh gốc mà một neuron "nhìn thấy"

Checkpoint

Bạn đã đọc qua bảng thuật ngữ?

Task 1

🖼️ CNN là gì?

TB5 min

Định nghĩa

CNN giống như cách mắt và não người xử lý hình ảnh:

Mắt nhận ra chi tiết nhỏ (cạnh, góc)
Não ghép chi tiết thành hình dạng (mắt, mũi)
Cuối cùng nhận ra vật thể (khuôn mặt ai)

Convolutional Neural Network (CNN) là kiến trúc neural network được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc lưới - đặc biệt là hình ảnh.

Tại sao gọi là "Convolutional"?

CNN sử dụng phép toán Convolution (tích chập) thay vì phép nhân ma trận thông thường, giúp học được đặc trưng không gian của ảnh.

CNN Overview Nguồn: Stanford CS231n

Checkpoint

Bạn đã hiểu CNN là gì?

Task 2

❓ Tại sao không dùng ANN cho ảnh?

TB5 min

Vấn đề với Fully Connected Network

Vấn đề	Giải thích	Ví dụ
Quá nhiều tham số	Mỗi pixel kết nối với mọi neuron	Ảnh 224×224×3 = 150,528 inputs → 150 triệu weights!
Mất thông tin không gian	Flatten ảnh làm mất vị trí	Pixel góc trái vs góc phải → sau flatten như nhau
Không bất biến dịch chuyển	Ảnh dịch → kết quả khác	Mèo góc trái vs góc phải → 2 kết quả khác
Không hiệu quả	Học lại đặc trưng nhiều lần	Cùng "cạnh" ở nhiều vị trí → học nhiều lần

CNN giải quyết như thế nào?

Giải pháp	Mô tả	Lợi ích
Parameter Sharing	Một filter dùng cho toàn bộ ảnh	Giảm đáng kể số tham số
Local Connectivity	Mỗi neuron chỉ kết nối vùng nhỏ	Giữ thông tin không gian
Translation Invariance	Cùng filter mọi vị trí	Bất biến với dịch chuyển

So sánh số tham số:

Model	Tính toán	Số tham số
ANN cho ảnh 224×224×3	150,528 × 1000 neurons	~150 triệu params
CNN với 32 filters 3×3×3	32 × (3×3×3 + 1)	896 params

→ CNN giảm hơn 100,000 lần số tham số!

Checkpoint

Bạn hiểu tại sao cần CNN cho ảnh?

Task 3

🔍 Phép toán Convolution

TB5 min

Convolution là gì?

Convolution giống như dùng kính lúp nhỏ (filter) quét qua bức ảnh. Mỗi vị trí, nó tính toán và ghi nhận một con số đại diện cho vùng đó.

Công thức

$(I * K)[i,j] = \sum_{m=0}^{k_h-1} \sum_{n=0}^{k_w-1} I[i+m, j+n] \cdot K[m,n]$

Ví dụ tính toán

Phép toán Convolution

Tính góc trên trái của output:

$= 1×1 + 2×0 + 3×1 + 0×0 + 1×1 + 2×0 + 1×1 + 2×0 + 1×1$ $= 1 + 0 + 3 + 0 + 1 + 0 + 1 + 0 + 1 = \boxed{7}$

Filter phát hiện gì?

Filter	Công dụng
`[[-1,0,1], [-1,0,1], [-1,0,1]]`	Phát hiện cạnh dọc
`[[-1,-1,-1], [0,0,0], [1,1,1]]`	Phát hiện cạnh ngang
`[[0,-1,0], [-1,5,-1], [0,-1,0]]`	Làm nét (sharpen)
`[[1/9,...]]` (all 1/9)	Làm mờ (blur)

Checkpoint

Bạn đã hiểu phép Convolution?

Task 4

⚙️ Stride và Padding

TB5 min

Stride (Bước nhảy)

Stride = số pixel filter di chuyển mỗi lần

Stride và Padding trong Convolution

Công thức tính Output Size

$\text{Output Size} = \left\lfloor \frac{W - K + 2P}{S} \right\rfloor + 1$

Trong đó:

$W$ : Input size
$K$ : Kernel size
$P$ : Padding
$S$ : Stride

Ví dụ

Input	Kernel	Padding	Stride	Output
32×32	3×3	0	1	30×30
32×32	3×3	1	1	32×32 (same)
32×32	3×3	1	2	16×16
224×224	7×7	3	2	112×112

Padding = 'same': Output size = Input size Padding = 'valid': Không padding, output nhỏ hơn

Checkpoint

Bạn đã hiểu Stride và Padding?

Task 5

🌈 Multi-Channel Convolution

TB5 min

Convolution trên ảnh RGB (Multi-Channel)

Checkpoint

Bạn hiểu cách xử lý ảnh RGB với CNN?

Task 6

💻 Conv2D trong Keras

TB5 min

Cú pháp Conv2D

python.py

1from tensorflow.keras import layers
2
3# Conv2D layer
4layers.Conv2D(
5    filters=32,              # Số filters (output channels)
6    kernel_size=(3, 3),      # Kích thước filter
7    strides=(1, 1),          # Stride
8    padding='same',          # 'same' hoặc 'valid'
9    activation='relu',       # Activation function
10    input_shape=(28, 28, 1)  # Chỉ cần ở layer đầu
11)

Ví dụ xây dựng CNN

python.py

1from tensorflow import keras
2from tensorflow.keras import layers
3
4model = keras.Sequential([
5    # Conv Block 1
6    layers.Conv2D(32, (3, 3), activation='relu', 
7                  input_shape=(28, 28, 1)),
8    layers.MaxPooling2D((2, 2)),
9    
10    # Conv Block 2
11    layers.Conv2D(64, (3, 3), activation='relu'),
12    layers.MaxPooling2D((2, 2)),
13    
14    # Conv Block 3
15    layers.Conv2D(64, (3, 3), activation='relu'),
16    
17    # Classification Head
18    layers.Flatten(),
19    layers.Dense(64, activation='relu'),
20    layers.Dense(10, activation='softmax')
21])
22
23model.summary()

Tham số quan trọng

Tham số	Ý nghĩa	Giá trị thường dùng
`filters`	Số feature maps output	32, 64, 128, 256, 512
`kernel_size`	Kích thước filter	(3,3) phổ biến nhất
`strides`	Bước nhảy	(1,1) hoặc (2,2)
`padding`	Đệm viền	'same' hoặc 'valid'
`activation`	Hàm kích hoạt	'relu'

Checkpoint

Bạn đã biết sử dụng Conv2D trong Keras?

Task 7

🎯 Tổng kết

TB5 min

Những điểm quan trọng

CNN chuyên xử lý dữ liệu có cấu trúc không gian (ảnh)
Convolution = trượt filter qua ảnh để trích xuất features
Ưu điểm CNN:
- Parameter sharing → ít tham số
- Local connectivity → giữ thông tin không gian
- Translation invariance → bất biến với dịch chuyển
Stride & Padding kiểm soát output size
Multi-channel: Filter depth = Input depth

Công thức cần nhớ

$\text{Output} = \left\lfloor \frac{W - K + 2P}{S} \right\rfloor + 1$

Bài tiếp theo

Chúng ta sẽ học về:

Pooling Layer: Giảm kích thước, giữ đặc trưng quan trọng
Kiến trúc CNN hoàn chỉnh
Hierarchical Feature Learning

🎉 Tuyệt vời! Bạn đã hiểu Convolution - trái tim của CNN!

Task 8