Lý thuyết
Bài 2/14

Cài Đặt Môi Trường Python

Hướng dẫn cài đặt Python, Anaconda và thiết lập môi trường làm việc

Cài Đặt Môi Trường Python

1. Các cách cài đặt Python

Có nhiều cách để cài đặt Python cho Data Science:

Phương phápƯu điểmNhược điểmPhù hợp với
Python.orgNhẹ, cơ bảnPhải cài thư viện thủ côngBeginners
AnacondaĐầy đủ thư việnDung lượng lớn (~3GB)Data Scientists
MinicondaNhẹ, linh hoạtCần cài thêm packagesExperienced users
Google ColabKhông cần càiCần internetQuick experiments

2. Cài đặt Anaconda (Khuyến nghị)

Bước 1: Tải Anaconda

Truy cập anaconda.com/download và tải phiên bản phù hợp:

  • Windows: Anaconda3-xxx-Windows-x86_64.exe
  • macOS: Anaconda3-xxx-MacOSX-x86_64.pkg
  • Linux: Anaconda3-xxx-Linux-x86_64.sh

Bước 2: Cài đặt

Windows:

powershell
1# Chạy file .exe và làm theo hướng dẫn
2# Tick "Add Anaconda to PATH" (optional)

macOS/Linux:

Bash
1# macOS
2chmod +x Anaconda3-xxx-MacOSX-x86_64.sh
3./Anaconda3-xxx-MacOSX-x86_64.sh
4
5# Linux
6chmod +x Anaconda3-xxx-Linux-x86_64.sh
7./Anaconda3-xxx-Linux-x86_64.sh

Bước 3: Kiểm tra cài đặt

Bash
1# Mở Terminal/Anaconda Prompt
2conda --version
3# Output: conda 23.x.x
4
5python --version
6# Output: Python 3.11.x

3. Quản lý môi trường với Conda

3.1 Tạo môi trường mới

Bash
1# Tạo môi trường với Python 3.11
2conda create -n datascience python=3.11
3
4# Kích hoạt môi trường
5conda activate datascience
6
7# Kiểm tra
8python --version

3.2 Cài đặt thư viện

Bash
1# Cài đặt các thư viện Data Science cơ bản
2conda install pandas numpy matplotlib seaborn
3
4# Hoặc dùng pip
5pip install pandas numpy matplotlib seaborn
6
7# Cài nhiều thư viện cùng lúc
8conda install pandas numpy scipy scikit-learn jupyter

3.3 Các lệnh conda thường dùng

Bash
1# Xem danh sách môi trường
2conda env list
3
4# Xem packages đã cài
5conda list
6
7# Cập nhật package
8conda update pandas
9
10# Xóa package
11conda remove seaborn
12
13# Xóa môi trường
14conda env remove -n datascience
15
16# Export môi trường
17conda env export > environment.yml
18
19# Tạo từ file yml
20conda env create -f environment.yml

4. Jupyter Notebook

Jupyter Notebook là công cụ không thể thiếu cho Data Science.

4.1 Cài đặt và chạy

Bash
1# Cài đặt
2conda install jupyter
3
4# Chạy Jupyter Notebook
5jupyter notebook
6
7# Hoặc JupyterLab (giao diện mới hơn)
8conda install jupyterlab
9jupyter lab

4.2 Shortcuts quan trọng

ShortcutChức năng
Shift + EnterChạy cell và di chuyển xuống
Ctrl + EnterChạy cell tại chỗ
AThêm cell phía trên
BThêm cell phía dưới
DDXóa cell
MChuyển sang Markdown
YChuyển sang Code
EscCommand mode
EnterEdit mode

4.3 Magic Commands

Python
1# Đo thời gian chạy
2%time df = pd.read_csv('large_file.csv')
3
4# Đo thời gian trung bình (chạy nhiều lần)
5%timeit df['col'].sum()
6
7# Hiển thị biểu đồ inline
8%matplotlib inline
9
10# Load extension
11%load_ext autoreload
12%autoreload 2
13
14# Xem tất cả variables
15%whos
16
17# Chạy file Python
18%run script.py

5. VS Code cho Python

5.1 Cài đặt VS Code

  1. Tải từ code.visualstudio.com
  2. Cài đặt Extensions:
    • Python (Microsoft)
    • Pylance (Microsoft)
    • Jupyter (Microsoft)

5.2 Cấu hình Python Interpreter

JSON
1// settings.json
2{
3 "python.defaultInterpreterPath": "~/anaconda3/envs/datascience/bin/python",
4 "python.linting.enabled": true,
5 "python.linting.pylintEnabled": true,
6 "python.formatting.provider": "black"
7}

5.3 Chạy Jupyter trong VS Code

  1. Tạo file .ipynb
  2. Chọn kernel (môi trường Python)
  3. Viết code và chạy với Shift + Enter

6. Google Colab (Không cần cài đặt)

6.1 Truy cập

Vào colab.research.google.com và đăng nhập với Google account.

6.2 Ưu điểm của Colab

  • Miễn phí GPU/TPU - Phù hợp Deep Learning
  • Không cần cài đặt - Chạy trên browser
  • Đã cài sẵn thư viện - Pandas, TensorFlow, PyTorch
  • Lưu trên Drive - Dễ chia sẻ

6.3 Kết nối Google Drive

Python
1# Mount Google Drive
2from google.colab import drive
3drive.mount('/content/drive')
4
5# Đọc file từ Drive
6import pandas as pd
7df = pd.read_csv('/content/drive/MyDrive/data.csv')

6.4 Cài thêm thư viện

Python
1# Cài thư viện mới
2!pip install polars plotly streamlit
3
4# Kiểm tra version
5!pip show pandas

7. File requirements.txt

7.1 Tạo requirements.txt

Bash
1# Export tất cả packages
2pip freeze > requirements.txt
3
4# Hoặc tạo thủ công
5echo "pandas>=2.0.0
6numpy>=1.24.0
7matplotlib>=3.7.0
8seaborn>=0.12.0
9scikit-learn>=1.3.0
10jupyter>=1.0.0" > requirements.txt

7.2 Cài từ requirements.txt

Bash
1pip install -r requirements.txt

8. Kiểm tra môi trường

Chạy script sau để kiểm tra môi trường đã sẵn sàng:

Python
1# check_environment.py
2import sys
3print(f"Python version: {sys.version}")
4
5# Kiểm tra các thư viện
6libraries = ['pandas', 'numpy', 'matplotlib', 'seaborn', 'sklearn']
7
8for lib in libraries:
9 try:
10 module = __import__(lib)
11 version = getattr(module, '__version__', 'unknown')
12 print(f"✅ {lib}: {version}")
13 except ImportError:
14 print(f"❌ {lib}: NOT INSTALLED")

Output mong đợi:

Text
1Python version: 3.11.5
2✅ pandas: 2.1.0
3✅ numpy: 1.24.3
4✅ matplotlib: 3.7.2
5✅ seaborn: 0.12.2
6✅ sklearn: 1.3.0

Tổng Kết

Trong bài này, bạn đã học:

  • ✅ Các cách cài đặt Python cho Data Science
  • ✅ Cài đặt và sử dụng Anaconda
  • ✅ Quản lý môi trường với Conda
  • ✅ Sử dụng Jupyter Notebook
  • ✅ Cấu hình VS Code cho Python
  • ✅ Sử dụng Google Colab

Bài tiếp theo: Cú pháp cơ bản Python - Variables, Data Types, Operators!