Lý thuyết
Bài 15/15

Data Wrangling & Big Data Basics

Xử lý và làm sạch dữ liệu quy mô lớn

Data Wrangling & Big Data Basics

Khóa học toàn diện về xử lý dữ liệu quy mô lớn với Apache Spark, PySpark, SQL nâng cao và streaming data.

Nội dung khóa học

Module 1: Data Wrangling Nâng cao

  1. Tổng quan Data Wrangling & Big Data
  2. SQL Nâng cao (Window Functions, CTEs)
  3. Pandas Nâng cao (MultiIndex, GroupBy)
  4. Data Quality & Validation
  5. ETL Pipelines với Python

Module 2: Apache Spark & PySpark

  1. Giới thiệu Apache Spark
  2. PySpark DataFrame API
  3. Spark SQL & Transformations
  4. Spark Performance Tuning

Module 3: Streaming & Real-time Data

  1. Data Streaming Fundamentals
  2. Spark Structured Streaming
  3. Kafka & Message Queues

Module 4: Project & NLP

  1. Text Processing & NLP Basics
  2. Dự án: Sentiment Analysis Mạng Xã Hội

Dự án chính

Sentiment Analysis Mạng Xã Hội: Phân tích cảm xúc real-time từ Twitter/Reddit sử dụng PySpark và Spark Streaming.

Yêu cầu

  • Python cơ bản
  • Pandas cơ bản
  • SQL cơ bản