Data Wrangling & Big Data Basics
Khóa học toàn diện về xử lý dữ liệu quy mô lớn với Apache Spark, PySpark, SQL nâng cao và streaming data.
Nội dung khóa học
Module 1: Data Wrangling Nâng cao
- Tổng quan Data Wrangling & Big Data
- SQL Nâng cao (Window Functions, CTEs)
- Pandas Nâng cao (MultiIndex, GroupBy)
- Data Quality & Validation
- ETL Pipelines với Python
Module 2: Apache Spark & PySpark
- Giới thiệu Apache Spark
- PySpark DataFrame API
- Spark SQL & Transformations
- Spark Performance Tuning
Module 3: Streaming & Real-time Data
- Data Streaming Fundamentals
- Spark Structured Streaming
- Kafka & Message Queues
Module 4: Project & NLP
- Text Processing & NLP Basics
- Dự án: Sentiment Analysis Mạng Xã Hội
Dự án chính
Sentiment Analysis Mạng Xã Hội: Phân tích cảm xúc real-time từ Twitter/Reddit sử dụng PySpark và Spark Streaming.
Yêu cầu
- Python cơ bản
- Pandas cơ bản
- SQL cơ bản
