Xử lý và làm sạch dữ liệu quy mô lớn. Học Apache Spark, PySpark, SQL nâng cao, xử lý dữ liệu streaming, và thực hành với sentiment analysis trên dữ liệu mạng xã hội.
6-8 tuần
Thời gian
15
Bài học
0
Học viên
—
Đánh giá

Giảng viên: MinAI Team
AI & Data Science Educator
Nắm vững kiến thức nền tảng của khóa học
Hiểu sâu lý thuyết và ứng dụng thực tế
Thực hành với các bài tập và code mẫu
Phát triển kỹ năng tư duy và giải quyết vấn đề
Áp dụng kiến thức vào dự án thực tế
Sẵn sàng cho các khóa học nâng cao
15 bài học • Tổng thời gian: 6-8 tuần
0/15
Hoàn thành
Giới thiệu về xử lý dữ liệu quy mô lớn và công cụ Big Data
Window Functions, CTEs, Subqueries và Query Optimization
MultiIndex, GroupBy nâng cao, Merge strategies và Performance optimization
Xử lý missing values, outliers, data validation và data profiling
Extract, Transform, Load pipelines - Architecture, tools và best practices
Tổng quan Apache Spark - Architecture, components và khi nào nên dùng
DataFrame operations, transformations và best practices trong PySpark
SQL queries trong Spark, Catalyst optimizer và advanced transformations
Optimization techniques, caching, partitioning và troubleshooting Spark jobs
Khái niệm xử lý dữ liệu thời gian thực, kiến trúc xử lý luồng
Real-time data processing với Spark Structured Streaming API
Apache Kafka fundamentals, producers, consumers và integration patterns
Text preprocessing, tokenization, feature extraction và NLP fundamentals
Xây dựng end-to-end sentiment analysis pipeline với real-world data
Kiểm tra kiến thức toàn khóa học Data Wrangling & Big Data

AI & Data Science Educator
Đội ngũ giảng viên MinAI với kinh nghiệm thực tế trong lĩnh vực AI, Machine Learning và Data Science. Chúng tôi cam kết mang đến nội dung chất lượng và hỗ trợ học viên tận tình.
0 câu hỏi
Hãy là người đầu tiên đặt câu hỏi về khóa học này!
Tham gia cùng hàng ngàn học viên đã thành công với Xử lý Dữ liệu và Cơ bản Big Data. Hoàn toàn miễn phí và không giới hạn thời gian.
Hỏi AI Mentor
Hỗ trợ 24/7