Khóa học

Giáo trình khóa học

BàiSố buổiModulesLabs
Data Architecture
1
+ Data architectures: Data Fabric and Data Mesh
+ Data management systems: Data Warehouse, Data Mart, Data Lake and Lake House
+ Data processing architectures: Lambda, Kappa and DataFlow
+ Constructing a Data Lake Using Trino, Hive, and MinIO.
Source Systems
2
+ Sources systems: Files, Change Data Capture (CDC), OLAP&OLTP, and Logs
+ Message broker models
+ Fundamentals of Kafka: architecture, offset, partitions, and assign-message mechanisms
+ How to setup Kafka properly: idle consumers, and rebalancing, .etc.
+ CDC methods and Debezium
+ Set up a lab environment using Confluent Kafka, Debezium, and PostgreSQL with Docker Compose.
+ Establish a continuous data writing flow into PostgreSQL.
+ Implement a CDC system to capture changes from a PostgreSQL database and publish these change events to Kafka.
Storage
1
+ Data Storage Systems: File Storage, Object Storage, Block Storage, Cache, HDFS and Streaming Storage
+ ACID
+ Table partitioning
+ Data Lake table formats: Delta Lake, Iceberg and Hudi
+ Constructing a Lakehouse with Delta Lake, Trino, Hive, and MinIO.
Ingestion I: Batch
2
+ Batch ingestion concept
+ Spark architecture (in both cluster and local mode)
+ Spark components
+ Spark DataFrame and RDD
+ Understand Catalyst optimizer mechanism
+ Optimization techniques
+ Practice with Spark RDD, DataFrame, and Spark SQL.
+ Develop a text analyzer and submit the job to both local Spark and GCP Dataproc.
Ingestion II: Stream
2
+ Stream ingestion concepts: execution modes, windows, and notions of time
+ Flink Architecture and deployment modes
+ Table API
+ Datastream API and Watermarks
+ Optimization techniques
+ Master Flink operators through hands-on practice.
+ Configure a local streaming platform.
+ Develop a streaming text analyzer application.
+ Create a streaming pipeline to process signals from IoT devices using both DataStream and Table APIs.
Pipeline Orchestration
1
+ Pipeline orchestration benefits
+ How Airflow beats cronjob?
+ Airflow architecture and operators
+ Airflow administration
+ Deploy the Airflow platform locally using Docker Compose.
+ Gain proficiency with Airflow operators through practical exercises.
+ Develop an end-to-end machine learning pipeline using Airflow, starting from data preparation to model training.

Bài giảng mẫu

Pipeline Orchestration

Đội ngũ giảng viên

Quân Đặng

Quân Đặng

Founder & CEO

Giảng viên khóa: MLOps

Founder FSDS & Capydata. Senior Data Scientist với hơn 8 năm kinh nghiệm trong ngành.

Quý Đinh

Quý Đinh

Senior Machine Learning Engineer

Giảng viên khóa: Recommender System

Senior Machine Learning Engineer tại Chope Singapore với hơn 7 năm kinh nghiệm trong ngành.

Đức Lương

Đức Lương

Senior Machine Learning Engineer

Giảng viên khóa: Data Engineering

Senior Machine Learning Engineer tại GeoComply với hơn 7 năm kinh nghiệm trong ngành.

Tú Trần

Tú Trần

Research Scientist

Giảng viên khóa: Natural Language Processing

Research Scientist tại Knorex với hơn 5 năm kinh nghiệm trong ngành.

Hoàng Phạm

Hoàng Phạm

Head of AI OLLI Technology & Lecturer ĐH KHTN TPHCM

Giảng viên khóa: Computer Vision

Có hơn 13 năm kinh nghiệm trong ngành.

Thạch Lê

Thạch Lê

Data Science Manager

Giảng viên khóa: LLM

Có hơn 10 năm kinh nghiệm trong ngành.

Quan Huỳnh

Quan Huỳnh

Data Science Manager

Giảng viên khóa: Machine Learning

Đang làm việc tại HCLTech có hơn 8 năm kinh nghiệm trong ngành.

Tiến Hoàng

Tiến Hoàng

Lead Data Analyst

Giảng viên khóa: Data Analytics

Đang làm việc tại Property Guru có hơn 6 năm kinh nghiệm trong ngành.

Nguyên Phạm

Nguyên Phạm

Senior MLOps Engineer

Giảng viên khóa: MLOps

Đang làm việc tại MoMo với hơn 5 năm kinh nghiệm trong ngành.

Đức Nguyễn

Đức Nguyễn

Senior Data Scientist

Giảng viên khóa: Speech

Đang làm việc tại Mobifone IT Center với hơn 5 năm kinh nghiệm trong ngành.

Câu hỏi thường gặp

Trở thành chuyên gia Machine Learning Engineering

Tham gia cùng hàng trăm học viên toàn cầu và cùng phát triển với fullstackdatascience!

© 2025 Full Stack Data Science. All rights reserved.