Giáo trình khóa học
Bài | Số buổi | Modules | Labs |
---|---|---|---|
Data Architecture | 1 | + Data architectures: Data Fabric and Data Mesh + Data management systems: Data Warehouse, Data Mart, Data Lake and Lake House + Data processing architectures: Lambda, Kappa and DataFlow | + Constructing a Data Lake Using Trino, Hive, and MinIO. |
Source Systems | 2 | + Sources systems: Files, Change Data Capture (CDC), OLAP&OLTP, and Logs + Message broker models + Fundamentals of Kafka: architecture, offset, partitions, and assign-message mechanisms + How to setup Kafka properly: idle consumers, and rebalancing, .etc. + CDC methods and Debezium | + Set up a lab environment using Confluent Kafka, Debezium, and PostgreSQL with Docker Compose. + Establish a continuous data writing flow into PostgreSQL. + Implement a CDC system to capture changes from a PostgreSQL database and publish these change events to Kafka. |
Storage
| 1 | + Data Storage Systems: File Storage, Object Storage, Block Storage, Cache, HDFS and Streaming Storage + ACID + Table partitioning + Data Lake table formats: Delta Lake, Iceberg and Hudi | + Constructing a Lakehouse with Delta Lake, Trino, Hive, and MinIO. |
Ingestion I: Batch | 2 | + Batch ingestion concept + Spark architecture (in both cluster and local mode) + Spark components + Spark DataFrame and RDD + Understand Catalyst optimizer mechanism + Optimization techniques | + Practice with Spark RDD, DataFrame, and Spark SQL. + Develop a text analyzer and submit the job to both local Spark and GCP Dataproc. |
Ingestion II: Stream | 2 | + Stream ingestion concepts: execution modes, windows, and notions of time + Flink Architecture and deployment modes + Table API + Datastream API and Watermarks + Optimization techniques | + Master Flink operators through hands-on practice. + Configure a local streaming platform. + Develop a streaming text analyzer application. + Create a streaming pipeline to process signals from IoT devices using both DataStream and Table APIs. |
Pipeline Orchestration
| 1 | + Pipeline orchestration benefits + How Airflow beats cronjob? + Airflow architecture and operators + Airflow administration | + Deploy the Airflow platform locally using Docker Compose. + Gain proficiency with Airflow operators through practical exercises. + Develop an end-to-end machine learning pipeline using Airflow, starting from data preparation to model training. |
Bài giảng mẫu
Pipeline Orchestration
Lịch khai giảng
Các lớp sẽ đóng đăng ký khi đủ số lượng học viên, thường sẽ đóng trước lịch khai giảng 1-3 tháng
Đội ngũ giảng viên
Quân Đặng
Founder & CEO
Giảng viên khóa: MLOps
Founder FSDS & Capydata. Senior Data Scientist với hơn 8 năm kinh nghiệm trong ngành.
Quý Đinh
Senior Machine Learning Engineer
Giảng viên khóa: Recommender System
Senior Machine Learning Engineer tại Chope Singapore với hơn 7 năm kinh nghiệm trong ngành.
Đức Lương
Senior Machine Learning Engineer
Giảng viên khóa: Data Engineering
Senior Machine Learning Engineer tại GeoComply với hơn 7 năm kinh nghiệm trong ngành.
Tú Trần
Research Scientist
Giảng viên khóa: Natural Language Processing
Research Scientist tại Knorex với hơn 5 năm kinh nghiệm trong ngành.
Hoàng Phạm
Head of AI OLLI Technology & Lecturer ĐH KHTN TPHCM
Giảng viên khóa: Computer Vision
Có hơn 13 năm kinh nghiệm trong ngành.
Quan Huỳnh
Data Science Manager
Giảng viên khóa: Machine Learning
Đang làm việc tại HCLTech có hơn 8 năm kinh nghiệm trong ngành.
Tiến Hoàng
Lead Data Analyst
Giảng viên khóa: Data Analytics
Đang làm việc tại Property Guru có hơn 6 năm kinh nghiệm trong ngành.
Nguyên Phạm
Senior MLOps Engineer
Giảng viên khóa: MLOps
Đang làm việc tại MoMo với hơn 5 năm kinh nghiệm trong ngành.
Câu hỏi thường gặp
Trở thành chuyên gia
Machine Learning Engineering
Tham gia cùng hàng trăm học viên toàn cầu và cùng phát triển với fullstackdatascience!