Návrh Školení

Úvod do Apache Airflow

  • Co je orchestrace pracovních postupů
  • Klíčové funkce a výhody Apache Airflow
  • Vylepšení v Airflow 2.x a přehled ekosystému

Architektura a základní koncepty

  • Scheduler, webové rozhraní a pracovní procesy
  • DAGs (Directed Acyclic Graphs), úkoly a operátory
  • Executors a backends (Local, Celery, Kubernetes)

Instalace a nastavení

  • Instalace Airflow v lokálním a cloudu prostředí
  • Konfigurace Airflow s různými executors
  • Nastavení metadatových databází a připojení

Pohyboání se v rozhraní Airflow UI a CLI

  • Průzkum webového rozhraní Airflow
  • Monitorování spuštění DAGs, úkolů a logů
  • Použití Airflow CLI pro správu

Vytváření a správa DAGs

  • Vytváření DAGs pomocí TaskFlow API
  • Použití operátorů, senzorů a háčků (hooks)
  • Správa závislostí a plánovacích intervalů

Integrace Airflowu s daty a cloudu službami

  • Připojení k databázím, API a zpravodajským frontám (message queues)
  • Spouštění ETL kanálů pomocí Airflow
  • Cloudu integrace: operátory pro AWS, GCP, Azure

Monitorování a přehlednost (observability)

  • Logy úkolů a monitorování v reálném čase
  • Metriky s Prometheus a Grafana
  • Upozorňování a oznámení prostřednictvím e-mailu nebo Slacku

Zabezpečení Apache Airflow

  • Role-based access control (RBAC)
  • Autentizace pomocí LDAP, OAuth a SSO
  • Správa tajných klíčů s Vault a cloudovými úložišti tajných klíčů

Měřítkování Apache Airflow

  • Paralelismus, konkurenceschopnost a fronty úkolů (task queues)
  • Použití CeleryExecutor a KubernetesExecutor
  • Nasazení Airflowu na Kubernetes pomocí Helm

Nejlepší praktiky pro produkční prostředí

  • Správa verzí a CI/CD pro DAGs
  • Testování a ladění DAGs
  • Udržování spolehlivosti a výkonu v měřítku

Řešení potíží a optimalizace

  • Ladicí chybných DAGs a úkolů
  • Optimalizace výkonu DAGs
  • Běžné pasti a jak je vyhnout

Shrnutí a další kroky

Požadavky

  • Zkušenosti s programováním v Pythonu
  • Odborné znalosti konceptů datového inženýrství nebo DevOps
  • Pochopení ETL nebo orchestrování pracovních postupů

Cílová skupina

  • Data scientisti
  • Datoví inženýři
  • DevOps a infrastrukturální inženýři
  • Softwaroví vývojáři
 21 hodiny

Počet účastníků


Cena za účastníka

Reference (7)

Nadcházející kurzy

Související kategorie