Návrh Školení

Týden 1 — Úvod do datového inženýrství

  • Základy datového inženýrství a moderní datové stacky
  • Vzory a zdroje ingestování dat
  • Porovnání batch a streamovacích konceptů a jejich použití
  • Počítačová laboratoř: ingestování ukázkových dat do cloudu

Týden 2 — Databricks Lakehouse Foundation Badge

  • Základy platformy Databricks a navigace v pracovním prostoru
  • Koncepty Delta Lake: ACID, časové cesty a evoluce schématu
  • Zabezpečení pracovního prostoru, řízení přístupů a základy Unity Catalog
  • Počítačová laboratoř: vytváření a správa Delta tabulek

Týden 3 — Pokročilé SQL na Databricksu

  • Pokročilé konstrukce SQL a okenní funkce ve velkém měřítku
  • Optimalizace dotazů, vysvětlivky plánů a patterny vědomé o nákladech
  • Materiálované zobrazení, vyrovnávací paměť a optimalizace výkonu
  • Počítačová laboratoř: optimalizace analytických dotazů na velké soubory dat

Týden 4 — Databricks Certified Developer for Apache Spark (Příprava)

  • Architektura Spark, RDDs, DataFrames a Datasets v detailu
  • Klíčové transformace a akce Sparku; úvahy o výkonu
  • Základy streamování Sparku a strukturované vzory streamování
  • Cvičení z praktických zkoušek a počítačové testové úkoly

Týden 5 — Úvod do modelování dat

  • Koncepty: dimenzionální modelování, design hvězdičkových/schémat a normalizace
  • Modelování Lakehouse vs tradiční přístupy k datovým skladům
  • Návrhové patterny pro analytické sady dat připravené ke konzumu
  • Počítačová laboratoř: vytváření tabulek a zobrazení připravených k konzumu

Týden 6 — Úvod do nástrojů pro import a automatizace ingestování dat

  • Connectory a nástroje pro ingestování dat Databricks (AWS Glue, Data Factory, Kafka)
  • Vzory streamování a design mikro-batchů
  • Ověřování dat, kontroly kvality a vynucování schématu
  • Počítačová laboratoř: vytváření odolných kanálů ingestování

Týden 7 — Úvod do Git Flow a CI/CD pro datové inženýrství

  • GIT flow strategie větví a organizace repozitáře
  • CI/CD kanály pro notebooks, úlohy a infrastrukturu jako kód
  • Testování, linting a automatizace nasazování datového kódu
  • Počítačová laboratoř: implementace GIT založeného workflow a automatizovaného nasazování úloh

Týden 8 — Databricks Certified Data Engineer Associate (Příprava) & Datové inženýrské vzory

  • Přehled tématických oblastí certifikace a praktická cvičení
  • Architektonické patterny: bronz/stříbro/zlato, CDC, pomalu se měnící dimenze
  • Operační patterny: monitorování, upozorňování a linie dat
  • Počítačová laboratoř: end-to-end kanál aplikující inženýrské vzory

Týden 9 — Úvod do Airflowu a Astronomeru; Skriptování

  • Koncepty Airflow: DAGs, úkoly, operátory a naplánování
  • Přehled platformy Astronomer a nejlepší praktiky orchestrování
  • Skriptování pro automatizaci: Python skriptovací vzory pro datové úkoly
  • Počítačová laboratoř: orchestrace Databricks úloh pomocí Airflow DAGs

Týden 10 — Datová vizualizace, Tableau a personalizovaný finální projekt

  • Připojení Tableau k Databricksu a nejlepší praktiky pro vrstvy BI
  • Zásady návrhu dashboardů a vizualizace vědomá o výkonu
  • Kulminace: personalizované scoping, implementace a prezentace finálního projektu
  • Finální prezentace, peer review a zpětná vazba od instruktora

Souhrn a další kroky

Požadavky

  • Pochopení základních SQL a datových konceptů
  • Zkušenosti s programováním v Pythonu nebo Scali
  • Obrněnost se cloudovými službami a virtuálními prostředími

Cílová skupina

  • Členové a aspiranti data engineerů
  • Vývojáři ETL/BI a analytickí inženýři
  • Týmy pro datovou platformu a DevOps podporující potrubce (pipelines)
 350 hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie