Návrh Školení

Úvod, cíle a strategie migrace

  • Cíle kurzu, soulad profilu účastníků a kritéria úspěchu
  • Vysokourovňové přístupy k migraci a ohledy na rizika
  • Nastavení pracovních prostorů, repozitářů a laboratorních datových sad

Den 1 — Základy migrace a architektura

  • Koncepty Lakehouse, přehled Delta Lake a architektury Databricks
  • Rozdíly mezi SMP a MPP a jejich důsledky pro migraci
  • Návrh Medallion (Bronze→Silver→Gold) a přehled Unity Catalogu

Laboratoř Den 1 — Překlad uložené procedury

  • Praktická migrace ukázkové uložené procedury do notebooku
  • Mapování dočasných tabulek a kurzorů na transformace DataFrame
  • Validace a srovnání s původním výstupem

Den 2 — Pokročilé Delta Lake & inkrementální import

  • Transakce ACID, commit logs, verze a časový cestování
  • Auto Loader, vzory MERGE INTO, upserty a evoluce schématu
  • OPTIMIZE, VACUUM, Z-ORDER, partitování a optimalizace úložiště

Laboratoř Den 2 — Inkrementální import & optimalizace

  • Implementace inkrementálního importu Auto Loader a pracovních postupů MERGE
  • Použití OPTIMIZE, Z-ORDER a VACUUM; validace výsledků
  • Měření zlepšení času čtení a zápisu

Den 3 — SQL v Databricks, optimalizace & ladění

  • Analytické funkce SQL: okénkové funkce, vyšší řádové funkce, zpracování JSON/polí
  • Čtení Spark UI, DAGs, shuffle, etap a diagnostika lahvích hrdel
  • Vzory optimalizace dotazů: broadcast joins, návrhy, ukládání do mezipaměti a snížení splývání dat

Laboratoř Den 3 — Refaktoring SQL & optimalizace výkonu

  • Refaktoring těžkého SQL procesu do optimalizovaného Spark SQL
  • Použití tras Spark UI k identifikaci a opravě problémů s rozložením dat a shuffle
  • Srovnání před/po a dokumentace kroků optimalizace

Den 4 — Taktické PySpark: Nahrazování procedurální logiky

  • Model provedení Spark: řidič, spouštěče, lazy evaluation a strategie partitování
  • Transformace smyček a kurzorů do vektorizovaných operací DataFrame
  • Modularizace, UDFs/pandas UDFs, ovládací prvky a použitelné knihovny

Laboratoř Den 4 — Refaktoring procedurálních skriptů

  • Refaktoring procedurálního ETL skriptu do modularizovaných PySpark notebooků
  • Zavedení parametrizace, testování ve stylu jednotek a použitelných funkcí
  • Revize kódu a aplikace seznamu kontrol nejlepších postupů

Den 5 — Orchestrace, end-to-end kanál & nejlepší praktiky

  • Databricks Workflows: návrh úloh, závislosti úkolů, spouštěče a obsluha chyb
  • Návrh inkrementálních kanálů Medallion s pravidly kvality a ověřením schématu
  • Integrace s Git (GitHub/Azure DevOps), CI a strategiemi testování pro PySpark logiku

Laboratoř Den 5 — Vytvoření kompletního end-to-end kanálu

  • Sestavení kanálu Bronze→Silver→Gold orchestrovaného s Workflows
  • Implementace protokolování, auditu, opakování a automatizovaných ověření
  • Spuštění celého kanálu, validace výstupů a příprava poznámek k nasazení

Operační schopnosti, řízení a připravenost pro produkci

  • Nejlepší praktiky řízení Unity Catalogu, linie a kontroly přístupu
  • Náklady, velikost clusterů, dynamické škálování a vzory konkurenčních úloh
  • Seznamy kontrol pro nasazení, strategie vrácení zpět a vytváření runbooků

Závěrečná revize, přenos znalostí a další kroky

  • Prezentace účastníků své práce na migraci a zkušenosti získané během kurzu
  • Analýza laciných míst, doporučené další aktivity a předání materiálů pro školení
  • Reference, další vzdělávací cesty a možnosti podpory

Požadavky

  • Porozumění konceptům datového inženýrství
  • Zkušenosti s SQL a uloženými procedurami (Synapse / SQL Server)
  • Zapojení do konceptů orchestrace ETL (ADF nebo podobné)

Cílová skupina

  • Technologické manažery s pozadím v oblasti datového inženýrství
  • Datoví inženýři přecházející z procedurálních OLAP logik k vzorům Lakehouse
  • Platformní inženýři odpovědní za přijetí Databricksu
 35 hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie