Návrh Školení

Úvod, cíle a strategie migrace

  • Cíle kurzu, soulad profilů účastníků a kritéria úspěchu
  • Vysokourovňové přístupy k migraci a zvážení rizik
  • Nastavení pracovních prostorů, repozitářů a datových sad pro laboratoře

Den 1 — Základy migrace a architektury

  • Koncepty Lakehouse, přehled Delta Lake a architektura Databricks
  • Rozdíly mezi SMP a MPP a jejich dopady na migraci
  • Vzor Medallion (Bronze→Silver→Gold) a přehled Unity Catalogu

Laboratoř Den 1 — Překlad uložené procedury

  • Praktická migrace ukázkové uložené procedury do poznámkového bloku
  • Mapování dočasných tabulek a kurzorů na transformace DataFrame
  • Validace a srovnání s původním výstupem

Den 2 — Pokročilé Delta Lake & inkrementální načítání dat

  • Transakce ACID, commitové záznamy, verzování a časový cestování
  • Auto Loader, vzory MERGE INTO, upserts a evoluce schémata
  • OPTIMIZE, VACUUM, Z-ORDER, particiování a optimalizace úložiště

Laboratoř Den 2 — Inkrementální ingestační & optimalizační rutiny

  • Implementace ingestace Auto Loader a pracovních postupů MERGE
  • Aplikace OPTIMIZE, Z-ORDER a VACUUM; validace výsledků
  • Měření zlepšení čtení a zápisu

Den 3 — SQL v Databricks, optimalizace & ladění výkonu

  • Analytické funkce SQL: okenní funkce, vyšší řádové funkce, zpracování JSON/pole
  • Čtení Spark UI, DAGů, směšování, fází, úkolů a diagnostika úzkých míst
  • Vzory optimalizace dotazů: broadcast spojení, nápovědy, vykreslování do mezipaměti a snížení přetečení

Laboratoř Den 3 — Refaktoring SQL & optimalizace výkonu

  • Refaktoring těžkého procesu SQL do optimalizovaného Spark SQL
  • Použití trasování v Spark UI k identifikaci a odstranění skew a směšovacích problémů
  • Měření před/po a dokumentace optimalizačních kroků

Den 4 — Taktické PySpark: Nahrazení procedurální logiky

  • Model provedení Spark: řidič, exekutoři, lazy evaluation a strategie particiování
  • Převod smyček a kurzorů do vektorizovaných operací DataFrame
  • Modularizace, UDFs/pandas UDFs, widgety a znovupoužitelné knihovny

Laboratoř Den 4 — Refaktoring procedurálních skriptů

  • Refaktoring procedurálního ETL skriptu do modulárních PySpark poznámkových bloků
  • Úvod do parametrizace, jednotkových testů a znovupoužitelných funkcí
  • Revize kódu a aplikace seznamu kontrol nejlepších praktik

Den 5 — Orchestrování, kompletní potrubí & nejlepší praktiky

  • Databricks Workflows: návrh úloh, závislosti úkolů, spouštěče a obsluha chyb
  • Návrh inkrementálních potrubí Medallion s pravidly kvality a validací schémata
  • Integrace s Git (GitHub/Azure DevOps), CI a strategie testování pro PySpark logiku

Laboratoř Den 5 — Vytvoření kompletního potrubí od konce k konci

  • Sestavení potrubí Bronze→Silver→Gold orchestrovaného s Workflows
  • Implementace protokolování, auditu, opakování a automatizovaných validací
  • Spuštění celého potrubí, validace výstupů a příprava poznámek k nasazení

Operační použití, řízení a připravenost pro produkci

  • Nejlepší praktiky řízení Unity Catalogu, lináži a ovládání přístupu
  • Náklady, velikost clusterů, automatické měnování a vzory současné spouštění úloh
  • Seznamy kontrol pro nasazení, strategie vrácení zpět a vytváření operačních návodů

Konečné posouzení, přenos znalostí a další kroky

  • Prezentace účastníků své migrace práce a naučených lekcí
  • Analýza mezer, doporučené další aktivity a předání materiálů školení
  • Odkazy, další učební cesty a možnosti podpory

Požadavky

  • Chápání konceptů datového inženýrství
  • Zkušenosti s SQL a uloženými procedurami (Synapse / SQL Server)
  • Oboznámení s koncepty orchestrování ETL (ADF nebo podobně)

Cílová skupina

  • Technické manažery s pozadím datového inženýrství
  • Data engineers přecházející z procedurální OLAP logiky k Lakehouse vzorům
  • Platformní inženýry odpovědné za implementaci Databricks
 35 Hodiny

Počet účastníků


Cena za účastníka

Nadcházející kurzy

Související kategorie