Návrh Školení
Úvod, cíle a strategie migrace
- Cíle kurzu, soulad profilu účastníků a kritéria úspěchu
- Vysokourovňové přístupy k migraci a ohledy na rizika
- Nastavení pracovních prostorů, repozitářů a laboratorních datových sad
Den 1 — Základy migrace a architektura
- Koncepty Lakehouse, přehled Delta Lake a architektury Databricks
- Rozdíly mezi SMP a MPP a jejich důsledky pro migraci
- Návrh Medallion (Bronze→Silver→Gold) a přehled Unity Catalogu
Laboratoř Den 1 — Překlad uložené procedury
- Praktická migrace ukázkové uložené procedury do notebooku
- Mapování dočasných tabulek a kurzorů na transformace DataFrame
- Validace a srovnání s původním výstupem
Den 2 — Pokročilé Delta Lake & inkrementální import
- Transakce ACID, commit logs, verze a časový cestování
- Auto Loader, vzory MERGE INTO, upserty a evoluce schématu
- OPTIMIZE, VACUUM, Z-ORDER, partitování a optimalizace úložiště
Laboratoř Den 2 — Inkrementální import & optimalizace
- Implementace inkrementálního importu Auto Loader a pracovních postupů MERGE
- Použití OPTIMIZE, Z-ORDER a VACUUM; validace výsledků
- Měření zlepšení času čtení a zápisu
Den 3 — SQL v Databricks, optimalizace & ladění
- Analytické funkce SQL: okénkové funkce, vyšší řádové funkce, zpracování JSON/polí
- Čtení Spark UI, DAGs, shuffle, etap a diagnostika lahvích hrdel
- Vzory optimalizace dotazů: broadcast joins, návrhy, ukládání do mezipaměti a snížení splývání dat
Laboratoř Den 3 — Refaktoring SQL & optimalizace výkonu
- Refaktoring těžkého SQL procesu do optimalizovaného Spark SQL
- Použití tras Spark UI k identifikaci a opravě problémů s rozložením dat a shuffle
- Srovnání před/po a dokumentace kroků optimalizace
Den 4 — Taktické PySpark: Nahrazování procedurální logiky
- Model provedení Spark: řidič, spouštěče, lazy evaluation a strategie partitování
- Transformace smyček a kurzorů do vektorizovaných operací DataFrame
- Modularizace, UDFs/pandas UDFs, ovládací prvky a použitelné knihovny
Laboratoř Den 4 — Refaktoring procedurálních skriptů
- Refaktoring procedurálního ETL skriptu do modularizovaných PySpark notebooků
- Zavedení parametrizace, testování ve stylu jednotek a použitelných funkcí
- Revize kódu a aplikace seznamu kontrol nejlepších postupů
Den 5 — Orchestrace, end-to-end kanál & nejlepší praktiky
- Databricks Workflows: návrh úloh, závislosti úkolů, spouštěče a obsluha chyb
- Návrh inkrementálních kanálů Medallion s pravidly kvality a ověřením schématu
- Integrace s Git (GitHub/Azure DevOps), CI a strategiemi testování pro PySpark logiku
Laboratoř Den 5 — Vytvoření kompletního end-to-end kanálu
- Sestavení kanálu Bronze→Silver→Gold orchestrovaného s Workflows
- Implementace protokolování, auditu, opakování a automatizovaných ověření
- Spuštění celého kanálu, validace výstupů a příprava poznámek k nasazení
Operační schopnosti, řízení a připravenost pro produkci
- Nejlepší praktiky řízení Unity Catalogu, linie a kontroly přístupu
- Náklady, velikost clusterů, dynamické škálování a vzory konkurenčních úloh
- Seznamy kontrol pro nasazení, strategie vrácení zpět a vytváření runbooků
Závěrečná revize, přenos znalostí a další kroky
- Prezentace účastníků své práce na migraci a zkušenosti získané během kurzu
- Analýza laciných míst, doporučené další aktivity a předání materiálů pro školení
- Reference, další vzdělávací cesty a možnosti podpory
Požadavky
- Porozumění konceptům datového inženýrství
- Zkušenosti s SQL a uloženými procedurami (Synapse / SQL Server)
- Zapojení do konceptů orchestrace ETL (ADF nebo podobné)
Cílová skupina
- Technologické manažery s pozadím v oblasti datového inženýrství
- Datoví inženýři přecházející z procedurálních OLAP logik k vzorům Lakehouse
- Platformní inženýři odpovědní za přijetí Databricksu