Návrh Školení
Úvod, cíle a strategie migrace
- Cíle kurzu, soulad profilů účastníků a kritéria úspěchu
- Vysokourovňové přístupy k migraci a zvážení rizik
- Nastavení pracovních prostorů, repozitářů a datových sad pro laboratoře
Den 1 — Základy migrace a architektury
- Koncepty Lakehouse, přehled Delta Lake a architektura Databricks
- Rozdíly mezi SMP a MPP a jejich dopady na migraci
- Vzor Medallion (Bronze→Silver→Gold) a přehled Unity Catalogu
Laboratoř Den 1 — Překlad uložené procedury
- Praktická migrace ukázkové uložené procedury do poznámkového bloku
- Mapování dočasných tabulek a kurzorů na transformace DataFrame
- Validace a srovnání s původním výstupem
Den 2 — Pokročilé Delta Lake & inkrementální načítání dat
- Transakce ACID, commitové záznamy, verzování a časový cestování
- Auto Loader, vzory MERGE INTO, upserts a evoluce schémata
- OPTIMIZE, VACUUM, Z-ORDER, particiování a optimalizace úložiště
Laboratoř Den 2 — Inkrementální ingestační & optimalizační rutiny
- Implementace ingestace Auto Loader a pracovních postupů MERGE
- Aplikace OPTIMIZE, Z-ORDER a VACUUM; validace výsledků
- Měření zlepšení čtení a zápisu
Den 3 — SQL v Databricks, optimalizace & ladění výkonu
- Analytické funkce SQL: okenní funkce, vyšší řádové funkce, zpracování JSON/pole
- Čtení Spark UI, DAGů, směšování, fází, úkolů a diagnostika úzkých míst
- Vzory optimalizace dotazů: broadcast spojení, nápovědy, vykreslování do mezipaměti a snížení přetečení
Laboratoř Den 3 — Refaktoring SQL & optimalizace výkonu
- Refaktoring těžkého procesu SQL do optimalizovaného Spark SQL
- Použití trasování v Spark UI k identifikaci a odstranění skew a směšovacích problémů
- Měření před/po a dokumentace optimalizačních kroků
Den 4 — Taktické PySpark: Nahrazení procedurální logiky
- Model provedení Spark: řidič, exekutoři, lazy evaluation a strategie particiování
- Převod smyček a kurzorů do vektorizovaných operací DataFrame
- Modularizace, UDFs/pandas UDFs, widgety a znovupoužitelné knihovny
Laboratoř Den 4 — Refaktoring procedurálních skriptů
- Refaktoring procedurálního ETL skriptu do modulárních PySpark poznámkových bloků
- Úvod do parametrizace, jednotkových testů a znovupoužitelných funkcí
- Revize kódu a aplikace seznamu kontrol nejlepších praktik
Den 5 — Orchestrování, kompletní potrubí & nejlepší praktiky
- Databricks Workflows: návrh úloh, závislosti úkolů, spouštěče a obsluha chyb
- Návrh inkrementálních potrubí Medallion s pravidly kvality a validací schémata
- Integrace s Git (GitHub/Azure DevOps), CI a strategie testování pro PySpark logiku
Laboratoř Den 5 — Vytvoření kompletního potrubí od konce k konci
- Sestavení potrubí Bronze→Silver→Gold orchestrovaného s Workflows
- Implementace protokolování, auditu, opakování a automatizovaných validací
- Spuštění celého potrubí, validace výstupů a příprava poznámek k nasazení
Operační použití, řízení a připravenost pro produkci
- Nejlepší praktiky řízení Unity Catalogu, lináži a ovládání přístupu
- Náklady, velikost clusterů, automatické měnování a vzory současné spouštění úloh
- Seznamy kontrol pro nasazení, strategie vrácení zpět a vytváření operačních návodů
Konečné posouzení, přenos znalostí a další kroky
- Prezentace účastníků své migrace práce a naučených lekcí
- Analýza mezer, doporučené další aktivity a předání materiálů školení
- Odkazy, další učební cesty a možnosti podpory
Požadavky
- Chápání konceptů datového inženýrství
- Zkušenosti s SQL a uloženými procedurami (Synapse / SQL Server)
- Oboznámení s koncepty orchestrování ETL (ADF nebo podobně)
Cílová skupina
- Technické manažery s pozadím datového inženýrství
- Data engineers přecházející z procedurální OLAP logiky k Lakehouse vzorům
- Platformní inženýry odpovědné za implementaci Databricks