Návrh Školení
PySpark a strojové učení
Modul 1: Základy velkých dat a Spark
- Přehled ekosystému velkých dat a role Sparku v moderních datových platformách
- Pochopení architektury Sparku: řadič, executoři, správce clusteru, lenivé vyhodnocování, DAG a plánování výpočtů
- Rozdíly mezi API RDD a DataFrame a kdy použít každý přístup
- Vytváření a konfigurace SparkSession a pochopení základů konfigurace aplikací
Modul 2: PySpark DataFrames
- Čtení a zápis dat z podnikových zdrojů a ve formátech (CSV, JSON, Parquet, Delta)
- Práce s PySpark DataFrames: transformace, akce, výrazy sloupců, filtrování, spoje a agregace
- Implementace pokročilých operací, jako jsou okenní funkce, práce s časovými razítky a zpracování vložených dat
- Aplikace kontrol kvality dat a psaní přetřiditelného a udržovatelného kódu v PySparku
Modul 3: Efektivní zpracování velkých datových sad
- Pochopení základů výkonu: strategie partitioningu, chování shuffle, cache a persistence
- Používání optimalizačních technik, včetně broadcast joinů a analýzy plánu výpočtu
- Efektivní zpracování velkých datových sad a osvědčené postupy pro škálovatelné pracovní postupy dat
- Pochopení evoluce schémat a moderních úložišť používaných v podnikovém prostředí
Modul 4: Inženýrství funkcí ve velkém měřítku
- Provádění inženýrství funkcí pomocí Spark MLlib: zpracování chybějících hodnot, kódování kategoriálních proměnných a škálování funkcí
- Návrh přetřiditelných kroků předzpracování a příprava datových sad pro ML pipeline
- Úvod do výběru funkcí a zpracování nevyvážených datových sad
Modul 5: Strojové učení se Spark MLlib
- Pochopení architektury MLlib a vzoru Estimator/Transformer
- Trénování regresních a klasifikačních modelů ve velkém měřítku (lineární regrese, logistická regrese, rozhodovací stromy, náhodný les)
- Porovnávání modelů a interpretace výsledků v distribuovaných pracovních postupech strojového učení
Modul 6: Kompletní ML pipeline
- Tvorba kompletních ML pipeline kombinujících předzpracování, inženýrství funkcí a modelování
- Aplikace strategií rozdělení dat na trénovací, validační a testovací sadu
- Provádění křížové validace a ladění hyperparametrů pomocí mřížového a náhodného vyhledávání
- Strukturování reprodukovatelných experimentů v oblasti strojového učení
Modul 7: Hodnocení modelů a praktické rozhodování v oblasti ML
- Aplikace vhodných metrik hodnocení pro regresní a klasifikační problémy
- Identifikace přeučení a podučování a provádění praktických rozhodnutí při výběru modelů
- Interpretace důležitosti funkcí a pochopení chování modelů
Modul 8: Produkční a podnikové postupy
- Persistování a načítání modelů v Sparku
- Implementace pracovních postupů batch inference na velkých datových sadách
- Pochopení životního cyklu strojového učení v podnikovém prostředí
- Úvod do verzování, sledování experimentů a základních strategií testování
Praktický výstup
- Schopnost samostatně pracovat s PySparkem
- Schopnost efektivně zpracovávat velké datové sady
- Schopnost provádět inženýrství funkcí ve velkém měřítku
- Schopnost budovat škálovatelné ML pipeline
Požadavky
Účastníci by měli mít následující předpoklady:
Základní znalosti programování v Pythonu včetně práce s funkcemi, datovými strukturami a knihovnami
Fundamentální pochopení konceptů analýzy dat, jako jsou datové sady, transformace a agregace
Základní znalost SQL a konceptů relačních dat
Úvodní pochopení konceptů strojového učení, jako jsou trénovací datové sady, proměnné (features) a metriky hodnocení
Doporučuje se obeznámenost s příkazovým řádkem a základními postupy vývoje softwaru
Zkušenosti s knihovnami pro zpracování dat, jako jsou Pandas, NumPy nebo podobné, jsou užitečné, ale nejsou povinné.
Reference (1)
Líbilo se mi, že to bylo praktické. Miloval jsem aplikovat teoretické znalosti na praktické příklady.
Aurelia-Adriana - Allianz Services Romania
Kurz - Python and Spark for Big Data (PySpark)
Přeloženo strojem