Zkuste nás kontaktovat

Návrh Školení

PySpark a strojové učení 

Modul 1: Základy velkých dat a Spark

  • Přehled ekosystému velkých dat a role Sparku v moderních datových platformách
  • Pochopení architektury Sparku: řadič, executoři, správce clusteru, lenivé vyhodnocování, DAG a plánování výpočtů
  • Rozdíly mezi API RDD a DataFrame a kdy použít každý přístup
  • Vytváření a konfigurace SparkSession a pochopení základů konfigurace aplikací

Modul 2: PySpark DataFrames

  • Čtení a zápis dat z podnikových zdrojů a ve formátech (CSV, JSON, Parquet, Delta)
  • Práce s PySpark DataFrames: transformace, akce, výrazy sloupců, filtrování, spoje a agregace
  • Implementace pokročilých operací, jako jsou okenní funkce, práce s časovými razítky a zpracování vložených dat
  • Aplikace kontrol kvality dat a psaní přetřiditelného a udržovatelného kódu v PySparku

Modul 3: Efektivní zpracování velkých datových sad

  • Pochopení základů výkonu: strategie partitioningu, chování shuffle, cache a persistence
  • Používání optimalizačních technik, včetně broadcast joinů a analýzy plánu výpočtu
  • Efektivní zpracování velkých datových sad a osvědčené postupy pro škálovatelné pracovní postupy dat
  • Pochopení evoluce schémat a moderních úložišť používaných v podnikovém prostředí

Modul 4: Inženýrství funkcí ve velkém měřítku

  • Provádění inženýrství funkcí pomocí Spark MLlib: zpracování chybějících hodnot, kódování kategoriálních proměnných a škálování funkcí
  • Návrh přetřiditelných kroků předzpracování a příprava datových sad pro ML pipeline
  • Úvod do výběru funkcí a zpracování nevyvážených datových sad

Modul 5: Strojové učení se Spark MLlib

  • Pochopení architektury MLlib a vzoru Estimator/Transformer
  • Trénování regresních a klasifikačních modelů ve velkém měřítku (lineární regrese, logistická regrese, rozhodovací stromy, náhodný les)
  • Porovnávání modelů a interpretace výsledků v distribuovaných pracovních postupech strojového učení

Modul 6: Kompletní ML pipeline

  • Tvorba kompletních ML pipeline kombinujících předzpracování, inženýrství funkcí a modelování
  • Aplikace strategií rozdělení dat na trénovací, validační a testovací sadu
  • Provádění křížové validace a ladění hyperparametrů pomocí mřížového a náhodného vyhledávání
  • Strukturování reprodukovatelných experimentů v oblasti strojového učení

Modul 7: Hodnocení modelů a praktické rozhodování v oblasti ML

  • Aplikace vhodných metrik hodnocení pro regresní a klasifikační problémy
  • Identifikace přeučení a podučování a provádění praktických rozhodnutí při výběru modelů
  • Interpretace důležitosti funkcí a pochopení chování modelů

Modul 8: Produkční a podnikové postupy

  • Persistování a načítání modelů v Sparku
  • Implementace pracovních postupů batch inference na velkých datových sadách
  • Pochopení životního cyklu strojového učení v podnikovém prostředí
  • Úvod do verzování, sledování experimentů a základních strategií testování

 

Praktický výstup

  • Schopnost samostatně pracovat s PySparkem
  • Schopnost efektivně zpracovávat velké datové sady
  • Schopnost provádět inženýrství funkcí ve velkém měřítku
  • Schopnost budovat škálovatelné ML pipeline

Požadavky

Účastníci by měli mít následující předpoklady:

Základní znalosti programování v Pythonu včetně práce s funkcemi, datovými strukturami a knihovnami
Fundamentální pochopení konceptů analýzy dat, jako jsou datové sady, transformace a agregace
Základní znalost SQL a konceptů relačních dat
Úvodní pochopení konceptů strojového učení, jako jsou trénovací datové sady, proměnné (features) a metriky hodnocení
Doporučuje se obeznámenost s příkazovým řádkem a základními postupy vývoje softwaru

Zkušenosti s knihovnami pro zpracování dat, jako jsou Pandas, NumPy nebo podobné, jsou užitečné, ale nejsou povinné.

 21 Hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie