Návrh Školení

Úvod do platformy Stratio

  • Přehled architektury Stratio a hlavních modulů
  • Role Rocket a Intelligence ve životním cyklu dat
  • Přihlášení a navigace v uživatelském rozhraní Stratio

Práce s modulem Rocket

  • Ingest dat a vytváření potoků (pipelines)
  • Připojování zdrojů dat a konfigurace transformací
  • Použití PySpark pro úkoly předzpracování dat v Rocketu

Základy PySpark pro uživatele Stratio

  • Datové struktury a operace v PySpark
  • Smyčkové konstrukce: for, while, if/else použití
  • Psaní vlastních funkcí s def a jejich aplikace

Pokročilé použití Rocketu s PySparkem

  • Streamovací ingest dat a transformace
  • Použití smyček a funkcí v dávkových i reálném čase
  • Osobní rady k výkonu v PySpark potocích (pipelines)

Průzkum modulu Intelligence

  • Přehled funkcí modelování a analýzy dat
  • Výběr, transformace a průzkum funkcí (features)
  • Role PySparku ve vlastní analýze a získávání poznatků

Vytváření pokročilých pracovních postupů s analýzou dat

  • Vytváření uživatelsky definovaných funkcí (UDFs) v Intelligence
  • Použití podmínek a smyček pro datovou logiku
  • Případové studie: segmentace, agregace a predikce

Nasazení a spolupráce

  • Ukládání, export a opakovatelné použití pracovních postupů (workflows)
  • Spolupráce s ostatními členy týmu v rámci Stratio
  • Zkoumání výstupu a integrace s nástroji na dolní úrovni (downstream tools)

Shrnutí a další kroky

Požadavky

  • Zkušenosti s programováním v Pythonu
  • Pochopení konceptů analýzy dat nebo zpracování big data
  • Základní znalosti Apache Spark a distribuovaného výpočtu

Cílová skupina

  • Data inženýři pracující na platformách založených na Stratio
  • Analitičtí pracovníci nebo vývojáři používající moduly Rocket a Intelligence
  • Technické týmy přecházející na práce s PySpark v rámci Stratio
 14 hodiny

Počet účastníků


Cena za účastníka

Reference (4)

Nadcházející kurzy

Související kategorie