Návrh Školení

  1. Základy Scalay

    • Krátký úvod do Scalay
    • Laboratoře: Seznámení se Scalou
  2. Základy Sparku

    • Pozadí a historie
    • Spark a Hadoop
    • Koncepce a architektura Sparku
    • Ekosystém Sparku (core, spark sql, mlib, streaming)
    • Laboratoře: Instalace a spouštění Sparku
  3. První pohled na Spark

    • Spouštění Sparku v lokálním režimu
    • Webové UI Sparku
    • Spark shell
    • Analyza datové sady – část 1
    • Kontrola RDDs
    • Laboratoře: Prozkoumání Spark shellu
  4. RDDs (Resilient Distributed Datasets)

    • Koncepce RDDs
    • Partice
    • Operace a transformace RDDs
    • Typy RDDs
    • RDDs s párováním klíč-hodnota
    • MapReduce na RDDs
    • Caching a persistencia
    • Laboratoře: Vytváření & kontrola RDDs; Caching RDDs
  5. Programování v Spark API

    • Úvod do Spark API / RDD API
    • Odeslání prvního programu do Sparku
    • Ladění / logování
    • Konfigurační vlastnosti
    • Laboratoře: Programování ve Spark API, odesílání úloh
  6. Spark SQL

    • Podpora SQL v Sparku
    • DataFrames
    • Vymezení tabulek a import datových souborů
    • Dotazování na DataFrames pomocí SQL
    • Formáty úložišť: JSON / Parquet
    • Laboratoře: Vytváření a dotazování na DataFrames; hodnocení formátů dat
  7. MLlib (Machine Learning Library)

    • Úvod do MLlibu
    • Algoritmy MLlibu
    • Laboratoře: Psaní aplikací v MLlib
  8. GraphX (Grafická knihovna)

    • Přehled GraphX knihovny
    • API GraphX
    • Laboratoře: Zpracování grafických dat pomocí Sparku
  9. Spark Streaming

    • Přehled streamování
    • Hodnocení platform pro streamování
    • Operace se streamy
    • Operační okna s posuvným časem
    • Laboratoře: Psaní aplikací pro Spark Streaming
  10. Spark a Hadoop

    • Úvod do Hadoopu (HDFS / YARN)
    • Architektura Hadoopu + Sparku
    • Spouštění Sparku v Hadoopu YARN
    • Zpracování souborů HDFS pomocí Sparku
  11. Výkon a optimalizace Sparku

    • Broadcastové proměnné
    • Akumulátory
    • Správa paměti & caching
  12. Operace Sparku

    • Nasazení Sparku v produkčním prostředí
    • Vzorové šablony nasazení
    • Konfigurace
    • Monitorování
    • Sporňování problémů

Požadavky

PŘEDPOKLADY

znalost jazyků Java / Scala / Python (naše laboratoře jsou v Scalě a Pythone)
základní znalosti Linuxového vývojového prostředí (navigace na příkazovém řádku / úpravy souborů pomocí VI nebo nano)

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (6)

Nadcházející kurzy

Související kategorie