Návrh Školení

  1. Základy Scalay

    • Krátký úvod do Scalay
    • Laboratoře: Poznání Scalay
  2. Základy Sparku

    • Pozadí a historie
    • Spark a Hadoop
    • Koncepce a architektura Sparku
    • Ekosystém Sparku (jádro, Spark SQL, MLlib, streamování)
    • Laboratoře: Instalace a spouštění Sparku
  3. Pohled na Spark

    • Spuštění Sparku v místním režimu
    • Webové uživatelské rozhraní Sparku
    • Spark shell
    • Analyzování datových souborů – část 1
    • Přehled RDD (Resilient Distributed Datasets)
    • Laboratoře: Práce s Spark shell
  4. RDDs

    • Koncepce RDDs
    • Díly (partitions)
    • Operace a transformace RDDs
    • Typy RDDs
    • RDDs s klíčovými páry
    • MapReduce na RDD
    • Ukládání a trvání (caching and persistence)
    • Laboratoře: Vytváření a přehled RDDs; Caching RDDs
  5. Programování Spark API

    • Úvod do Spark API / RDD API
    • Odeslání prvního programu do Sparku
    • Ladění a protokolování (debugging / logging)
    • Konfigurační vlastnosti
    • Laboratoře: Programování ve Spark API, odesílání úloh
  6. Spark SQL

    • Podpora SQL v Sparku
    • Dataframes
    • Vytváření tabulek a import datových souborů
    • Kvěření data frames pomocí SQL
    • Formáty úložiště: JSON / Parquet
    • Laboratoře: Vytváření a kvěření data frames; vyhodnocování formátů dat
  7. MLlib

    • Úvod do MLlib
    • Algoritmy MLlib
    • Laboratoře: Psaní aplikací MLib
  8. GraphX

    • Přehled knihovny GraphX
    • API GraphX
    • Laboratoře: Zpracování grafických dat pomocí Sparku
  9. Spark Streamování

    • Přehled streamování
    • Vyhodnocování platform pro streamování
    • Operace s daty v reálném čase
    • Sliding window operace
    • Laboratoře: Psaní aplikací Spark streamování
  10. Spark a Hadoop

    • Základy Hadoppu (HDFS / YARN)
    • Architektura Hadoop + Spark
    • Spuštění Sparku na Hadoop YARN
    • Zpracování souborů HDFS pomocí Sparku
  11. Výkon a optimalizace Sparku

    • Broadcast proměnné
    • Akumulátory
    • Správa paměti & ukládání (caching)
  12. Operační aspekty Sparku

    • Vyhození Sparku do produkce
    • Ukázkové šablony nasazení
    • Konfigurace
    • Sledování (monitoring)
    • Řešení potíží (troubleshooting)

Požadavky

PŘEDPOŽADAVKY

znalost jazyka Java / Scala / Python (naše laboratoře v Scala a Pythonu) základní znalost vývojového prostředí Linux (navigace v příkazovém řádku / úprava souborů pomocí VI nebo nano)

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (6)

Nadcházející kurzy

Související kategorie