Návrh Školení
-
Základy Scalay
- Krátký úvod do Scalay
- Laboratoře: Poznání Scalay
-
Základy Sparku
- Pozadí a historie
- Spark a Hadoop
- Koncepce a architektura Sparku
- Ekosystém Sparku (jádro, Spark SQL, MLlib, streamování)
- Laboratoře: Instalace a spouštění Sparku
-
Pohled na Spark
- Spuštění Sparku v místním režimu
- Webové uživatelské rozhraní Sparku
- Spark shell
- Analyzování datových souborů – část 1
- Přehled RDD (Resilient Distributed Datasets)
- Laboratoře: Práce s Spark shell
-
RDDs
- Koncepce RDDs
- Díly (partitions)
- Operace a transformace RDDs
- Typy RDDs
- RDDs s klíčovými páry
- MapReduce na RDD
- Ukládání a trvání (caching and persistence)
- Laboratoře: Vytváření a přehled RDDs; Caching RDDs
-
Programování Spark API
- Úvod do Spark API / RDD API
- Odeslání prvního programu do Sparku
- Ladění a protokolování (debugging / logging)
- Konfigurační vlastnosti
- Laboratoře: Programování ve Spark API, odesílání úloh
-
Spark SQL
- Podpora SQL v Sparku
- Dataframes
- Vytváření tabulek a import datových souborů
- Kvěření data frames pomocí SQL
- Formáty úložiště: JSON / Parquet
- Laboratoře: Vytváření a kvěření data frames; vyhodnocování formátů dat
-
MLlib
- Úvod do MLlib
- Algoritmy MLlib
- Laboratoře: Psaní aplikací MLib
-
GraphX
- Přehled knihovny GraphX
- API GraphX
- Laboratoře: Zpracování grafických dat pomocí Sparku
-
Spark Streamování
- Přehled streamování
- Vyhodnocování platform pro streamování
- Operace s daty v reálném čase
- Sliding window operace
- Laboratoře: Psaní aplikací Spark streamování
-
Spark a Hadoop
- Základy Hadoppu (HDFS / YARN)
- Architektura Hadoop + Spark
- Spuštění Sparku na Hadoop YARN
- Zpracování souborů HDFS pomocí Sparku
-
Výkon a optimalizace Sparku
- Broadcast proměnné
- Akumulátory
- Správa paměti & ukládání (caching)
-
Operační aspekty Sparku
- Vyhození Sparku do produkce
- Ukázkové šablony nasazení
- Konfigurace
- Sledování (monitoring)
- Řešení potíží (troubleshooting)
Požadavky
PŘEDPOŽADAVKY
znalost jazyka Java / Scala / Python (naše laboratoře v Scala a Pythonu) základní znalost vývojového prostředí Linux (navigace v příkazovém řádku / úprava souborů pomocí VI nebo nano)
Reference (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Kurz - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurz - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurz - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurz - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Kurz - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.