Návrh Školení
-
Základy Scalay
- Krátký úvod do Scalay
- Laboratoře: Seznámení se Scalou
-
Základy Sparku
- Pozadí a historie
- Spark a Hadoop
- Koncepce a architektura Sparku
- Ekosystém Sparku (core, spark sql, mlib, streaming)
- Laboratoře: Instalace a spouštění Sparku
-
První pohled na Spark
- Spouštění Sparku v lokálním režimu
- Webové UI Sparku
- Spark shell
- Analyza datové sady – část 1
- Kontrola RDDs
- Laboratoře: Prozkoumání Spark shellu
-
RDDs (Resilient Distributed Datasets)
- Koncepce RDDs
- Partice
- Operace a transformace RDDs
- Typy RDDs
- RDDs s párováním klíč-hodnota
- MapReduce na RDDs
- Caching a persistencia
- Laboratoře: Vytváření & kontrola RDDs; Caching RDDs
-
Programování v Spark API
- Úvod do Spark API / RDD API
- Odeslání prvního programu do Sparku
- Ladění / logování
- Konfigurační vlastnosti
- Laboratoře: Programování ve Spark API, odesílání úloh
-
Spark SQL
- Podpora SQL v Sparku
- DataFrames
- Vymezení tabulek a import datových souborů
- Dotazování na DataFrames pomocí SQL
- Formáty úložišť: JSON / Parquet
- Laboratoře: Vytváření a dotazování na DataFrames; hodnocení formátů dat
-
MLlib (Machine Learning Library)
- Úvod do MLlibu
- Algoritmy MLlibu
- Laboratoře: Psaní aplikací v MLlib
-
GraphX (Grafická knihovna)
- Přehled GraphX knihovny
- API GraphX
- Laboratoře: Zpracování grafických dat pomocí Sparku
-
Spark Streaming
- Přehled streamování
- Hodnocení platform pro streamování
- Operace se streamy
- Operační okna s posuvným časem
- Laboratoře: Psaní aplikací pro Spark Streaming
-
Spark a Hadoop
- Úvod do Hadoopu (HDFS / YARN)
- Architektura Hadoopu + Sparku
- Spouštění Sparku v Hadoopu YARN
- Zpracování souborů HDFS pomocí Sparku
-
Výkon a optimalizace Sparku
- Broadcastové proměnné
- Akumulátory
- Správa paměti & caching
-
Operace Sparku
- Nasazení Sparku v produkčním prostředí
- Vzorové šablony nasazení
- Konfigurace
- Monitorování
- Sporňování problémů
Požadavky
PŘEDPOKLADY
znalost jazyků Java / Scala / Python (naše laboratoře jsou v Scalě a Pythone)
základní znalosti Linuxového vývojového prostředí (navigace na příkazovém řádku / úpravy souborů pomocí VI nebo nano)
Reference (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Kurz - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurz - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurz - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurz - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Kurz - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.