Návrh Školení

Úvod:

  • Apache Spark v Hadoop ekosystému
  • Krátký úvod do Pythonu a Scala

Základy (teorie):

  • Architektura
  • RDD
  • Transformace a akce
  • Fáze, úkoly, závislosti

Zvládnutí základů v prostředí Databricks (praktický workshop):

  • Cvičení s RDD API
  • Základní funkce akcí a transformací
  • PairRDD
  • Spojení (join)
  • Kachování (caching) strategie
  • Cvičení s DataFrame API
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Uživatelsky definovaná funkce)
  • Pohled na DataSet API
  • Streamování

Zvládnutí nasazení v prostředí AWS (praktický workshop):

  • Základy AWS Glue
  • Rozdíly mezi AWS EMR a AWS Glue
  • Příkladové úlohy v obou prostředích
  • Výhody a nevýhody

Dodatečně:

  • Úvod do orchestrace Apache Airflow

Požadavky

Schopnosti programování (nejlépe python, scala)

SQL základy

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (3)

Nadcházející kurzy

Související kategorie