Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Úvod:
- Apache Spark v Hadoop ekosystému
- Krátký úvod do Pythonu a Scala
Základy (teorie):
- Architektura
- RDD
- Transformace a akce
- Fáze, úkoly, závislosti
Zvládnutí základů v prostředí Databricks (praktický workshop):
- Cvičení s RDD API
- Základní funkce akcí a transformací
- PairRDD
- Spojení (join)
- Kachování (caching) strategie
- Cvičení s DataFrame API
- SparkSQL
- DataFrame: select, filter, group, sort
- UDF (Uživatelsky definovaná funkce)
- Pohled na DataSet API
- Streamování
Zvládnutí nasazení v prostředí AWS (praktický workshop):
- Základy AWS Glue
- Rozdíly mezi AWS EMR a AWS Glue
- Příkladové úlohy v obou prostředích
- Výhody a nevýhody
Dodatečně:
- Úvod do orchestrace Apache Airflow
Požadavky
Schopnosti programování (nejlépe python, scala)
SQL základy
21 hodiny
Reference (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift