Návrh Školení
Úvod
Přehled přístupů k přístupu k datům (Hive, databáze atd.)
Přehled funkcí a architektury Sparku
Nainstalování a konfigurace Sparku
Porozumění DataFrame v Sparku
Definování tabulek a import datových souborů
Dotazování na DataFrames pomocí SQL
Provádění agregací, JOINů a vnořených dotazů
Nahrávání a přístup k datům
Dotazování různých typů dat
- JSON, Parquet atd.
Dotazování data lakes pomocí SQL
Řešení problémů
Závěr a shrnutí
Požadavky
- Zkušenosti s dotazy SQL
- Programovací zkušenosti v jakémkoli jazyce
Cílová skupina
- Data analytičtí odborníci
- Data vedci
- Data inženýři
Reference (5)
Živé příklady
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Přeloženo strojem
velmi interaktivní...
Richard Langford
Kurz - SMACK Stack for Data Science
Přeloženo strojem
Dostatečně praktické, odborník je dobře informovaný
Chris Tan
Kurz - A Practical Introduction to Stream Processing
Přeloženo strojem
Při této školení se naučíte Spark Streaming, Databricks a AWS Redshift.
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurz - Apache Spark in the Cloud
Přeloženo strojem
cvičné úkoly
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Kurz - Python and Spark for Big Data (PySpark)
Přeloženo strojem