Návrh Školení
Úvod
- Úvod do cloud computingu a řešení velkých dat
- Přehled funkcí a architektury Apache Hadoop
Nastavení Hadoopu
- Plánování Hadoop clusteru (místní, cloudu apod.)
- Výběr operačního systému a distribuce Hadoopu
- Zřizování prostředků (hardwaru, sítí atd.)
- Stažení a instalace softwaru
- Nastavení clusteru pro flexibilitu
Práce s HDFS
- Pochopení Hadoop Distributed File System (HDFS)
- Přehled referenčních příkazů HDFS
- Přístup k HDFS
- Provedení základních souborových operací v HDFS
- Použití S3 jako doplňku k HDFS
Přehled MapReduce
- Pochopení toku dat v rámci MapReduce Frameworku
- Map, Shuffle, Sort a Reduce
- Demo: Výpočet nejvyšších platů
Práce s YARN
- Pochopení správy prostředků v Hadoopu
- Práce s ResourceManager, NodeManager a Application Master
- Plánování úloh pod YARN
- Plánování pro velké počty uzlů a clusterů
- Demo: Plánování úloh
Integrace Hadoopu s Sparkem
- Nastavení úložiště pro Spark (HDFS, Amazon S3, NoSQL apod.)
- Pochopení Resilient Distributed Datasets (RDDs)
- Vytvoření RDD
- Implementace transformací RDD
- Demo: Implementace programu pro vyhledávání textu ve filmech
Správa Hadoop clusteru
- Monitorování Hadoopu
- Zabezpečení Hadoop clusteru
- Přidávání a odebírání uzlů
- Běh výkonnostního benchmarku
- Optimalizace výkonu Hadoop clusteru
- Zálohování, obnovení a plánování pro kontinuitu podnikání
- Zajištění vysoké dostupnosti (HA)
Upgradování a migrování Hadoop clusteru
- Oceňování požadavků na pracovní zátěž
- Upgrade Hadoopu
- Přesun z místního nasazení do cloudu a naopak
- Obnovení po selháních
Řešení potíží
Závěr a shrnutí
Požadavky
- Zkušenosti se správou systémů
- Zkušenosti s příkazovým řádkem Linuxu
- Pochopení konceptů velkých dat
Cílová skupina
- Správci systémů
- DBA (Správci databází)
Reference (5)
Živé příklady
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Přeloženo strojem
velmi interaktivní...
Richard Langford
Kurz - SMACK Stack for Data Science
Přeloženo strojem
Dostatečně praktické, odborník je dobře informovaný
Chris Tan
Kurz - A Practical Introduction to Stream Processing
Přeloženo strojem
Při této školení se naučíte Spark Streaming, Databricks a AWS Redshift.
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurz - Apache Spark in the Cloud
Přeloženo strojem
Praktické věci se dělaly, ale teorie byla také dobře prezentována Ajayem.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurz - Hadoop Administration on MapR
Přeloženo strojem