Návrh Školení
- Úvod
- Hadoop historie, koncepty
- Ekosystém
- Distribuce
- Vysokorozpočtová architektura
- Hadoop mýty
- Hadoop výzvy (hardwar / softwar)
- Laboratoře: diskuse o vašich Big Data projektech a problémech
- Plánování a instalace
- Výběr softwaru, Hadoop distribuce
- Rozměry clusteru, plánování pro rozvoj
- Výběr hardwaru a sítě
- Topologie stojanů
- Instalace
- Multitenancy
- Struktura adresáře, protokoly
- Benchmarkování
- Laboratoře: instalace clusteru, spuštění výkonnostních benchmarků
- Operace s HDFS
- Koncepty (horizontální škálování, replikace, místnost dat, vědomí stojanu)
- Uzly a démony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorování zdravotního stavu
- Administrace příkazovým řádkem a prostřednictvím webového prohlížeče
- Přidávání úložiště, náhrady vadných jednotek
- Laboratoře: způsob jak se seznámit s příkazovými řádky HDFS
- Zpracování dat
- Flume pro záznamy a jiné data do HDFS
- Sqoop pro import ze SQL databází do HDFS, stejně tak export zpět do SQL
- Hadoop datová warehousing s Hive
- Kopírování dat mezi clustery (distcp)
- Použití S3 jako doplňku k HDFS
- Nejlepší postupy a architektury pro zpracování dat
- Laboratoře: nastavení a používání Flume, stejně tak pro Sqoop
- Operace a administrace MapReduce
- Paralelní výpočetní před mapreduce: srovnávání HPC vs Hadoop administrace
- Náklady clusteru MapReduce
- Uzly a démony (JobTracker, TaskTracker)
- Procházka rozhraní uživatelů MapReduce
- Konfigurace MapReduce
- Konfigurace úloh
- Optimalizace MapReduce
- Zabezpečení MR: co říct vašim programátorům
- Laboratoře: spuštění příkladů MapReduce
- YARN: nová architektura a nové funkce
- Cíle návrhu YARN a implementační architektura
- Noví aktéři: ResourceManager, NodeManager, Application Master
- Instalace YARN
- Plánování úloh v rámci YARN
- Laboratoře: prozkoumání plánování úloh
- Pokročilé téma
- Monitorování hardwaru
- Monitorování clusteru
- Přidávání a odstraňování serverů, aktualizace Hadoop
- Zálohování, obnovení a plánování pokračujícího podnikového provozu
- Oozie job pracovní postupy
- Hadoop vysoká dostupnost (HA)
- Hadoop Federace
- Zabezpečení clusteru pomocí Kerberosu
- Laboratoře: nastavení monitorování
- Alternativní kurzy
- Cloudera Manager pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí v prostředí distribuce Cloudera (CDH5)
- Ambari pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí pomocí manažera clustrového systému Ambari a platformy datových nástrojů Hortonworks (HDP 2.0)
Požadavky
- pohodlní s základní správou systému Linux
- základní skriptovací dovednosti
znalost Hadoop a distribuovaného výpočetnictví není vyžadována, ale budou představeny a vysvětleny během kurzu.
Labová prostředí
Zero Install : Není třeba instalovat hadoop software na studentovy počítače! Studentům bude poskytnut funkční hadoop cluster.
Studenti budou potřebovat následující
- SSH klient (Linux a Mac již mají ssh klienty, pro Windows se doporučuje Putty)
- prohlížeč k přístupu do clusteru. Doporučujeme Firefox s nainstalovanou rozšířkou FoxyProxy
Reference (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurz - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurz - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurz - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay