Návrh Školení
- Úvod
- Hadoop historie, koncepty
- Ekosystém
- Distribuce
- Vysokorozpočtová architektura
- Hadoop mýty
- Hadoop výzvy (hardwar / softwar)
- Laboratoře: diskuse o vašich Big Data projektech a problémech
- Plánování a instalace
- Výběr softwaru, Hadoop distribuce
- Rozměry clusteru, plánování pro rozvoj
- Výběr hardwaru a sítě
- Topologie stojanů
- Instalace
- Multitenancy
- Struktura adresáře, protokoly
- Benchmarkování
- Laboratoře: instalace clusteru, spuštění výkonnostních benchmarků
- Operace s HDFS
- Koncepty (horizontální škálování, replikace, místnost dat, vědomí stojanu)
- Uzly a démony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorování zdravotního stavu
- Administrace příkazovým řádkem a prostřednictvím webového prohlížeče
- Přidávání úložiště, náhrady vadných jednotek
- Laboratoře: způsob jak se seznámit s příkazovými řádky HDFS
- Zpracování dat
- Flume pro záznamy a jiné data do HDFS
- Sqoop pro import ze SQL databází do HDFS, stejně tak export zpět do SQL
- Hadoop datová warehousing s Hive
- Kopírování dat mezi clustery (distcp)
- Použití S3 jako doplňku k HDFS
- Nejlepší postupy a architektury pro zpracování dat
- Laboratoře: nastavení a používání Flume, stejně tak pro Sqoop
- Operace a administrace MapReduce
- Paralelní výpočetní před mapreduce: srovnávání HPC vs Hadoop administrace
- Náklady clusteru MapReduce
- Uzly a démony (JobTracker, TaskTracker)
- Procházka rozhraní uživatelů MapReduce
- Konfigurace MapReduce
- Konfigurace úloh
- Optimalizace MapReduce
- Zabezpečení MR: co říct vašim programátorům
- Laboratoře: spuštění příkladů MapReduce
- YARN: nová architektura a nové funkce
- Cíle návrhu YARN a implementační architektura
- Noví aktéři: ResourceManager, NodeManager, Application Master
- Instalace YARN
- Plánování úloh v rámci YARN
- Laboratoře: prozkoumání plánování úloh
- Pokročilé téma
- Monitorování hardwaru
- Monitorování clusteru
- Přidávání a odstraňování serverů, aktualizace Hadoop
- Zálohování, obnovení a plánování pokračujícího podnikového provozu
- Oozie job pracovní postupy
- Hadoop vysoká dostupnost (HA)
- Hadoop Federace
- Zabezpečení clusteru pomocí Kerberosu
- Laboratoře: nastavení monitorování
- Alternativní kurzy
- Cloudera Manager pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí v prostředí distribuce Cloudera (CDH5)
- Ambari pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí pomocí manažera clustrového systému Ambari a platformy datových nástrojů Hortonworks (HDP 2.0)
Požadavky
- pohodlní s základní správou systému Linux
- základní skriptovací dovednosti
znalost Hadoop a distribuovaného výpočetnictví není vyžadována, ale budou představeny a vysvětleny během kurzu.
Labová prostředí
Zero Install : Není třeba instalovat hadoop software na studentovy počítače! Studentům bude poskytnut funkční hadoop cluster.
Studenti budou potřebovat následující
- SSH klient (Linux a Mac již mají ssh klienty, pro Windows se doporučuje Putty)
- prohlížeč k přístupu do clusteru. Doporučujeme Firefox s nainstalovanou rozšířkou FoxyProxy
Reference (5)
Živé příklady
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Přeloženo strojem
Během cvičení mi James každý krok vysvětlil podrobněji tam, kde jsem se zasekl, protože jsem byl úplně nový u NIFI. Vysvětlil mi skutečné účely NIFI, dokonce i základy jako například open source. Přehlédl všechny koncepty Nifi od začátečnické úrovně až po úroveň vývojáře.
Firdous Hashim Ali - MOD A BLOCK
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Že jsem to měl od samého počátku.
Peter Scales - CACI Ltd
Kurz - Apache NiFi for Developers
Přeloženo strojem
Praktické věci se dělaly, ale teorie byla také dobře prezentována Ajayem.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurz - Hadoop Administration on MapR
Přeloženo strojem
Velmi jsem si oblíbil tuto virtuální mašinu. Vyučující měl k tématu i dalším oblastem velkou znalost a byl velmi příjemný a přátelský. Obdivoval jsem zařízení v Dubaji.
Safar Alqahtani - Elm Information Security
Kurz - Big Data Analytics in Health
Přeloženo strojem