Návrh Školení

  • Úvod
    • Hadoop historie, koncepty
    • Ekosystém
    • Distribuce
    • Vysokorozpočtová architektura
    • Hadoop mýty
    • Hadoop výzvy (hardwar / softwar)
    • Laboratoře: diskuse o vašich Big Data projektech a problémech
  • Plánování a instalace
    • Výběr softwaru, Hadoop distribuce
    • Rozměry clusteru, plánování pro rozvoj
    • Výběr hardwaru a sítě
    • Topologie stojanů
    • Instalace
    • Multitenancy
    • Struktura adresáře, protokoly
    • Benchmarkování
    • Laboratoře: instalace clusteru, spuštění výkonnostních benchmarků
  • Operace s HDFS
    • Koncepty (horizontální škálování, replikace, místnost dat, vědomí stojanu)
    • Uzly a démony (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Monitorování zdravotního stavu
    • Administrace příkazovým řádkem a prostřednictvím webového prohlížeče
    • Přidávání úložiště, náhrady vadných jednotek
    • Laboratoře: způsob jak se seznámit s příkazovými řádky HDFS
  • Zpracování dat
    • Flume pro záznamy a jiné data do HDFS
    • Sqoop pro import ze SQL databází do HDFS, stejně tak export zpět do SQL
    • Hadoop datová warehousing s Hive
    • Kopírování dat mezi clustery (distcp)
    • Použití S3 jako doplňku k HDFS
    • Nejlepší postupy a architektury pro zpracování dat
    • Laboratoře: nastavení a používání Flume, stejně tak pro Sqoop
  • Operace a administrace MapReduce
    • Paralelní výpočetní před mapreduce: srovnávání HPC vs Hadoop administrace
    • Náklady clusteru MapReduce
    • Uzly a démony (JobTracker, TaskTracker)
    • Procházka rozhraní uživatelů MapReduce
    • Konfigurace MapReduce
    • Konfigurace úloh
    • Optimalizace MapReduce
    • Zabezpečení MR: co říct vašim programátorům
    • Laboratoře: spuštění příkladů MapReduce
  • YARN: nová architektura a nové funkce
    • Cíle návrhu YARN a implementační architektura
    • Noví aktéři: ResourceManager, NodeManager, Application Master
    • Instalace YARN
    • Plánování úloh v rámci YARN
    • Laboratoře: prozkoumání plánování úloh
  • Pokročilé téma
    • Monitorování hardwaru
    • Monitorování clusteru
    • Přidávání a odstraňování serverů, aktualizace Hadoop
    • Zálohování, obnovení a plánování pokračujícího podnikového provozu
    • Oozie job pracovní postupy
    • Hadoop vysoká dostupnost (HA)
    • Hadoop Federace
    • Zabezpečení clusteru pomocí Kerberosu
    • Laboratoře: nastavení monitorování
  • Alternativní kurzy
    • Cloudera Manager pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí v prostředí distribuce Cloudera (CDH5)
    • Ambari pro správu clusterů, monitorování a rutinní úlohy; instalace, použití. V tomto kurzu se všechny cvičení a laboratoře provádějí pomocí manažera clustrového systému Ambari a platformy datových nástrojů Hortonworks (HDP 2.0)

Požadavky

  • pohodlní s základní správou systému Linux
  • základní skriptovací dovednosti

znalost Hadoop a distribuovaného výpočetnictví není vyžadována, ale budou představeny a vysvětleny během kurzu.

Labová prostředí

Zero Install : Není třeba instalovat hadoop software na studentovy počítače! Studentům bude poskytnut funkční hadoop cluster.

Studenti budou potřebovat následující

  • SSH klient (Linux a Mac již mají ssh klienty, pro Windows se doporučuje Putty)
  • prohlížeč k přístupu do clusteru. Doporučujeme Firefox s nainstalovanou rozšířkou FoxyProxy
 21 hodiny

Počet účastníků


Price per participant

Reference (5)

Upcoming Courses

Související kategorie