Návrh Školení

1: HDFS (17%)

  • Popis funkce HDFS Daemonů
  • Popis normálního provozu clusteru Apache Hadoop, jak v úložných funkcích, tak v zpracování dat.
  • Identifikace aktuálních funkcí počítačových systémů, které motivují systém jako je Apache Hadoop.
  • Klasifikace hlavních cílů návrhu HDFS
  • Při dané scénářové situaci identifikovat vhodné užití HDFS Federace
  • Identifikace komponent a daemonů clusteru HDFS HA-Quorum
  • Analyza roli bezpečnosti HDFS (Kerberos)
  • Určení nejlepšího volby serializace dat pro daný scénář
  • Popis cest čtení a zápisu souborů
  • Identifikovat příkazy ke manipulaci soubory v Hadoop File System Shell

2: YARN a MapReduce verze 2 (MRv2) (17%)

  • Pochopení, jak aktualizace clusteru z Hadoop 1 na Hadoop 2 ovlivňuje nastavení clusteru
  • Pochopení způsobu nasazení MapReduce v2 (MRv2 / YARN), včetně všech YARN daemonů
  • Základní strategie návrhu pro MapReduce verze 2 (MRv2)
  • Určení, jak YARN spravuje alokaci zdrojů
  • Identifikovat pracovní postup prováděný MapReduce úkolem na YARNu
  • Určit, které soubory musíte změnit a jak při migrování clusteru z MapReduce verze 1 (MRv1) na MapReduce verzi 2 (MRv2), která běží na YARNu.

3: Plánování Hadoop Clusteru (16%)

  • Klíčové body k zvážení při volbě hardwaru a operačních systémů pro hostování clusteru Apache Hadoop.
  • Analýza volby operačního systému
  • Pochopení tuningu jádra a disk swapingu
  • Při daném scénáři a vzoru zatížení identifikovat vhodnou konfiguraci hardwaru pro scénář
  • Při dané scénáři určit komponenty ekosystému, které vašemu clusteru potřebujete provozovat, aby splňovaly SLA
  • Rozměr clusteru: při daném scénáři a frekvenci spouštění identifikovat specifika pro zatížení, včetně CPU, paměti, úložiště, I/O disku
  • Rozměr a konfigurace disků, včetně JBOD versus RAID, SANů, virtualizace a požadavky na velikost disků ve clusteru
  • Sítové topologie: pochopení použití sítě v Hadoop (pro jak HDFS tak pro MapReduce) a navrhnout nebo identifikovat klíčové komponenty návrhu sítě pro daný scénář

4: Instalace a Administrace Hadoop Clusteru (25%)

  • Při daném scénáři identifikovat, jak cluster zpracuje selhání disků a strojů
  • Analýza konfigurace logování a formátu konfiguračního souboru pro logování
  • Základní pochopení metrik Hadoop a monitorování zdravotního stavu clusteru
  • Identifikace funkce a účelu dostupných nástrojů pro monitorování clusteru
  • Možnost instalovat všechny komponenty ekosystému v CDH 5, včetně (ale ne omezeno pouze na): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive a Pig
  • Identifikovat funkci a účel dostupných nástrojů pro správu souborového systému Apache Hadoop

5: Zdroje Management (10%)

  • Pochopení celkových návrhových cílů každého z Hadoop plánovačů
  • Při daném scénáři určit, jak Plánovač FIFO alokuje zdroje clusteru
  • Při daném scénáři určit, jak Fair Scheduler alokuje zdroje clusteru pod YARNem
  • Při daném scénáři určit, jak Capacity Scheduler alokuje zdroje clusteru

6: Monitorování a Logování (15%)

  • Pochopení funkcí a vlastností schopnosti sběru metrik Hadoop
  • Analýza webových rozhraní NameNode a JobTracker
  • Pochopení způsobu monitorování démonů clusteru
  • Identifikovat a monitorovat využití CPU na hlavních uzlech
  • Popis, jak monitorovat swap a alokaci paměti na všech uzlech
  • Identifikovat způsob, jak zobrazit a spravovat Hadoop soubory logů
  • Interpretace souboru logu

Požadavky

  • Základní administrativní dovednosti Linux
  • Základní programátorské dovednosti
 35 hodiny

Počet účastníků


Price per participant

Reference (3)

Upcoming Courses

Související kategorie