Návrh Školení

1: HDFS (17 %)

    Popište funkci démonů HDFS Popište běžný provoz clusteru Apache Hadoop, jak při ukládání dat, tak při zpracování dat. Identifikujte současné vlastnosti výpočetních systémů, které motivují systém jako Apache Hadoop. Klasifikujte hlavní cíle návrhu HDFS Na základě scénáře identifikujte vhodný případ použití pro federaci HDFS Identifikujte součásti a démona clusteru HDFS HA-Quorum Analyzujte roli zabezpečení HDFS (Kerberos) Určete nejlepší volbu serializace dat pro daný scénář Popište čtení souboru a cesty zápisu Identifikujte příkazy pro manipulaci se soubory v prostředí souborového systému Hadoop

2: YARN a MapReduce verze 2 (MRv2) (17 %)

    Pochopte, jak upgrade clusteru z Hadoop 1 na Hadoop 2 ovlivní nastavení clusteru Porozumí tomu, jak nasadit MapReduce v2 (MRv2 / YARN), včetně všech démonů YARN Porozumět základní strategii návrhu pro MapReduce v2 (MRv2) Určit, jak YARN zpracovává alokace zdrojů Identifikujte pracovní postup úlohy MapReduce běžící na YARN Určete, které soubory musíte změnit a jak provést migraci clusteru z MapReduce verze 1 (MRv1) na MapReduce verze 2 (MRv2) běžící na YARN.

3: Hadoop Plánování klastrů (16 %)

    Hlavní body, které je třeba vzít v úvahu při výběru hardwaru a operačních systémů pro hostování clusteru Apache Hadoop. Analyzujte možnosti při výběru operačního systému Pochopte ladění jádra a výměnu disku Vzhledem ke scénáři a schématu pracovní zátěže identifikujte hardwarovou konfiguraci vhodnou pro daný scénář Vzhledem ke scénáři určete komponenty ekosystému, které musí váš cluster provozovat, aby splnila velikost clusteru podle smlouvy SLA: za předpokladu scénáře a frekvence provádění identifikujte specifika pro pracovní zátěž, včetně CPU, paměti, úložiště, diskové I/O velikosti a konfigurace disku, včetně JBOD versus RAID, SAN, virtualizace a požadavků na velikost disku v clusteru Síťové topologie: porozumět použití sítě v Hadoop (pro HDFS i MapReduce) a navrhnout nebo identifikovat klíčové komponenty návrhu sítě pro daný scénář

4: Hadoop Instalace a správa clusteru (25 %)

    Na základě scénáře zjistěte, jak bude cluster řešit selhání disku a počítače Analyzujte konfiguraci protokolování a formát konfiguračního souboru protokolování Pochopte základy metrik Hadoop a monitorování stavu clusteru Identifikujte funkci a účel dostupných nástrojů pro monitorování clusteru Umět nainstalovat všechny komponenty ekosystému v CDH 5, včetně (mimo jiné): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive a Pig Identifikujte funkci a účel dostupných nástrojů pro správu souborového systému Apache Hadoop

5: Zdroj Management (10 %)

    Pochopte celkové cíle návrhu každého z Hadoop plánovačů Na základě scénáře určete, jak plánovač FIFO alokuje prostředky clusteru Podle scénáře určete, jak plánovač Fair přiděluje prostředky clusteru pod YARN Na základě scénáře určete, jak plánovač kapacity přiděluje prostředky clusteru

6: Monitorování a protokolování (15 %)

    Porozumět funkcím a vlastnostem schopností Hadoop shromažďovat metriky Analyzovat webové uživatelské rozhraní NameNode a JobTracker Porozumět tomu, jak monitorovat démony clusteru Identifikovat a monitorovat využití CPU na hlavních uzlech Popsat, jak monitorovat swap a alokaci paměti na všech uzlech Identifikovat způsob zobrazení a správa souborů protokolu Hadoop Interpretace souboru protokolu

Požadavky

  • Základní Linux administrativní dovednosti
  • Základní znalosti programování
 35 hodiny

Počet účastníků



Price per participant

Reference (3)

Související kurzy

Související kategorie