Návrh Školení

Modul 1. Úvod do Hadoop

    Hadoop Distribuovaný systém souborů (HDFS) Cesta pro čtení a cesta pro zápis Správa metadat systému souborů Namenode a Datanode Namenode Vysoká dostupnost Namenode Federation Nástroje příkazového řádku Pochopení podpory REST

Modul 2. Úvod do MapReduce

    Analýza dat pomocí Hadoop Map and Reduce Pattern Java MapReduce Škálování toku dat Vývoj kombinačních funkcí Spuštění distribuované úlohy MapReduce

Modul 3. Plánování Hadoop Clusteru

    Výběr distribuce a verze Hadoop Verze a funkce Výběr hardwaru Hlavní a pracovní Výběr hardwaru Velikost clusteru Výběr operačního systému a příprava Rozvržení nasazení Nastavení uživatelů, skupin a oprávnění Konfigurace disku Návrh sítě

Modul 4. Instalace a konfigurace

    Instalace konfigurace Hadoop: Přehled The Hadoop XML Konfigurační soubory Proměnné prostředí a skripty Shell Protokolování konfigurace Správa optimalizace a ladění HDFS Formátování názvového uzlu Vytvoření adresáře /tmp Myšlení názvového uzlu Vysoká dostupnost Možnosti oplocení Automatická konfigurace převzetí služeb při selhání Formát a spouštění Namenodes Federace názvů

Modul 5. Pochopení Hadoop I/O

    Integrita dat v HDFS Pochopení kodeků Komprese a rozdělení vstupu pomocí komprese v MapReduce Mechanismus serializace Datové struktury založené na souborech Formát SequenceFile Jiné formáty souborů a formáty orientované na sloupce

Modul 6. Vývoj aplikace MapReduce

    Konfigurace API Nastavení vývojového prostředí Správa konfigurace GenericOptionsParser, Tool a ToolRunner Psaní testu jednotky pomocí MRUnit Mapper a Reducer běží lokálně na testovacích datech Testování ovladače běžícího na clusteru Balení a spouštění úlohy Webové uživatelské rozhraní MapReduce Ladění úlohy

Modul 7. Identita, autentizace a autorizace

    Správa Identity Kerberos a Hadoop Pochopení autorizace

Modul 8. Zdroj Management

    Co je zdroj Management? Kvóty HDFS MapReduce Plánovače Anatomie aplikace YARN Požadavky na spouštění zdrojů Životnost aplikace YARN ve srovnání s MapReduce 1 Plánování v YARN Možnosti plánovače Kapacita Konfigurace plánovače Spravedlivá konfigurace plánovače Zpoždění Plánování Dominantní zdroje Spravedlnost

Modul 9. Typy a formáty MapReduce

    Typy MapReduce Výchozí úloha MapReduce Definování vstupních formátů Správa rozdělení vstupu a záznamů Textový a binární vstup Správa více vstupů Database Vstupní (a výstupní) výstupní formáty Textový výstup a binární výstup Správa více výstupů Výstup Database

Modul 10. Použití funkcí MapReduce

    Používání počítadel Čtení vestavěných počítadel Uživatelem definované Java Čítače Pochopení řazení pomocí distribuované mezipaměti

Modul 11. Údržba klastru a odstraňování problémů

    Správa Hadoop Procesy Spouštění a zastavování procesů pomocí init skriptů Ruční spouštění a zastavování procesů Úlohy údržby HDFS Přidání datového uzlu Vyřazení datového uzlu z provozu Kontrola integrity souborového systému pomocí fsck Vyrovnávání blokových dat HDFS Zacházení se selháním disku Úlohy údržby MapReduce Zabíjení úlohy MapReduce Zabíjení MapReduce Úkol Řízení vyčerpání zdrojů

Modul 12. Monitorování

    Dostupné Hadoop Metriky Role SNMP Health Monitoring Kontroly na úrovni hostitele Kontroly HDFS Kontroly MapReduce

Modul 13. Zálohování a obnova

    Záloha dat Distribuovaná kopie (distcp) Paralelní příjem dat Namenode Metadata
  21 hodiny
 

Počet účastníků


Začátek

Konec


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Reference (1)

Související kurzy

Související kategorie