Návrh Školení

Úvod

Pochopení architektury a klíčových konceptů Hadoop

Pochopení Hadoop Distribuovaného systému souborů (HDFS)

    Přehled HDFS a jeho architektonický návrh Interakce s HDFS Provádění základních operací se soubory na HDFS Přehled příkazů HDFS Přehled Snakebite Instalace Snakebite pomocí knihovny Snakebite Client pomocí klienta CLI

Naučte se programovací model MapReduce s Python

    Přehled modelu MapReduce Programming Pochopení toku dat v rámci MapReduce Map Shuffle and Sort Reduce
Používání nástroje pro streamování Hadoop Porozumění tomu, jak nástroj pro streamování Hadoop funguje
  • Demo: Implementace aplikace WordCount v Pythonu
  • Použití knihovny mrjob Přehled mrjob
  • Instalace mrjob
  • Demo: Implementace WordAlgoritmu počítání pomocí mrjob
  • Pochopení toho, jak funguje úloha MapReduce napsaná pomocí knihovny mrjob
  • Spuštění aplikace MapReduce pomocí mrjob
  • Praktické: Počítání nejvyšších platů pomocí mrjob
  • Učí se prase s Python
  • Přehled Pig Demo: Implementace WordAlgoritmu počítání v Pig Konfigurace a spouštění Pig Scripts a Pig Statements pomocí režimů Pig Execution Mode Použití Pig Interactive Mode Použití Pic Batch režimu
  • Pochopení základních pojmů prasečí latiny pomocí příkazů

      Načítání dat
    Transformace dat
  • Ukládání dat
  • Rozšíření funkčnosti Pig pomocí Python UDF Registrace souboru Python UDF
  • Demo: Jednoduchý Python UDF
  • Demo: Manipulace s řetězci pomocí Python UDF
  • Praktické: Výpočet 10 nejnovějších filmů pomocí Python UDF
  • Použití Spark a PySpark
  • Přehled ukázky Spark: Implementace WordAlgoritmu počítání v PySpark Přehled PySpark pomocí interaktivního prostředí Implementace samostatných aplikací
  • Práce s odolnými distribuovanými datovými sadami (RDD) Vytváření RDD z kolekce Python
  • Vytváření RDD ze souborů
  • Implementace RDD transformací

      Provádění akcí RDD
    Hands-on: Implementace textového Search programu pro filmové titulky pomocí PySpark
  • Správa pracovního postupu pomocí Python
  • Přehled Apache Oozie a Luigi Instalace Luigi Pochopení Luigi Workflow Concepts Úkoly Cíle Parametry
  • Demo: Zkoumání pracovního postupu, který implementuje WordAlgoritmus počítání
  • Práce s Hadoop pracovními postupy, které řídí MapReduce a Pig Jobs pomocí Luigiho konfiguračních souborů
  • Práce s MapReduce v Luigi
  • Práce s Pig v Luigi
  • Shrnutí a závěr

    Požadavky

    • Zkušenosti s programováním Python
    • Základní znalost Hadoop
     28 hodiny

    Počet účastníků



    Price per participant

    Reference (3)

    Související kurzy

    Související kategorie