Návrh Školení

1.1Hadoop Pojmy

1.1.1 HDFS

    Návrh rozhraní příkazového řádku HDFS Hadoop Systém souborů

1.1.2 Shluky

    Anatomie klastru Mater Node / Slave uzel Název Node / Data Node

1.2 Manipulace s daty

1.2.1 MapReduce podrobně

    Fáze mapy Snížení fáze Náhodně

1.2.2Analytika s funkcí Map Reduce

    Group-By s MapReduce Distribuce frekvence a řazení pomocí MapReduce Plotování výsledků (GNU Plot) Histogramy s MapReduce Bodové grafy s MapReduce Analýza komplexních datových sad Počítání pomocí MapReduce a Combiners Sestavování sestav

 

1.2.3 Čištění dat

    Čištění dokumentů Hledání fuzzy řetězců Propojení záznamů / deduplikace dat Transformace a třídění dat událostí Ověření spolehlivosti zdroje Oříznutí odlehlých hodnot

1.2.4Extrakce a transformace dat

    Transformace protokolů Použití Apache Pig k filtrování Použití Apache Pig k řazení Použití Apache Pig k sessionize

1.2.5 Pokročilá spojení

    Spojení dat v Mapperu pomocí MapReduce Spojení dat pomocí replikovaného spojení Apache Pig Spojení seřazených dat pomocí spojení Apache Pig Spojení zkreslených dat pomocí zkoseného spojení Apache Pig Použití spojení na straně mapy v Apache Hive Použití optimalizovaných úplných vnějších spojení v Apache [1 ] Spojení dat pomocí externího úložiště klíčových hodnot

1.3 Diagnostika výkonu a techniky optimalizace

    Mapa Zkoumání špiček ve vstupních datech Identifikace problémů se zkreslením dat na straně mapy Propustnost mapové úlohy Malé soubory Nerozdělitelné soubory
Snížit Příliš málo nebo příliš mnoho reduktorů
  • Problémy se zkreslením dat na straně redukce
  • Snižte propustnost úkolů
  • Pomalé míchání a řazení
  • Konkurenční úlohy a omezení plánovače
  • Výpisy zásobníku a neoptimalizovaný kód
  • Selhání hardwaru
  • Spor o CPU
  • Úlohy Extrahování a vizualizace doby provádění úloh
  • Profilujte svou mapu a omezte úkoly
  • Vyhněte se redukci
  • Filtr a projekt
  • Pomocí slučovače
  • Rychlé řazení pomocí srovnávačů
  • Sbírání zkreslených dat
  • Snižte zmírnění šikmosti
  • Požadavky

    Účastníci nemusí mít žádné specifické dovednosti, protože školení je zaměřeno na dovednosti koncových uživatelů jak pro správu, tak pro manipulaci s daty pod Apache Hadoop

      21 hodiny
     

    Počet účastníků


    Začátek

    Konec


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    Reference (3)

    Související kurzy

    Související kategorie