Návrh Školení

Sekce 1: Data Management v HDFS

  • Různé Formáty Dat (JSON / Avro / Parquet)
  • Schema Komprese
  • Zašifrování Dat
  • Laboratoře: Analyzování různých formátů dat; povolení komprese

Sekce 2: Pokročilé Použití Pig

  • Vlastní Funkce (User-defined Functions)
  • Přehled o Knihovnách Pig (ElephantBird / Data-Fu)
  • Nahrávání Složitě Strukturovaných Dat pomocí Pig
  • Tuning Pig
  • Laboratoře: pokročilé skriptování v Pig, analýza složitých datových typů

Sekce 3 : Pokročilé Hive

  • Vlastní Funkce (User-defined Functions)
  • Kompresní Tabulky
  • Tuning Výkonu pro Hive
  • Laboratoře: vytváření komprimovaných tabulek, hodnocení formátů a konfigurací tabulek

Sekce 4 : Pokročilé HBase

  • Pokročilé Schémové Modelování
  • Komprese
  • Hromadné Nahrávání Dat
  • Porovnání širokých a vysokých tabulek (Wide-table / Tall-table)
  • HBase a Pig
  • HBase a Hive
  • Tuning Výkonu HBase
  • Laboratoře: tuning HBase; přístup k datům v HBase z Pig & Hive; Použití Phoenix pro modelování dat

Požadavky

  • pohodlné používání jazyka Java (většina programovacích cvičení je v jazyce Java)
  • pohodlné používání prostředí Linux (schopnost navigovat v příkazovém řádku Linux, úprava souborů pomocí vi / nano)
  • praktické znalosti Hadoop.

Laboratorní prostředí

Žádné nainstalování: Není třeba instalovat software Hadoop na počítače studentů! Bude poskytnut pracující hadoop cluster pro studenty.

Studenti budou potřebovat následující

 21 hodiny

Počet účastníků


Price per participant

Reference (5)

Upcoming Courses

Související kategorie