Návrh Školení

Část 1: Datový management v HDFS

  • Různé formáty dat (JSON / Avro / Parquet)
  • Kompresní schémata
  • Masování dat
  • Laboratoře: analýza různých formátů dat; povolení komprese

Část 2: Pokročilá Pig

  • Uživatelsky definované funkce
  • Zavedení knihoven Pig (ElephantBird / Data-Fu)
  • Nahrávání komplexních strukturovaných dat pomocí Pig
  • Fine-tuning Pig
  • Laboratoře: pokročilé skriptování v Pig, parsování komplexních datových typů

Část 3: Pokročilá Hive

  • Uživatelsky definované funkce
  • Kompresní tabulky
  • Fine-tuning výkonu Hive
  • Laboratoře: vytváření kompresních tabulek, hodnocení formátů a konfigurace tabulek

Část 4: Pokročilá HBase

  • Pokročilé modelování schémat
  • Komprese
  • Masový vstup dat
  • Srovnavání širokých a hlubokých tabulek
  • HBase a Pig
  • HBase a Hive
  • Fine-tuning výkonu HBase
  • Laboratoře: fine-tuning HBase; přístup k datům HBase z Pig & Hive; Použití Phoenix pro modelování dat

Požadavky

  • pohodlný v jazyce Java (většina programovacích cvičení je v Javě)
  • pohodlný v prostředí Linux (schopnost navigovat v příkazové řádce Linux, úpravy souborů pomocí vi / nano)
  • pracovní znalosti Hadoop.

Laboratorní prostředí

Nula instalace: Není třeba instalovat hadoop software na počítače studentů! Pro studenty bude k dispozici pracující hadoop cluster.

Studenti budou potřebovat následující

 21 hodiny

Počet účastníků


Cena za účastníka

Reference (5)

Nadcházející kurzy

Související kategorie