Návrh Školení

Část 1: Data Management v HDFS

    Různé formáty dat (JSON / Avro / Parkety) Schémata komprese Laboratoře maskování dat: Analýza různých formátů dat; umožňující kompresi

Sekce 2: Pokročilé prase

    Uživatelsky definované funkce Úvod do knihoven prasat (ElephantBird / Data-Fu) Načítání složitých strukturovaných dat pomocí laboratoří Pig Pig Tuning Labs: pokročilé skriptování prasat, parsování komplexních datových typů

Část 3: Pokročilé Hive

    Uživatelsky definované funkce Komprimované tabulky Hive Laboratoře ladění výkonu : vytváření komprimovaných tabulek, vyhodnocování formátů tabulek a konfigurace

Část 4: Pokročilá HBase

    Pokročilé modelování schémat Komprese hromadného příjmu dat Porovnání široké a vysoké tabulky HBase a Pig HBase a Hive Laboratoře ladění výkonu HBase: ladění HBase; přístup k datům HBase z Pig & Hive; Použití Phoenixu pro datové modelování

Požadavky

  • pohodlné s programovacím jazykem Java (většina programovacích cvičení je v jazyce Java)
  • pohodlné v Linux prostředí (umět procházet Linux příkazový řádek, upravovat soubory pomocí vi / nano)
  • pracovní znalost Hadoopu.

Laboratorní prostředí

Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.

Studenti budou potřebovat následující

  • klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty)
  • prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox
 21 hodiny

Počet účastníků



Price per participant

Reference (3)

Související kurzy

Související kategorie