Návrh Školení

    Úvod Hadoop historie, koncepty Distribuce ekosystémů Architektura na vysoké úrovni Hadoop mýty Hadoop výzvy (hardware / software) Laboratoře: diskutujte o svých projektech a problémech s velkými daty
Plánování a instalace Výběr softwaru, Hadoop distribuce Dimenzování clusteru, plánování růstu Výběr hardwaru a sítě Rack topologie Instalace Multi-tenancy Struktura adresářů, protokoly Laboratoře srovnávání: instalace clusteru, spouštění testů výkonu
    Operace HDFS Koncepty (horizontální škálování, replikace, datová lokalita, povědomí o racku) Uzly a démoni (NameNode, Secondary NameNode, HA Standby NameNode, DataNode) Monitorování stavu Správa z příkazového řádku a prohlížeče Přidání úložiště, výměna vadných disků Laboratoře: seznámení s příkazovými řádky HDFS
Zpracování dat Flume pro protokoly a další zpracování dat do HDFS Sqoop pro import z SQL databází do HDFS, stejně jako export zpět do SQL datového skladu Hadoop s Hive Kopírování dat mezi clustery (distcp) Použití S3 jako doplňku k HDFS Data osvědčené postupy zpracování a architektury Laboratoře: nastavení a používání Flume, stejné pro Sqoop
    Operace a administrace MapReduce Paralelní výpočty před mapreduce: srovnání HPC vs Hadoop administrace MapReduce zatížení clusteru Uzly a démoni (JobTracker, TaskTracker) MapReduce UI procházka konfigurací Mapreduce Konfigurace úlohy Optimalizace MapReduce Bláznivá odolnost MR: co říct svým programátorům Laboratoře: běží Příklady MapReduce
YARN: nová architektura a nové možnosti Cíle návrhu YARN a implementační architektura Noví aktéři: ResourceManager, NodeManager, Application Master Instalace YARN Job scheduling pod YARN Labs: prozkoumejte plánování úloh
    Pokročilá témata Monitorování hardwaru Monitorování klastrů Přidávání a odebírání serverů, upgrade Hadoop Plánování zálohování, obnovy a kontinuity podnikání Pracovní postupy Oozie Hadoop Vysoká dostupnost (HA) Hadoop Federace Zabezpečení clusteru pomocí Kerberos Labs: nastavení monitorování
Volitelné stopy Cloudera Manager pro správu clusteru, monitorování a rutinní úlohy; instalace, použití. V této stopě jsou všechna cvičení a cvičení prováděna v distribučním prostředí Cloudera (CDH5) Ambari pro správu clusteru, monitorování a rutinní úkoly; instalace, použití. V této stopě se všechna cvičení a laboratoře provádějí v rámci správce clusteru Ambari a datové platformy Hortonworks (HDP 2.0)

Požadavky

  • pohodlné se základní Linux správou systému
  • základní skriptovací dovednosti

Znalost Hadoop a Distributed Computing není vyžadována, ale bude představena a vysvětlena v kurzu.

Laboratorní prostředí

Zero Install: Není potřeba instalovat hadoop software na studentské počítače! Pro studenty bude k dispozici funkční hadoop cluster.

Studenti budou potřebovat následující

  • klient SSH (Linux a Mac již mají klienty ssh, pro Windows se doporučuje Putty)
  • prohlížeč pro přístup ke clusteru. Doporučujeme prohlížeč Firefox s nainstalovaným rozšířením FoxyProxy
  21 hodiny
 

Počet účastníků


Začátek

Konec


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Reference (3)

Související kurzy

Související kategorie