Návrh Školení
Sekce 1: Úvod do Hadoopu
- Historie Hadoopu, koncepty
- Ekosystém
- Distribuce
- Vysokourovová architektura
- Mýty o Hadoopu
- Výzvy při použití Hadoopu
- Hardware a software
- Laboratoř: První pohled na Hadoop
Sekce 2: HDFS
- Návrh a architektura
- Koncepty (horizontální škálování, replikace, lokálnost dat, vědomí racku)
- Démoni: Namenode, Secondary namenode, Data node
- Komunikace a srdcové impulzy
- Celostatnost dat
- Cesta pro čtení a zápis
- Namenode High Availability (HA), Federace
- Laboratoře: Interakce s HDFS
Sekce 3: MapReduce
- Koncepty a architektura
- Démoni (MRV1): jobtracker, tasktracker
- Fáze: driver, mapper, shuffle/sort, reducer
- Map Reduce verze 1 a verze 2 (YARN)
- Vnitřní fungování MapReduce
- Úvod do Java MapReduce programu
- Laboratoře: Spouštění ukázkového programu MapReduce
Sekce 4: Pig
- Pig vs Java MapReduce
- Průběh úlohy Pig
- Jazyk Pig Latin
- ETL s Pigem
- Transformace a spojení (joins)
- Uživatelsky definované funkce (UDF)
- Laboratoře: Psaní skriptů Pig pro analýzu dat
Sekce 5: Hive
- Architektura a návrh
- Datové typy
- Podpora SQL v Hive
- Vytváření tabulek Hive a dotazování na ně
- Rozdělení (partitions)
- Spojení (joins)
- Zpracování textu
- Laboratoře: Různé laboratoře pro zpracování dat pomocí Hive
Sekce 6: HBase
- Koncepty a architektura
- HBase vs RDBMS vs Cassandra
- Java API pro HBase
- Casové řady dat v HBase
- Návrh schématu
- Laboratoře: Interakce s HBase pomocí shell; Programování v Java API pro HBase; Úkol na návrh schématu
Požadavky
- pohodlně se vyzná v jazyce Java (většina programovacích cvičení je ve Java)
- pohodlně se pohybuje v prostředí Linux (umí navigovat v příkazové řádce Linux, upravovat soubory pomocí vi / nano)
Laboratorní prostředí
Není třeba instalaci: Nepotřebují studenti instalovat Hadoop software na svých počítačích! Bude jim poskytnut pracovní cluster Hadoop.
Studenti budou potřebovat:
- SSH klient (Linux a Mac již disponují ssh klienty, pro Windows je doporučen Putty)
- webový prohlížeč k přístupu ke clusteru, doporučen Firefox
Reference (5)
Živé příklady
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Přeloženo strojem
Během cvičení mi James každý krok vysvětlil podrobněji tam, kde jsem se zasekl, protože jsem byl úplně nový u NIFI. Vysvětlil mi skutečné účely NIFI, dokonce i základy jako například open source. Přehlédl všechny koncepty Nifi od začátečnické úrovně až po úroveň vývojáře.
Firdous Hashim Ali - MOD A BLOCK
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Že jsem to měl od samého počátku.
Peter Scales - CACI Ltd
Kurz - Apache NiFi for Developers
Přeloženo strojem
Praktické věci se dělaly, ale teorie byla také dobře prezentována Ajayem.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurz - Hadoop Administration on MapR
Přeloženo strojem
Velmi jsem si oblíbil tuto virtuální mašinu. Vyučující měl k tématu i dalším oblastem velkou znalost a byl velmi příjemný a přátelský. Obdivoval jsem zařízení v Dubaji.
Safar Alqahtani - Elm Information Security
Kurz - Big Data Analytics in Health
Přeloženo strojem