Streamování dat a zpracování dat v reálném čase Počítačový Kurz
Přehled kurzu
Tento kurz nabízí praktický a strukturovaný úvod do budování systémů streamování dat v reálném čase. Zahrnuje základní koncepty, architektonické vzory a industriální nástroje používané ke zpracování kontinuálních dat ve velkém měřítku. Účastníci se naučí, jak navrhovat, implementovat a optimalizovat streamovací potrubí pomocí moderních frameworků. Kurz postupuje od základních myšlenek po praktické aplikace, což umožňuje účastníkům s důvěrou budovat řešení připravená pro produkční prostředí v reálném čase.
Formát školení
• Výuka s lektorem s vedoucím vysvětlováním
• Procházení koncepty s příklady z praxe
• Praktické ukázky a programovací cvičení
• Pozvolně rostoucí laboratorní úlohy napojené na každodenní témata
• Interaktivní diskuse a otázky a odpovědi
Cíle kurzu
• Porozumět konceptům streamování dat v reálném čase a architektuře systémů
• Rozlišovat mezi modely zpracování dávkových dat a streamovaných dat
• Navrhovat škálovatelná a odolná vůle chybám streamovací potrubí
• Práce s distribuovanými streamovacími nástroji a frameworky
• Aplikovat zpracování času události, okénkování a stavové operace
• Budovat a optimalizovat řešení pro zpracování dat v reálném čase pro obchodní případy použití
Návrh Školení
Návrh kurzu – Den 1
• Úvod do konceptů streamování dat
• Základy zpracování dávkových dat vs. zpracování v reálném čase
• Základy event-driven architektury
• Běžné případy použití v průmyslu
• Přehled streamovací ekosystému
Den 2
• Architektonické vzory pro streamování
• Základy distribuovaných komunikačních systémů
• Výrobci (producers) a konzumenti (consumers)
• Témata (topics), partice a tok dat
• Strategie příjmu dat
Den 3
• Koncepty a frameworky pro zpracování streamů
• Čas události vs. čas zpracování
• Techniky okénkování a jejich použití
• Stavové zpracování streamů
• Základy odolnosti vůle chybám a checkpointingu
Den 4
• Transformace dat ve streamovacích potrubích
• ETL a ELT v systémech reálného času
• Správa schémat a jejich evoluce
• Spojování streamů a obohacování dat
• Úvod do cloudových streamovacích služeb
Den 5
• Monitorování a observability ve streamovacích systémech
• Základy zabezpečení a řízení přístupu
• Tuning výkonu a optimalizace
• Revize návrhu end-to-end potrubí
• Případy z praxe, jako je detekce podvodů a zpracování dat z IoT
Veřejné školení vyžaduje minimálně 5 účastníků.
Streamování dat a zpracování dat v reálném čase Počítačový Kurz - Rezervace
Streamování dat a zpracování dat v reálném čase Počítačový Kurz - Dotaz
Streamování dat a zpracování dat v reálném čase - Dotaz ohledně konzultace
Reference (1)
Praktické cvičení. Třída by měla trvat 5 dní, ale i tři dny pomohly rozjasnit spoustu otázek, které jsem měl z práce s NiFi.
James - BHG Financial
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Nadcházející kurzy
Související kurzy
Školení administrátorů pro Apache Hadoop
35 HodinyPublikum:
Kurz je určen pro IT odborníky hledající řešení pro uchovávání a zpracování velkých datových souborů v prostředí distribuovaného systému.
Gopožadavky:
Profilovaná znalost správy clusterů Hadoop.
Big Data Analytics s Google Colab a Apache Spark
14 HodinyTento instruktážní živý kurz (na místě nebo online) je určen pro středně pokročilé datové vědce a inženýry, kteří chtějí použít Google Colab a Apache Spark pro zpracování velkých dat a analytiku.
Po ukončení tohoto kurzu budou účastníci schopni:
- Nastavit prostředí pro velká data pomocí Google Colab a Sparku.
- Efektivně zpracovat a analyzovat výrazné datové sady pomocí Apache Spark.
- Visualizovat velká data ve spolupracovném prostředí.
- Integrace Apache Spark se cloudovými nástroji.
Analýza velkých dat v zdravotnictví
21 HodinyAnalýza velkých dat se týká procesu zkoumání velkého množství různorodých datových sad s cílem odhalit korelace, skryté vzory a další užitečné zjištění.
Zdravotnictví disponuje obrovským množstvím komplexních heterogenních lékařských a klinických dat. Aplikace analýzy velkých dat na data v zdravotnictví nabízí ohromné potenciály pro odvození poznatků, které mohou přispět ke zlepšení poskytování zdravotních služeb. Nicméně rozsah těchto datových sad představuje výzvu v analýze a praktickém využití ve klinickém prostředí.
V tomto instruktorem vedeném, živé tréninku (vzdáleném) se účastníci naučí provádět analýzu velkých dat v zdravotnictví během série praktických cvičení.
Koncem tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat nástroje pro analýzu velkých dat, jako je Hadoop MapReduce a Spark
- Pochopit charakteristiku lékařských dat
- Aplikovat techniky velkých dat na zpracování lékařských dat
- Studovat systémy a algoritmy velkých dat v kontextu aplikací ve zdravotnictví
Cílová skupina
- Vývojáři
- Analitici dat
Formát kurzu
- Část přednášky, část diskuze, cvičení a intenzivní praktické procvičování.
Poznámka
- Pro požadavek na přizpůsobené školení pro tento kurz nás prosím kontaktujte s cílem sjednotit datum a čas.
Hadoop pro administrátory
21 HodinyApache Hadoop je nejpopulárnější rámec pro zpracování Big Data na shluky serverů. Tento třídenní kurz (volitelně čtyřdenní) se zaměřuje na obchodní výhody a případy použití Hadoop a jeho ekosystému, jak plánovat nasazení a růst clusteru, jak nainstalovat, udržovat, monitorovat, diagnostikovat problémy a optimalizovat Hadoop. Zúčastnění se také naučí zátěžový nahrávání dat do clusteru, budou obeznámeni s různými distribucemi Hadoop a budou mít praxi instalace a správy nástrojů ekosystému Hadoop. Kurz se uzavře diskuzí o zabezpečení clusteru pomocí Kerberos.
“… Materiál byl velmi dobře připraven a zahrnoval úplnou krytí. Laboratoř byla velmi užitečná a dobře organizovaná”
— Andrew Nguyen, hlavní integrační DW inženýr, Microsoft Online Advertising
Audience
Hadoop administrátory
Formát
Přednášky a praktické laboratoře, přibližný poměr 60% přednášek, 40% laboratoří.
Hadoop pro vývojáře (4 dny)
28 HodinyApache Hadoop je nejoblíbenější framework pro zpracování Big Data na clusterech serverů. Tento kurz představí vývojáři různé komponenty (HDFS, MapReduce, Pig, Hive a HBase) ekosystému Hadoop.
Pokročilé Hadoop pro vývojáře
21 HodinyApache Hadoop je jedním z nejoblíbenějších rámeců pro zpracování Big Data na clusterech serverů. Tento kurz se zabývá datovým managementem v HDFS, pokročilou Pig, Hive a HBase. Tyto pokročilé programovací techniky budou užitečné pro zkušené Hadoop vývojáře.
Cílová skupina: vývojáři
Délka: tři dny
Formát: přednášky (50%) a praktické cvičení (50%).
Administrace Hadoop na MapR
28 HodinyCílová skupina:
Tento kurz je určen k tomu, aby demystifikoval technologie velkých dat a Hadoopu a ukázal, že jsou porozumitelné.
Hadoop a Spark pro správce
35 HodinyToto školení vedené instruktorem (online nebo na místě) je určeno správcům systémů, kteří chtějí naučit se nastavovat, nasazovat a spravovat Hadoop clustery ve své organizaci.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Apache Hadoop.
- Pochopit čtyři hlavní komponenty v ekosystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použít Hadoop Distributed File System (HDFS) k škálování clusteru na stovky nebo tisíce uzlů.
- Nastavit HDFS jako úložiště pro místní nasazení Spark.
- Nastavit Spark k připojení ke střídavým úložišťům, jako je Amazon S3 a NoSQL databázové systémy, např. Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádět správcovské úkoly, jako jsou zřizování, správa, monitorování a bezpečnost Apache Hadoop clusteru.
HBase pro vývojáře
21 HodinyTento kurz představuje HBase – NoSQL úložiště nad Hadoopem. Kurz je určený pro vývojáře, kteří budou pomocí HBase vytvářet aplikace, a také pro správce, kteří budou spravovat HBase clustery.
Projdeme architekturu HBase, modelování dat a vývoj aplikací na HBase. Kurz se také zabývá použitím MapReduce s HBase a některými administrativními tématy souvisejícími s optimalizací výkonu. Kurs je velmi praktický, obsahuje mnoho cvičení v laboratoři.
Délka: 3 dny
Cílová skupina: Vývojáři & Správci
Apache NiFi pro Správce
21 HodinyApache NiFi je open-source platforma pro tokovou integraci dat a zpracování událostí. Umožňuje automatizované, v reálném čase probíhající směrování dat, transformaci a mediatorku systémů mezi různými platformami s webovým uživatelským rozhraním a detailní kontrolou.
Tato školení vedená instruktorem (na místě nebo zdálky) je určená středně pokročilým správcům a inženýrům, kteří chtějí nasadit, spravovat, zabezpečit a optimalizovat NiFi toky dat v produkčních prostředích.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat, nakonfigurovat a udržovat Apache NiFi clustery.
- Naprojektovat a spravovat toky dat z různých zdrojů a cílů.
- Implementovat automatizaci toku, směrování a transformační logiku.
- Optimalizovat výkon, monitorovat operace a řešit problémy.
Formát kurzu
- Interaktivní přednáška s diskusí o reálných architekturách.
- Praktické cvičení: vytváření, nasazování a správa toků.
- Scénáře založená cvičení v prostředí live-labu.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se prosím obrátěte k nám, abychom to zařídili.
Apache NiFi pro Vývojáře
7 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí základy programování založeného na toku při vývoji řady demo rozšíření, komponent a procesorů pomocí Apache NiFi.
Na konci tohoto školení budou účastníci schopni:
- Pochopte architekturu a koncepty toku dat NiFi.
- Vyvíjejte rozšíření pomocí NiFi a API třetích stran.
- Vlastní vývoj vlastního procesoru Apache Nifi.
- Ingestujte a zpracujte data v reálném čase z různorodých a neobvyklých formátů souborů a zdrojů dat.
PySpark a strojové učení
21 HodinyTento kurz poskytuje praktický úvod do tvorby škálovatelných pracovních postupů zpracování dat a strojového učení pomocí PySparku. Účastníci se naučí, jak Apache Spark funguje v rámci moderních ekosystémů pro práci s velkými daty, a jak efektivně zpracovávat rozsáhlé datové sady pomocí principů distribuovaného výpočtu.
Python a Spark pro Velká Data (PySpark)
21 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark a Hadoop pro Velká Data
21 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Stratio: Rocket a Intelligence Moduly s PySpark
14 HodinyStratio je datově orientovaná platforma, která integruje big data, umělou inteligenci (AI) a řízení do jednotného řešení. Její moduly Rocket a Intelligence umožňují rychlé prozkoumávání, transformaci a pokročilé analýzy dat v podnikových prostředích.
Tato instruktorem vedena živá školení (online nebo na místě) je určená pro středně pokročilé odborníky na data, kteří chtějí efektivně používat moduly Rocket a Intelligence v Stratio s PySpark, s důrazem na smyčkové struktury, uživatelsky definované funkce (UDFs) a pokročilou datovou logiku.
Na konci tohoto školení budou účastníci schopni:
- Navigovat a pracovat v platformě Stratio pomocí modulů Rocket a Intelligence.
- Používat PySpark ve kontextu ingesta, transformace a analýzy dat.
- Využívat smyčky a podmíněnou logiku k řízení pracovních postupů s daty a úloh předzpracování dat.
- Vytvářet a spravovat uživatelsky definované funkce (UDFs) pro opakovatelné operace s daty v PySpark.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Praktické implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení tohoto kurzu, prosím nás kontaktujte pro domluvu.