Streamování dat a zpracování dat v reálném čase Počítačový Kurz
Přehled kurzu
Tento kurz nabízí praktický a strukturovaný úvod do budování systémů streamování dat v reálném čase. Zahrnuje základní koncepty, architektonické vzory a industriální nástroje používané ke zpracování kontinuálních dat ve velkém měřítku. Účastníci se naučí, jak navrhovat, implementovat a optimalizovat streamovací potrubí pomocí moderních frameworků. Kurz postupuje od základních myšlenek po praktické aplikace, což umožňuje účastníkům s důvěrou budovat řešení připravená pro produkční prostředí v reálném čase.
Formát školení
• Výuka s lektorem s vedoucím vysvětlováním
• Procházení koncepty s příklady z praxe
• Praktické ukázky a programovací cvičení
• Pozvolně rostoucí laboratorní úlohy napojené na každodenní témata
• Interaktivní diskuse a otázky a odpovědi
Cíle kurzu
• Porozumět konceptům streamování dat v reálném čase a architektuře systémů
• Rozlišovat mezi modely zpracování dávkových dat a streamovaných dat
• Navrhovat škálovatelná a odolná vůle chybám streamovací potrubí
• Práce s distribuovanými streamovacími nástroji a frameworky
• Aplikovat zpracování času události, okénkování a stavové operace
• Budovat a optimalizovat řešení pro zpracování dat v reálném čase pro obchodní případy použití
Návrh Školení
Návrh kurzu – Den 1
• Úvod do konceptů streamování dat
• Základy zpracování dávkových dat vs. zpracování v reálném čase
• Základy event-driven architektury
• Běžné případy použití v průmyslu
• Přehled streamovací ekosystému
Den 2
• Architektonické vzory pro streamování
• Základy distribuovaných komunikačních systémů
• Výrobci (producers) a konzumenti (consumers)
• Témata (topics), partice a tok dat
• Strategie příjmu dat
Den 3
• Koncepty a frameworky pro zpracování streamů
• Čas události vs. čas zpracování
• Techniky okénkování a jejich použití
• Stavové zpracování streamů
• Základy odolnosti vůle chybám a checkpointingu
Den 4
• Transformace dat ve streamovacích potrubích
• ETL a ELT v systémech reálného času
• Správa schémat a jejich evoluce
• Spojování streamů a obohacování dat
• Úvod do cloudových streamovacích služeb
Den 5
• Monitorování a observability ve streamovacích systémech
• Základy zabezpečení a řízení přístupu
• Tuning výkonu a optimalizace
• Revize návrhu end-to-end potrubí
• Případy z praxe, jako je detekce podvodů a zpracování dat z IoT
Veřejné školení vyžaduje minimálně 5 účastníků.
Streamování dat a zpracování dat v reálném čase Počítačový Kurz - Rezervace
Streamování dat a zpracování dat v reálném čase Počítačový Kurz - Dotaz
Streamování dat a zpracování dat v reálném čase - Dotaz ohledně konzultace
Reference (1)
Praktické cvičení. Třída by měla trvat 5 dní, ale i tři dny pomohly rozjasnit spoustu otázek, které jsem měl z práce s NiFi.
James - BHG Financial
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Nadcházející kurzy
Související kurzy
Pokročilé použití Apache Iceberg
21 HodinyTento instruktorem vedený, živý kurz v České republice (online nebo na místě) je zaměřen na pokročilé dataové odborníky, kteří chtějí optimalizovat pracovní postupy zpracování dat, zajistit integrity dat a implementovat robustní řešení pro data lakes, která mohou vypořádat s komplexností moderních aplikací na velkých datech.
Na konci tohoto kurzu budou účastníci schopni:
- Získat hluboké pochopení architektury Icebergu, včetně správy metadat a uspořádání souborů.
- Nakonfigurovat Iceberg pro optimální výkon ve různých prostředích a integrovat ho s více datovými procesními enginami.
- Spravovat velké tabulky Iceberg, provádět komplexní změny schémat a zpracovávat evoluci oddílů.
- Ovládat techniky pro optimalizaci výkonu dotazů a efektivitu čtení dat pro velké soubory dat.
- Implementovat mechanismy k zajištění konzistence dat, správě transakčních záruk a řešení selhání v distribuovaných prostředích.
Základy Apache Iceberg
14 HodinyToto vedené školení na živou v České republice (online nebo na místě) je určeno začínajícím datovým profesionálům, kteří se chtějí naučit efektivně využívat Apache Iceberg pro správu velkých datových souborů, zajištění integrity dat a optimalizaci pracovních postupů při zpracování dat.
Na konci tohoto školení budou účastníci schopni:
- Důkladně pochopit architekturu, funkce a výhody Apache Iceberg.
- Seznámit se s formáty tabulek, rozdělováním, evolucí schémat a funkcemi časového cestování.
- Nainstalovat a nakonfigurovat Apache Iceberg v různých prostředích.
- Vytvářet, spravovat a manipulovat s tabulkami Iceberg.
- Porozumět procesu migrování dat z jiných formátů tabulek do Iceberg.
Big Data Analytics s Google Colab a Apache Spark
14 HodinyTento instruktážní živý kurz (na místě nebo online) je určen pro středně pokročilé datové vědce a inženýry, kteří chtějí použít Google Colab a Apache Spark pro zpracování velkých dat a analytiku.
Po ukončení tohoto kurzu budou účastníci schopni:
- Nastavit prostředí pro velká data pomocí Google Colab a Sparku.
- Efektivně zpracovat a analyzovat výrazné datové sady pomocí Apache Spark.
- Visualizovat velká data ve spolupracovném prostředí.
- Integrace Apache Spark se cloudovými nástroji.
Big Data Business Intelligence pro státní orgány
35 HodinyPokroky v technologiích a rostoucí množství informací transformují způsob, jakým se vedou obchody ve mnoha odvětvích, včetně státní správy. Rychlý růst mobilních zařízení a aplikací, inteligentních senzorů a zařízení, cloudu a portálů pro občany vedou k zvýšenému generování dat a jejich digitální archivaci v rámci státních orgánů. S rozšířením a komplexitou digitálních informací se také komplikují správa, zpracování, úložiště, ochrana a zrušení dat. Nové nástroje pro zachycování, vyhledávání, objevování a analýzu pomáhají organizacím získat přehledy ze svých nestrukturovaných dat. Tržní prostor státních orgánů se nachází na přelomu, kdy pochopili, že informace jsou strategickým aktivem, a že je třeba chránit, využívat a analyzovat jak strukturovaná, tak nestrukturovaná data pro lepší plnění misí. Když vůdci státních orgánů usilují o rozvoj datově orientovaných organizací k úspěšnému dosažení svých cílů, klаду základy pro zjištění vazeb mezi událostmi, lidmi, procesy a informacemi.
Cenné řešení pro státní orgány vytvoří kombinace nejvíce inovativních technologií:
- Mobilní zařízení a aplikace
- Cloudové služby
- Technologie sociálních sítí a podnikové sociální technologie
- Big Data a analýza dat
Big Data je jedním z inteligentních odvětvových řešení, které státní orgány umožňuje lépe rozhodovat na základě vzorců odhalených analýzou velkých objemů dat – souvisejících a nesouvisejících, strukturovaných i nestrukturovaných.
Dosahování těchto úspěchů vyžaduje však mnohem více než pouhé shromažďování obrovského množství dat. „Pochopení těchto objemů Big Data vyžaduje moderní nástroje a technologie, které umožňují analyzovat a extrahovat užitečné znalosti z rozsáhlých a různorodých datových toků,“ napsali Tom Kalil a Fen Zhao ze Střediska pro vědu a technologii Bílého domu na blogu OSTP.
Bílý dům udělal krok směrem ke pomoci orgánům při hledání těchto technologií, když v roce 2012 zavedl Národní iniciativu pro Big Data v oblasti výzkumu a vývoje. Tato iniciativa zahrnovala více než 200 milionů dolarů na maximalizaci využití explodujících objemů Big Data a nástrojů potřebných k jejich analýze.
Výzvy, které přináší Big Data, jsou téměř stejně ohromující jako sliby, které nabízí. Efektivní úložiště dat je jednou z těchto výzev. Rozpočty jsou stále napjaté, takže orgány musí minimalizovat cenu za megabajt a udržet data snadno přístupná, aby si uživatelé mohli k nim kdykoli a jak potřebují. Záloha obrovských objemů dat zvyšuje tuto výzvu.
Efektivní analýza dat je další velkou výzvou. Mnoho orgánů používá komerční nástroje, které jim umožňují procházet hory dat a zjišťovat trendy, které jim pomáhají fungovat efektivněji. (Nedávno MeriTalk objevil, že federální IT manažeři věří, že Big Data může pomoci orgánům ušetřit více než 500 miliard dolarů a zároveň splňovat své cíle.)
Vlastní vývojová nástroje pro Big Data také umožňují orgánům analyzovat jejich data. Například, Laboratoř Oak Ridge National Laboratory Computational Data Analytics Group svou datovou analýzu systému Piranha nabídla i jiným orgánům. Tento systém pomohl lékařským vědcům najít vazbu, která může upozornit lékaře na aortickou aneurysmu před jejím vypuknutím. Používá se také pro běžnější úkoly, jako je třídění životopisů k propojení uchazečů s zaměstnavateli.
Praktický úvod do Data Analysis a Big Data - 3 dny
21 HodinyÚčastníci, kteří absolvují toto živé školení vedené instruktorem v České republice, získají praktické znalosti z reálného světa Big Data a souvisejících technologií, metodologií a nástrojů.
Účastníci budou mít příležitost uplatnit tyto znalosti v praxi prostřednictvím praktických cvičení. Skupinová interakce a zpětná vazba od instruktora tvoří důležitou součást třídy.
Kurz začíná úvodem do elementárních konceptů Big Data, poté pokračuje do programovacích jazyků a metodologií používaných k provádění Data Analysis. Nakonec probereme nástroje a infrastrukturu, které umožňují Big Data úložiště, distribuované zpracování a Scalaschopnost.
Big Data a Pokročilá Analýza
42 HodinyBig Data a pokročilá analýza je aplikací sofistikovaných technik a nástrojů na analýzu velkých, komplexních datových sad s cílem získat praktické inzichten a podpořit strategické rozhodování.
Toto instruktorem vedené živé školení (online nebo na místě) je určeno pokročilým datovým profesionálům, kteří chtějí využít moderní analýzní metody a technologie big data pro prediktivní, preskriptivní a reálně časovou analýzu.
Konec školení bude účastníci schopni:
- Návrh a implementace datových potrubí pro strukturovaná i nestrukturovaná data v velkém měřítku.
- Použití pokročilých technik strojového učení a hlubokého učení na masivní datové sady.
- Využívání distribuovaných výpočetních rámceství pro reálně časovou analýzu a streamování dat.
- Integrace big data analýzy do systémů podnikové inteligence a rozhodovacích procesů.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praktické praxe.
- Rukojmí implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se prosím obraťte k nám pro uspořádání.
Apache NiFi pro Správce
21 HodinyApache NiFi je open-source platforma pro tokovou integraci dat a zpracování událostí. Umožňuje automatizované, v reálném čase probíhající směrování dat, transformaci a mediatorku systémů mezi různými platformami s webovým uživatelským rozhraním a detailní kontrolou.
Tato školení vedená instruktorem (na místě nebo zdálky) je určená středně pokročilým správcům a inženýrům, kteří chtějí nasadit, spravovat, zabezpečit a optimalizovat NiFi toky dat v produkčních prostředích.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat, nakonfigurovat a udržovat Apache NiFi clustery.
- Naprojektovat a spravovat toky dat z různých zdrojů a cílů.
- Implementovat automatizaci toku, směrování a transformační logiku.
- Optimalizovat výkon, monitorovat operace a řešit problémy.
Formát kurzu
- Interaktivní přednáška s diskusí o reálných architekturách.
- Praktické cvičení: vytváření, nasazování a správa toků.
- Scénáře založená cvičení v prostředí live-labu.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se prosím obrátěte k nám, abychom to zařídili.
PySpark a strojové učení
21 HodinyTento kurz poskytuje praktický úvod do tvorby škálovatelných pracovních postupů zpracování dat a strojového učení pomocí PySparku. Účastníci se naučí, jak Apache Spark funguje v rámci moderních ekosystémů pro práci s velkými daty, a jak efektivně zpracovávat rozsáhlé datové sady pomocí principů distribuovaného výpočtu.
Základy Apache Spark
21 HodinyTato vedená školení na místě (online nebo na místě) je určená inženýrům, kteří chtějí nastavit a nasadit systém Apache Spark pro zpracování velmi velkých objemů dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Apache Spark.
- Rychle zpracovávat a analyzovat velmi velké soubory dat.
- Pochopit rozdíly mezi Apache Sparkem a Hadoop MapReduce a kdy se který používá.
- Integrovat Apache Spark s jinými nástroji pro strojové učení.
Správa Apache Spark
35 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Apache Spark v cloudu
21 HodinyKřivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Python a Spark pro Velká Data (PySpark)
21 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark a Hadoop pro Velká Data
21 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Stratio: Rocket a Intelligence Moduly s PySpark
14 HodinyStratio je datově orientovaná platforma, která integruje big data, umělou inteligenci (AI) a řízení do jednotného řešení. Její moduly Rocket a Intelligence umožňují rychlé prozkoumávání, transformaci a pokročilé analýzy dat v podnikových prostředích.
Tato instruktorem vedena živá školení (online nebo na místě) je určená pro středně pokročilé odborníky na data, kteří chtějí efektivně používat moduly Rocket a Intelligence v Stratio s PySpark, s důrazem na smyčkové struktury, uživatelsky definované funkce (UDFs) a pokročilou datovou logiku.
Na konci tohoto školení budou účastníci schopni:
- Navigovat a pracovat v platformě Stratio pomocí modulů Rocket a Intelligence.
- Používat PySpark ve kontextu ingesta, transformace a analýzy dat.
- Využívat smyčky a podmíněnou logiku k řízení pracovních postupů s daty a úloh předzpracování dat.
- Vytvářet a spravovat uživatelsky definované funkce (UDFs) pro opakovatelné operace s daty v PySpark.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Praktické implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení tohoto kurzu, prosím nás kontaktujte pro domluvu.