IBM Datastage pro správce a vývojáře Počítačový Kurz
IBM DataStage je výkonný nástroj pro extrakci, transformaci a načítání dat (ETL), který se používá v datových skladech a obchodní inteligenci. Tento nástroj pomáhá organizacím integrovat a transformovat velké objemy dat z různých zdrojů do jednotného formátu.
Tuto instruktorem vedenou, živou školení (online nebo na místě) je zaměřeno na středně pokročilé IT profissionály, kteří chtějí získat komplexní pochopení IBM DataStage z hlediska správy i vývoje. To jim umožní efektivně řídit a využívat tento nástroj ve svých pracovních místech.
Na konci tohoto školení budou účastníci schopni:
- Pochopit základní pojmy DataStage.
- Dovědět se, jak efektivně instalovat, konfigurovat a spravovat prostředí DataStage.
- Připojovat se k různým zdrojům dat a efektivně extrahovat data z databází, plochých souborů a externích zdrojů.
- Implementovat účinné techniky načítání dat.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Spousta cvičení a praxe.
- Praktická implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se obraťte na nás a domluvte si to.
Návrh Školení
Úvod do DataStage
- Přehled procesu ETL
- Pochopení architektury DataStage
- Klíčové komponenty DataStage
Správa DataStage
- Instalace a konfigurace
- Správa uživatelů a bezpečnosti
- Nastavení projektu a správa prostředí
- Řazení a správa úloh
- Postupy zálohování a obnovení
Techniky extrakce dat
- Připojení k různým zdrojům dat
- Extrahování dat z databází, plochých souborů a externích zdrojů
- Osobní doporučení k extrakci dat
Transformace dat pomocí DataStage
- Pochopení návrháře DataStage
- Práce s různými typy etap
- Implementace obchodní logiky v transformacích
- Pokročilé techniky transformace dat
Načítání a integrace dat
- Načítání dat do cílových systémů
- Zajištění kvality a integrity dat
- Obsluha chyb a záznamy
Optimalizace výkonu
- Osobní doporučení pro optimalizaci výkonu
- Správa zdrojů
- Řazení úloh a paralelnost
Pokročilé témata
- Práce s DataStage director
- Ladačení a řešení problémů
Shrnutí a další kroky
Požadavky
- Základní znalosti konceptů databází
- Odborné znalosti SQL a principů datových skladů
Cílová skupina
- IT profissionálové
- Správci databází
- Vývojáři
Veřejné školení vyžaduje minimálně 5 účastníků.
IBM Datastage pro správce a vývojáře Počítačový Kurz - Rezervace
IBM Datastage pro správce a vývojáře Počítačový Kurz - Dotaz
IBM Datastage pro správce a vývojáře - Dotaz ohledně konzultace
Reference (1)
Praktické cvičení. Třída by měla trvat 5 dní, ale i tři dny pomohly rozjasnit spoustu otázek, které jsem měl z práce s NiFi.
James - BHG Financial
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Nadcházející kurzy
Související kurzy
Pokročilé použití Apache Iceberg
21 HodinyTento instruktorem vedený, živý kurz v České republice (online nebo na místě) je zaměřen na pokročilé dataové odborníky, kteří chtějí optimalizovat pracovní postupy zpracování dat, zajistit integrity dat a implementovat robustní řešení pro data lakes, která mohou vypořádat s komplexností moderních aplikací na velkých datech.
Na konci tohoto kurzu budou účastníci schopni:
- Získat hluboké pochopení architektury Icebergu, včetně správy metadat a uspořádání souborů.
- Nakonfigurovat Iceberg pro optimální výkon ve různých prostředích a integrovat ho s více datovými procesními enginami.
- Spravovat velké tabulky Iceberg, provádět komplexní změny schémat a zpracovávat evoluci oddílů.
- Ovládat techniky pro optimalizaci výkonu dotazů a efektivitu čtení dat pro velké soubory dat.
- Implementovat mechanismy k zajištění konzistence dat, správě transakčních záruk a řešení selhání v distribuovaných prostředích.
Základy Apache Iceberg
14 HodinyToto vedené školení na živou v České republice (online nebo na místě) je určeno začínajícím datovým profesionálům, kteří se chtějí naučit efektivně využívat Apache Iceberg pro správu velkých datových souborů, zajištění integrity dat a optimalizaci pracovních postupů při zpracování dat.
Na konci tohoto školení budou účastníci schopni:
- Důkladně pochopit architekturu, funkce a výhody Apache Iceberg.
- Seznámit se s formáty tabulek, rozdělováním, evolucí schémat a funkcemi časového cestování.
- Nainstalovat a nakonfigurovat Apache Iceberg v různých prostředích.
- Vytvářet, spravovat a manipulovat s tabulkami Iceberg.
- Porozumět procesu migrování dat z jiných formátů tabulek do Iceberg.
Big Data Analytics s Google Colab a Apache Spark
14 HodinyTento instruktážní živý kurz (na místě nebo online) je určen pro středně pokročilé datové vědce a inženýry, kteří chtějí použít Google Colab a Apache Spark pro zpracování velkých dat a analytiku.
Po ukončení tohoto kurzu budou účastníci schopni:
- Nastavit prostředí pro velká data pomocí Google Colab a Sparku.
- Efektivně zpracovat a analyzovat výrazné datové sady pomocí Apache Spark.
- Visualizovat velká data ve spolupracovném prostředí.
- Integrace Apache Spark se cloudovými nástroji.
Big Data Business Intelligence pro státní orgány
35 HodinyPokroky v technologiích a rostoucí množství informací transformují způsob, jakým se vedou obchody ve mnoha odvětvích, včetně státní správy. Rychlý růst mobilních zařízení a aplikací, inteligentních senzorů a zařízení, cloudu a portálů pro občany vedou k zvýšenému generování dat a jejich digitální archivaci v rámci státních orgánů. S rozšířením a komplexitou digitálních informací se také komplikují správa, zpracování, úložiště, ochrana a zrušení dat. Nové nástroje pro zachycování, vyhledávání, objevování a analýzu pomáhají organizacím získat přehledy ze svých nestrukturovaných dat. Tržní prostor státních orgánů se nachází na přelomu, kdy pochopili, že informace jsou strategickým aktivem, a že je třeba chránit, využívat a analyzovat jak strukturovaná, tak nestrukturovaná data pro lepší plnění misí. Když vůdci státních orgánů usilují o rozvoj datově orientovaných organizací k úspěšnému dosažení svých cílů, klаду základy pro zjištění vazeb mezi událostmi, lidmi, procesy a informacemi.
Cenné řešení pro státní orgány vytvoří kombinace nejvíce inovativních technologií:
- Mobilní zařízení a aplikace
- Cloudové služby
- Technologie sociálních sítí a podnikové sociální technologie
- Big Data a analýza dat
Big Data je jedním z inteligentních odvětvových řešení, které státní orgány umožňuje lépe rozhodovat na základě vzorců odhalených analýzou velkých objemů dat – souvisejících a nesouvisejících, strukturovaných i nestrukturovaných.
Dosahování těchto úspěchů vyžaduje však mnohem více než pouhé shromažďování obrovského množství dat. „Pochopení těchto objemů Big Data vyžaduje moderní nástroje a technologie, které umožňují analyzovat a extrahovat užitečné znalosti z rozsáhlých a různorodých datových toků,“ napsali Tom Kalil a Fen Zhao ze Střediska pro vědu a technologii Bílého domu na blogu OSTP.
Bílý dům udělal krok směrem ke pomoci orgánům při hledání těchto technologií, když v roce 2012 zavedl Národní iniciativu pro Big Data v oblasti výzkumu a vývoje. Tato iniciativa zahrnovala více než 200 milionů dolarů na maximalizaci využití explodujících objemů Big Data a nástrojů potřebných k jejich analýze.
Výzvy, které přináší Big Data, jsou téměř stejně ohromující jako sliby, které nabízí. Efektivní úložiště dat je jednou z těchto výzev. Rozpočty jsou stále napjaté, takže orgány musí minimalizovat cenu za megabajt a udržet data snadno přístupná, aby si uživatelé mohli k nim kdykoli a jak potřebují. Záloha obrovských objemů dat zvyšuje tuto výzvu.
Efektivní analýza dat je další velkou výzvou. Mnoho orgánů používá komerční nástroje, které jim umožňují procházet hory dat a zjišťovat trendy, které jim pomáhají fungovat efektivněji. (Nedávno MeriTalk objevil, že federální IT manažeři věří, že Big Data může pomoci orgánům ušetřit více než 500 miliard dolarů a zároveň splňovat své cíle.)
Vlastní vývojová nástroje pro Big Data také umožňují orgánům analyzovat jejich data. Například, Laboratoř Oak Ridge National Laboratory Computational Data Analytics Group svou datovou analýzu systému Piranha nabídla i jiným orgánům. Tento systém pomohl lékařským vědcům najít vazbu, která může upozornit lékaře na aortickou aneurysmu před jejím vypuknutím. Používá se také pro běžnější úkoly, jako je třídění životopisů k propojení uchazečů s zaměstnavateli.
Praktický úvod do Data Analysis a Big Data - 3 dny
21 HodinyÚčastníci, kteří absolvují toto živé školení vedené instruktorem v České republice, získají praktické znalosti z reálného světa Big Data a souvisejících technologií, metodologií a nástrojů.
Účastníci budou mít příležitost uplatnit tyto znalosti v praxi prostřednictvím praktických cvičení. Skupinová interakce a zpětná vazba od instruktora tvoří důležitou součást třídy.
Kurz začíná úvodem do elementárních konceptů Big Data, poté pokračuje do programovacích jazyků a metodologií používaných k provádění Data Analysis. Nakonec probereme nástroje a infrastrukturu, které umožňují Big Data úložiště, distribuované zpracování a Scalaschopnost.
Apache NiFi pro Správce
21 HodinyApache NiFi je open-source platforma pro tokovou integraci dat a zpracování událostí. Umožňuje automatizované, v reálném čase probíhající směrování dat, transformaci a mediatorku systémů mezi různými platformami s webovým uživatelským rozhraním a detailní kontrolou.
Tato školení vedená instruktorem (na místě nebo zdálky) je určená středně pokročilým správcům a inženýrům, kteří chtějí nasadit, spravovat, zabezpečit a optimalizovat NiFi toky dat v produkčních prostředích.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat, nakonfigurovat a udržovat Apache NiFi clustery.
- Naprojektovat a spravovat toky dat z různých zdrojů a cílů.
- Implementovat automatizaci toku, směrování a transformační logiku.
- Optimalizovat výkon, monitorovat operace a řešit problémy.
Formát kurzu
- Interaktivní přednáška s diskusí o reálných architekturách.
- Praktické cvičení: vytváření, nasazování a správa toků.
- Scénáře založená cvičení v prostředí live-labu.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se prosím obrátěte k nám, abychom to zařídili.
PySpark a strojové učení
21 HodinyTento kurz poskytuje praktický úvod do tvorby škálovatelných pracovních postupů zpracování dat a strojového učení pomocí PySparku. Účastníci se naučí, jak Apache Spark funguje v rámci moderních ekosystémů pro práci s velkými daty, a jak efektivně zpracovávat rozsáhlé datové sady pomocí principů distribuovaného výpočtu.
Základy Apache Spark
21 HodinyTato vedená školení na místě (online nebo na místě) je určená inženýrům, kteří chtějí nastavit a nasadit systém Apache Spark pro zpracování velmi velkých objemů dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Apache Spark.
- Rychle zpracovávat a analyzovat velmi velké soubory dat.
- Pochopit rozdíly mezi Apache Sparkem a Hadoop MapReduce a kdy se který používá.
- Integrovat Apache Spark s jinými nástroji pro strojové učení.
Správa Apache Spark
35 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Apache Spark v cloudu
21 HodinyKřivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Python a Spark pro Velká Data (PySpark)
21 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark a Hadoop pro Velká Data
21 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Apache Spark SQL
7 HodinySpark SQL je modul Apache Sparku pro práci s strukturovanými a nestrukturovanými daty. Spark SQL poskytuje informace o struktuře dat a provedených výpočtech. Tato informace mohou být použity k optimalizaci. Dvě běžné použití Spark SQL jsou:
- provádění dotazů SQL.
- čtení dat z existující instalace Hive.
V tomto školení vedeném instruktorem (na místě nebo na dálku) se účastníci naučí analyzovat různé typy datových souborů pomocí Spark SQL.
Po ukončení tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Spark SQL.
- Provádět analýzu dat pomocí Spark SQL.
- Dotazovat se na data v různých formátech.
- Vizualizovat data a výsledky dotazů.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Záplava cvičení a praxe.
- Přímo v laboratoři implementovat v reálném čase.
Možnosti přizpůsobení kurzu
- Pokud chcete pořádat customizované školení pro tento kurz, kontaktujte nás a domluvte si to.
Stratio: Rocket a Intelligence Moduly s PySpark
14 HodinyStratio je datově orientovaná platforma, která integruje big data, umělou inteligenci (AI) a řízení do jednotného řešení. Její moduly Rocket a Intelligence umožňují rychlé prozkoumávání, transformaci a pokročilé analýzy dat v podnikových prostředích.
Tato instruktorem vedena živá školení (online nebo na místě) je určená pro středně pokročilé odborníky na data, kteří chtějí efektivně používat moduly Rocket a Intelligence v Stratio s PySpark, s důrazem na smyčkové struktury, uživatelsky definované funkce (UDFs) a pokročilou datovou logiku.
Na konci tohoto školení budou účastníci schopni:
- Navigovat a pracovat v platformě Stratio pomocí modulů Rocket a Intelligence.
- Používat PySpark ve kontextu ingesta, transformace a analýzy dat.
- Využívat smyčky a podmíněnou logiku k řízení pracovních postupů s daty a úloh předzpracování dat.
- Vytvářet a spravovat uživatelsky definované funkce (UDFs) pro opakovatelné operace s daty v PySpark.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Praktické implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení tohoto kurzu, prosím nás kontaktujte pro domluvu.