Talend Big Data Integration Počítačový Kurz
Talend Open Studio for Big Data je open source ETL nástroj pro zpracování big data. Zahrnuje vývojové prostředí pro práci s big data zdroji a cíli a spouštění úloh bez nutnosti psát kód.
Tuto instruktor-vedenou živou školení (online nebo na místě) je určeno technickým osobám, které chtějí nasadit Talend Open Studio for Big Data pro zjednodušení procesu čtení a zpracování big data.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Talend Open Studio for Big Data.
- Připojit se k big data systémům, jako jsou Cloudera, HortonWorks, MapR, Amazon EMR a Apache.
- Porozumět a nastavit komponenty a připojení Open Studio pro big data.
- Nakonfigurovat parametry pro automatické generování MapReduce kódu.
- Použít rozhraní Open Studio pro přetahování a spouštění Hadoop úloh.
- Prototypovat big data kanály.
- Automatizovat big data integrační projekty.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Množství cvičení a praktické praxe.
- Praktická implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pokud si přejete vytvořit přizpůsobené školení pro tento kurz, kontaktujte nás k domluvě.
Návrh Školení
Úvod
Přehled funkcí a architektury „Open Studio for Big Data“
Nastavení Open Studio pro big data
Navigace v uživatelském rozhraní
Porozumění komponentám a připojením big data
Připojení k Hadoop clusteru
Čtení a zápis dat
Zpracování dat pomocí Hive a MapReduce
Analýza výsledků
Zlepšení kvality big data
Vytvoření big data kanálu
Správa uživatelů, skupin, rolí a projektů
Nasazení Open Studio do produkce
Monitorování Open Studio
Řešení potíží
Shrnutí a závěr
Požadavky
- Pochopení vztahových databází
- Pochopení datových skladů
- Pochopení konceptů ETL (Extract, Transform, Load)
Cílová skupina
- Odborníci na business intelligence
- Odborníci na databáze
- SQL vývojáři
- ETL vývojáři
- Řešení architektů
- Data architekti
- Odborníci na datové skladovy
- Správci systémů a integrátoři
Veřejné školení vyžaduje minimálně 5 účastníků.
Talend Big Data Integration Počítačový Kurz - Rezervace
Talend Big Data Integration Počítačový Kurz - Dotaz
Talend Big Data Integration - Dotaz ohledně konzultace
Reference (1)
Praktické cvičení. Třída by měla trvat 5 dní, ale i tři dny pomohly rozjasnit spoustu otázek, které jsem měl z práce s NiFi.
James - BHG Financial
Kurz - Apache NiFi for Administrators
Přeloženo strojem
Nadcházející kurzy
Související kurzy
Školení administrátorů pro Apache Hadoop
35 HodinyPublikum:
Kurz je určen pro IT odborníky hledající řešení pro uchovávání a zpracování velkých datových souborů v prostředí distribuovaného systému.
Gopožadavky:
Profilovaná znalost správy clusterů Hadoop.
Big Data Analytics s Google Colab a Apache Spark
14 HodinyTento instruktážní živý kurz (na místě nebo online) je určen pro středně pokročilé datové vědce a inženýry, kteří chtějí použít Google Colab a Apache Spark pro zpracování velkých dat a analytiku.
Po ukončení tohoto kurzu budou účastníci schopni:
- Nastavit prostředí pro velká data pomocí Google Colab a Sparku.
- Efektivně zpracovat a analyzovat výrazné datové sady pomocí Apache Spark.
- Visualizovat velká data ve spolupracovném prostředí.
- Integrace Apache Spark se cloudovými nástroji.
Analýza velkých dat v zdravotnictví
21 HodinyAnalýza velkých dat se týká procesu zkoumání velkého množství různorodých datových sad s cílem odhalit korelace, skryté vzory a další užitečné zjištění.
Zdravotnictví disponuje obrovským množstvím komplexních heterogenních lékařských a klinických dat. Aplikace analýzy velkých dat na data v zdravotnictví nabízí ohromné potenciály pro odvození poznatků, které mohou přispět ke zlepšení poskytování zdravotních služeb. Nicméně rozsah těchto datových sad představuje výzvu v analýze a praktickém využití ve klinickém prostředí.
V tomto instruktorem vedeném, živé tréninku (vzdáleném) se účastníci naučí provádět analýzu velkých dat v zdravotnictví během série praktických cvičení.
Koncem tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat nástroje pro analýzu velkých dat, jako je Hadoop MapReduce a Spark
- Pochopit charakteristiku lékařských dat
- Aplikovat techniky velkých dat na zpracování lékařských dat
- Studovat systémy a algoritmy velkých dat v kontextu aplikací ve zdravotnictví
Cílová skupina
- Vývojáři
- Analitici dat
Formát kurzu
- Část přednášky, část diskuze, cvičení a intenzivní praktické procvičování.
Poznámka
- Pro požadavek na přizpůsobené školení pro tento kurz nás prosím kontaktujte s cílem sjednotit datum a čas.
Hadoop pro administrátory
21 HodinyApache Hadoop je nejpopulárnější rámec pro zpracování Big Data na shluky serverů. Tento třídenní kurz (volitelně čtyřdenní) se zaměřuje na obchodní výhody a případy použití Hadoop a jeho ekosystému, jak plánovat nasazení a růst clusteru, jak nainstalovat, udržovat, monitorovat, diagnostikovat problémy a optimalizovat Hadoop. Zúčastnění se také naučí zátěžový nahrávání dat do clusteru, budou obeznámeni s různými distribucemi Hadoop a budou mít praxi instalace a správy nástrojů ekosystému Hadoop. Kurz se uzavře diskuzí o zabezpečení clusteru pomocí Kerberos.
“… Materiál byl velmi dobře připraven a zahrnoval úplnou krytí. Laboratoř byla velmi užitečná a dobře organizovaná”
— Andrew Nguyen, hlavní integrační DW inženýr, Microsoft Online Advertising
Audience
Hadoop administrátory
Formát
Přednášky a praktické laboratoře, přibližný poměr 60% přednášek, 40% laboratoří.
Hadoop pro vývojáře (4 dny)
28 HodinyApache Hadoop je nejoblíbenější framework pro zpracování Big Data na clusterech serverů. Tento kurz představí vývojáři různé komponenty (HDFS, MapReduce, Pig, Hive a HBase) ekosystému Hadoop.
Pokročilé Hadoop pro vývojáře
21 HodinyApache Hadoop je jedním z nejoblíbenějších rámeců pro zpracování Big Data na clusterech serverů. Tento kurz se zabývá datovým managementem v HDFS, pokročilou Pig, Hive a HBase. Tyto pokročilé programovací techniky budou užitečné pro zkušené Hadoop vývojáře.
Cílová skupina: vývojáři
Délka: tři dny
Formát: přednášky (50%) a praktické cvičení (50%).
Administrace Hadoop na MapR
28 HodinyCílová skupina:
Tento kurz je určen k tomu, aby demystifikoval technologie velkých dat a Hadoopu a ukázal, že jsou porozumitelné.
Hadoop a Spark pro správce
35 HodinyToto školení vedené instruktorem (online nebo na místě) je určeno správcům systémů, kteří chtějí naučit se nastavovat, nasazovat a spravovat Hadoop clustery ve své organizaci.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat a nakonfigurovat Apache Hadoop.
- Pochopit čtyři hlavní komponenty v ekosystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použít Hadoop Distributed File System (HDFS) k škálování clusteru na stovky nebo tisíce uzlů.
- Nastavit HDFS jako úložiště pro místní nasazení Spark.
- Nastavit Spark k připojení ke střídavým úložišťům, jako je Amazon S3 a NoSQL databázové systémy, např. Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádět správcovské úkoly, jako jsou zřizování, správa, monitorování a bezpečnost Apache Hadoop clusteru.
HBase pro vývojáře
21 HodinyTento kurz představuje HBase – NoSQL úložiště nad Hadoopem. Kurz je určený pro vývojáře, kteří budou pomocí HBase vytvářet aplikace, a také pro správce, kteří budou spravovat HBase clustery.
Projdeme architekturu HBase, modelování dat a vývoj aplikací na HBase. Kurz se také zabývá použitím MapReduce s HBase a některými administrativními tématy souvisejícími s optimalizací výkonu. Kurs je velmi praktický, obsahuje mnoho cvičení v laboratoři.
Délka: 3 dny
Cílová skupina: Vývojáři & Správci
Apache NiFi pro Správce
21 HodinyApache NiFi je open-source platforma pro tokovou integraci dat a zpracování událostí. Umožňuje automatizované, v reálném čase probíhající směrování dat, transformaci a mediatorku systémů mezi různými platformami s webovým uživatelským rozhraním a detailní kontrolou.
Tato školení vedená instruktorem (na místě nebo zdálky) je určená středně pokročilým správcům a inženýrům, kteří chtějí nasadit, spravovat, zabezpečit a optimalizovat NiFi toky dat v produkčních prostředích.
Na konci tohoto školení budou účastníci schopni:
- Nainstalovat, nakonfigurovat a udržovat Apache NiFi clustery.
- Naprojektovat a spravovat toky dat z různých zdrojů a cílů.
- Implementovat automatizaci toku, směrování a transformační logiku.
- Optimalizovat výkon, monitorovat operace a řešit problémy.
Formát kurzu
- Interaktivní přednáška s diskusí o reálných architekturách.
- Praktické cvičení: vytváření, nasazování a správa toků.
- Scénáře založená cvičení v prostředí live-labu.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení se prosím obrátěte k nám, abychom to zařídili.
Apache NiFi pro Vývojáře
7 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí základy programování založeného na toku při vývoji řady demo rozšíření, komponent a procesorů pomocí Apache NiFi.
Na konci tohoto školení budou účastníci schopni:
- Pochopte architekturu a koncepty toku dat NiFi.
- Vyvíjejte rozšíření pomocí NiFi a API třetích stran.
- Vlastní vývoj vlastního procesoru Apache Nifi.
- Ingestujte a zpracujte data v reálném čase z různorodých a neobvyklých formátů souborů a zdrojů dat.
PySpark a strojové učení
21 HodinyTento kurz poskytuje praktický úvod do tvorby škálovatelných pracovních postupů zpracování dat a strojového učení pomocí PySparku. Účastníci se naučí, jak Apache Spark funguje v rámci moderních ekosystémů pro práci s velkými daty, a jak efektivně zpracovávat rozsáhlé datové sady pomocí principů distribuovaného výpočtu.
Python a Spark pro Velká Data (PySpark)
21 HodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark a Hadoop pro Velká Data
21 HodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Stratio: Rocket a Intelligence Moduly s PySpark
14 HodinyStratio je datově orientovaná platforma, která integruje big data, umělou inteligenci (AI) a řízení do jednotného řešení. Její moduly Rocket a Intelligence umožňují rychlé prozkoumávání, transformaci a pokročilé analýzy dat v podnikových prostředích.
Tato instruktorem vedena živá školení (online nebo na místě) je určená pro středně pokročilé odborníky na data, kteří chtějí efektivně používat moduly Rocket a Intelligence v Stratio s PySpark, s důrazem na smyčkové struktury, uživatelsky definované funkce (UDFs) a pokročilou datovou logiku.
Na konci tohoto školení budou účastníci schopni:
- Navigovat a pracovat v platformě Stratio pomocí modulů Rocket a Intelligence.
- Používat PySpark ve kontextu ingesta, transformace a analýzy dat.
- Využívat smyčky a podmíněnou logiku k řízení pracovních postupů s daty a úloh předzpracování dat.
- Vytvářet a spravovat uživatelsky definované funkce (UDFs) pro opakovatelné operace s daty v PySpark.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Praktické implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení tohoto kurzu, prosím nás kontaktujte pro domluvu.