Apache Spark Fundamentals Počítačový Kurz
Apache Spark je analytický motor určený k distribuci dat po celém klastru za účelem jeho souběžného zpracování. Obsahuje moduly pro streamování, SQL, strojové učení a grafické zpracování.
Tento výcvik vedený instruktorem (online nebo on-site) je zaměřen na inženýry, kteří chtějí zavést Apache Spark systém pro zpracování velmi velkých množství dat.
Po ukončení tohoto tréninku budou účastníci schopni:
- Instalace a nastavení Apache Spark.
- Uvědomte si rozdíl mezi Apache Spark a Hadoop MapReduce a kdy použít.
- Rychle si přečtěte a analyzujte velmi velké datové sady.
- Integrujte Apache Spark s jinými nástroji strojového učení.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Hands-on implementace v živém laboratoři prostředí.
Možnosti personalizace kurzu
- Chcete-li požádat o přizpůsobené školení pro tento kurz, kontaktujte nás, abyste uspořádali.
Návrh Školení
Úvod
- Apache Spark vs Hadoop MapReduce
Přehled Apache Spark Funkce a architektura
Výběr jazyka Programming
Nastavení Apache Spark
Vytvoření vzorové aplikace
Výběr souboru dat
Spuštění Data Analysis na Data
Zpracování strukturovaných dat pomocí Spark SQL
Zpracování dat streamování pomocí Spark Streaming
Integrace Apache Spark s nástroji 3. části Machine Learning
Použití Apache Spark pro zpracování grafu
Optimalizace Apache Spark
Odstraňování problémů
Shrnutí a závěr
Požadavky
- Zkušenosti s příkazovým řádkem Linuxu
- Obecná znalost zpracování dat
- Zkušenosti s programováním v Javě, Scala, Pythonu nebo R
Publikum
- Vývojáři
Open Training Courses require 5+ participants.
Apache Spark Fundamentals Počítačový Kurz - Booking
Apache Spark Fundamentals Počítačový Kurz - Enquiry
Apache Spark Fundamentals - Consultancy Enquiry
Consultancy Enquiry
Reference (5)
Spousta praktických příkladů, různé způsoby, jak přistupovat ke stejnému problému, a někdy ne tak samozřejmé triky, jak stávající řešení vylepšit
Rafal - Nordea
Kurz - Apache Spark MLlib
Machine Translated
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurz - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurz - Apache Spark in the Cloud
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Analytics with Google Colab and Apache Spark
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na středně pokročilé datové vědce a inženýry, kteří chtějí používat Google Colab a Apache Spark pro zpracování a analýzu velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte prostředí velkých dat pomocí Google Colab a Spark.
- Zpracujte a analyzujte efektivně velké soubory dat pomocí Apache Spark.
- Vizualizujte velká data v prostředí pro spolupráci.
- Integrujte Apache Spark s cloudovými nástroji.
Big Data Analytics in Health
21 hodinyAnalýza velkých dat zahrnuje proces zkoumání velkého množství různých datových sad s cílem odhalit korelace, skryté vzorce a další užitečné poznatky.
Zdravotnický průmysl má obrovské množství komplexních heterogenních lékařských a klinických dat. Použití analýzy velkých dat na zdravotní data představuje obrovský potenciál při získávání poznatků pro zlepšení poskytování zdravotní péče. Obrovské množství těchto datových souborů však představuje velké výzvy v analýzách a praktických aplikacích v klinickém prostředí.
V tomto živém školení (na dálku) vedeném instruktorem se účastníci naučí, jak provádět analýzu velkých dat ve zdraví, když projdou řadou praktických cvičení v laboratoři.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte nástroje pro analýzu velkých objemů dat, jako je Hadoop MapReduce a Spark Pochopte vlastnosti lékařských dat Použití technik velkých dat pro práci s lékařskými daty Studujte systémy a algoritmy velkých dat v kontextu zdravotnických aplikací
Publikum
- Vývojáři Data Scientists
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení.
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Hadoop and Spark for Administrators
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na systémové administrátory, kteří se chtějí naučit, jak nastavit, nasadit a spravovat Hadoop clustery v rámci své organizace.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Hadoop.
- Pochopte čtyři hlavní součásti ekoystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použijte Hadoop Distributed File System (HDFS) ke škálování clusteru na stovky nebo tisíce uzlů.
- Nastavte HDFS tak, aby fungoval jako úložný modul pro místní nasazení Spark.
- Nastavte Spark pro přístup k alternativním úložným řešením, jako jsou databázové systémy Amazon S3 a NoSQL, jako jsou Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádějte administrativní úkoly, jako je poskytování, správa, monitorování a zabezpečení clusteru Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) představuje Hortonworks Data Platform (HDP) a provede účastníky nasazením řešení Spark + Hadoop.
Na konci tohoto školení budou účastníci schopni:
- Použijte Hortonworks ke spolehlivému provozu Hadoop ve velkém měřítku.
- Sjednoťte možnosti zabezpečení, správy a provozu Hadoop s agilními analytickými pracovními postupy Spark.
- Použijte Hortonworks k prozkoumání, ověření, certifikaci a podpoře každé z komponent v projektu Spark.
- Zpracovávejte různé typy dat, včetně strukturovaných, nestrukturovaných, v pohybu a v klidu.
A Practical Introduction to Stream Processing
21 hodinyV tomto živém školení pod vedením instruktora v České republice (na místě nebo na dálku) se účastníci naučí, jak nastavit a integrovat různé Stream Processing rámce se stávajícími systémy ukládání velkých dat a souvisejícími softwarovými aplikacemi a mikroslužbami.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte různé Stream Processing frameworky, jako je Spark Streaming a Kafka Streaming.
- Pochopte a vyberte nejvhodnější rámec pro danou práci.
- Zpracování dat nepřetržitě, souběžně a záznam po záznamu.
- Integrujte Stream Processing řešení se stávajícími databázemi, datovými sklady, datovými jezery atd.
- Integrujte nejvhodnější knihovnu pro zpracování datových proudů s podnikovými aplikacemi a mikroslužbami.
SMACK Stack for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí použít SMACK stack k vybudování platforem pro zpracování dat pro řešení velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementujte architekturu datového kanálu pro zpracování velkých dat.
- Vyvíjejte klastrovou infrastrukturu pomocí Apache Mesos a Docker.
- Analyzujte data pomocí Spark a Scala.
- Spravujte nestrukturovaná data pomocí Apache Cassandra.
Administration of Apache Spark
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Apache Spark in the Cloud
21 hodinyKřivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Spark for Developers
21 hodinyOBJEKTIVNÍ:
Tento kurz představí Apache Spark. Studenti se naučí, jak Spark zapadá do ekosystému velkých dat a jak Spark používat pro analýzu dat. Kurz pokrývá Spark Shell pro interaktivní analýzu dat, Spark internals, Spark API, Spark SQL, Spark streaming a strojové učení a graphX.
DIVÁCI:
Vývojáři / datoví analytici
Scaling Data Pipelines with Spark NLP
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Spark NLP, postavený na Apache Spark, k vývoji, implementaci a škálování zpracování textu v přirozeném jazyce. modely a potrubí.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí, abyste mohli začít budovat kanály NLP pomocí Spark NLP.
- Pochopte funkce, architekturu a výhody používání Spark NLP.
- K implementaci zpracování textu použijte předem připravené modely dostupné v Spark NLP.
- Naučte se stavět, trénovat a měnit Spark NLP modely pro produkční projekty.
- Aplikujte klasifikaci, odvození a analýzu sentimentu na případy použití v reálném světě (klinická data, statistiky chování zákazníků atd.).
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark, and Hadoop for Big Data
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark