Spark for Developers Počítačový Kurz
OBJEKTIVNÍ:
Tento kurz představí Apache Spark. Studenti se naučí, jak Spark zapadá do ekosystému velkých dat a jak Spark používat pro analýzu dat. Kurz pokrývá Spark Shell pro interaktivní analýzu dat, Spark internals, Spark API, Spark SQL, Spark streaming a strojové učení a graphX.
DIVÁCI:
Vývojáři / datoví analytici
Návrh Školení
- Scala primer Rychlý úvod do Scala Labs: Seznámení se Scala Spark Základy Pozadí a historie Spark a Hadoop Spark koncepty a architektura Eko systém Spark (core, spark sql, mlib, streaming) Labs: Instalace a spuštění Spark První pohled na Spark Running Spark v místní režim Spark webové uživatelské rozhraní Spark shell Analýza datové sady – část 1 Laboratoře inspekce RDD: Průzkum RDD Koncepty RDD Oddíly Operace/transformace RDD Typy RDD Pár klíč-hodnota RDD MapReduce na RDD Ukládání a perzistence RDD Laboratoře: vytváření a kontrola RDD; Ukládání RDD Programování Spark API Úvod do Spark API / RDD API Odeslání prvního programu do Spark Ladění / protokolování Vlastnosti konfigurace Laboratoře : Programování ve Spark API, Odesílání úloh Podpora Spark SQL SQL v Spark Dataframes Definování tabulek a import datových sad Dotazování dat rámce pomocí SQL Formáty úložiště : JSON / Parquet Labs : Vytváření a dotazování datových rámců; vyhodnocování datových formátů MLlib Úvod MLlib Algoritmy MLlib Laboratoře : Psaní aplikací MLib Přehled knihovny GraphX GraphX Laboratoře rozhraní API GraphX : Zpracování dat grafů pomocí Spark Spark Streaming Přehled streamování Vyhodnocení Streamovacích platforem Operace streamování Operace posuvných oken Laboratoře Hadice ( Spark a Introop streamovací aplikace Sparkoop HDFS / YARN) Architektura Hadoop + Spark Spuštění Spark na Hadoop YARN Zpracování souborů HDFS pomocí Spark Spark Výkon a ladění proměnných vysílání Akumulátory Správa paměti a ukládání do mezipaměti Operace Spark Nasazení Sparku v produkci Ukázkové šablony nasazení Konfigurace Monitorování Odstraňování problémů
Požadavky
PŘEDPOŽADAVKY
znalost jazyka Java / Scala / Python (naše laboratoře v Scala a Pythonu) základní znalost vývojového prostředí Linux (navigace v příkazovém řádku / úprava souborů pomocí VI nebo nano)
Open Training Courses require 5+ participants.
Spark for Developers Počítačový Kurz - Booking
Spark for Developers Počítačový Kurz - Enquiry
Spark for Developers - Consultancy Enquiry
Consultancy Enquiry
Reference (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Kurz - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Kurz - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Kurz - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Kurz - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Kurz - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Kurz - Spark for Developers
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Analytics with Google Colab and Apache Spark
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na středně pokročilé datové vědce a inženýry, kteří chtějí používat Google Colab a Apache Spark pro zpracování a analýzu velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte prostředí velkých dat pomocí Google Colab a Spark.
- Zpracujte a analyzujte efektivně velké soubory dat pomocí Apache Spark.
- Vizualizujte velká data v prostředí pro spolupráci.
- Integrujte Apache Spark s cloudovými nástroji.
Big Data Analytics in Health
21 hodinyAnalýza velkých dat zahrnuje proces zkoumání velkého množství různých datových sad s cílem odhalit korelace, skryté vzorce a další užitečné poznatky.
Zdravotnický průmysl má obrovské množství komplexních heterogenních lékařských a klinických dat. Použití analýzy velkých dat na zdravotní data představuje obrovský potenciál při získávání poznatků pro zlepšení poskytování zdravotní péče. Obrovské množství těchto datových souborů však představuje velké výzvy v analýzách a praktických aplikacích v klinickém prostředí.
V tomto živém školení (na dálku) vedeném instruktorem se účastníci naučí, jak provádět analýzu velkých dat ve zdraví, když projdou řadou praktických cvičení v laboratoři.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte nástroje pro analýzu velkých objemů dat, jako je Hadoop MapReduce a Spark Pochopte vlastnosti lékařských dat Použití technik velkých dat pro práci s lékařskými daty Studujte systémy a algoritmy velkých dat v kontextu zdravotnických aplikací
Publikum
- Vývojáři Data Scientists
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení.
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Hadoop and Spark for Administrators
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na systémové administrátory, kteří se chtějí naučit, jak nastavit, nasadit a spravovat Hadoop clustery v rámci své organizace.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Hadoop.
- Pochopte čtyři hlavní součásti ekoystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použijte Hadoop Distributed File System (HDFS) ke škálování clusteru na stovky nebo tisíce uzlů.
- Nastavte HDFS tak, aby fungoval jako úložný modul pro místní nasazení Spark.
- Nastavte Spark pro přístup k alternativním úložným řešením, jako jsou databázové systémy Amazon S3 a NoSQL, jako jsou Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádějte administrativní úkoly, jako je poskytování, správa, monitorování a zabezpečení clusteru Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) představuje Hortonworks Data Platform (HDP) a provede účastníky nasazením řešení Spark + Hadoop.
Na konci tohoto školení budou účastníci schopni:
- Použijte Hortonworks ke spolehlivému provozu Hadoop ve velkém měřítku.
- Sjednoťte možnosti zabezpečení, správy a provozu Hadoop s agilními analytickými pracovními postupy Spark.
- Použijte Hortonworks k prozkoumání, ověření, certifikaci a podpoře každé z komponent v projektu Spark.
- Zpracovávejte různé typy dat, včetně strukturovaných, nestrukturovaných, v pohybu a v klidu.
A Practical Introduction to Stream Processing
21 hodinyV tomto živém školení pod vedením instruktora v České republice (na místě nebo na dálku) se účastníci naučí, jak nastavit a integrovat různé Stream Processing rámce se stávajícími systémy ukládání velkých dat a souvisejícími softwarovými aplikacemi a mikroslužbami.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte různé Stream Processing frameworky, jako je Spark Streaming a Kafka Streaming.
- Pochopte a vyberte nejvhodnější rámec pro danou práci.
- Zpracování dat nepřetržitě, souběžně a záznam po záznamu.
- Integrujte Stream Processing řešení se stávajícími databázemi, datovými sklady, datovými jezery atd.
- Integrujte nejvhodnější knihovnu pro zpracování datových proudů s podnikovými aplikacemi a mikroslužbami.
SMACK Stack for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí použít SMACK stack k vybudování platforem pro zpracování dat pro řešení velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementujte architekturu datového kanálu pro zpracování velkých dat.
- Vyvíjejte klastrovou infrastrukturu pomocí Apache Mesos a Docker.
- Analyzujte data pomocí Spark a Scala.
- Spravujte nestrukturovaná data pomocí Apache Cassandra.
Apache Spark Fundamentals
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na inženýry, kteří chtějí nastavit a nasadit Apache Spark systém pro zpracování velmi velkého množství dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark.
- Rychle zpracujte a analyzujte velmi velké soubory dat.
- Pochopte rozdíl mezi Apache Spark a Hadoop MapReduce a kdy použít který.
- Integrujte Apache Spark s dalšími nástroji strojového učení.
Administration of Apache Spark
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Apache Spark in the Cloud
21 hodinyKřivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Scaling Data Pipelines with Spark NLP
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Spark NLP, postavený na Apache Spark, k vývoji, implementaci a škálování zpracování textu v přirozeném jazyce. modely a potrubí.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí, abyste mohli začít budovat kanály NLP pomocí Spark NLP.
- Pochopte funkce, architekturu a výhody používání Spark NLP.
- K implementaci zpracování textu použijte předem připravené modely dostupné v Spark NLP.
- Naučte se stavět, trénovat a měnit Spark NLP modely pro produkční projekty.
- Aplikujte klasifikaci, odvození a analýzu sentimentu na případy použití v reálném světě (klinická data, statistiky chování zákazníků atd.).
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark, and Hadoop for Big Data
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark