Apache Spark in the Cloud Počítačový Kurz
Křivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Návrh Školení
Úvod:
- Apache Spark v Hadoop Ecosystem Krátké intro pro python, scala
Základy (teorie):
- Architektura RDD Transformace a akce Fáze, úloha, závislosti
Pomocí prostředí Databricks porozumět základům (praktický workshop):
- Cvičení využívající RDD API Základní akční a transformační funkce PairRDD Join Strategie ukládání do mezipaměti Cvičení využívající DataFrame API SparkSQL DataFrame: výběr, filtr, seskupení, řazení UDF (User Defined Function) Pohled do DataSet API Streaming
Pomocí prostředí AWS porozumět nasazení (praktický workshop):
- Základy lepidla AWS Porozumět rozdílům mezi AWS EMR a AWS Glue Příklady úloh v obou prostředích Porozumět výhodám a nevýhodám
Další:
- Úvod do Apache Airflow orchestrace
Požadavky
Schopnosti programování (nejlépe python, scala)
SQL základy
Open Training Courses require 5+ participants.
Apache Spark in the Cloud Počítačový Kurz - Booking
Apache Spark in the Cloud Počítačový Kurz - Enquiry
Apache Spark in the Cloud - Consultancy Enquiry
Consultancy Enquiry
Reference (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Kurz - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurz - Apache Spark in the Cloud
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Analytics with Google Colab and Apache Spark
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na středně pokročilé datové vědce a inženýry, kteří chtějí používat Google Colab a Apache Spark pro zpracování a analýzu velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte prostředí velkých dat pomocí Google Colab a Spark.
- Zpracujte a analyzujte efektivně velké soubory dat pomocí Apache Spark.
- Vizualizujte velká data v prostředí pro spolupráci.
- Integrujte Apache Spark s cloudovými nástroji.
Big Data Analytics in Health
21 hodinyAnalýza velkých dat zahrnuje proces zkoumání velkého množství různých datových sad s cílem odhalit korelace, skryté vzorce a další užitečné poznatky.
Zdravotnický průmysl má obrovské množství komplexních heterogenních lékařských a klinických dat. Použití analýzy velkých dat na zdravotní data představuje obrovský potenciál při získávání poznatků pro zlepšení poskytování zdravotní péče. Obrovské množství těchto datových souborů však představuje velké výzvy v analýzách a praktických aplikacích v klinickém prostředí.
V tomto živém školení (na dálku) vedeném instruktorem se účastníci naučí, jak provádět analýzu velkých dat ve zdraví, když projdou řadou praktických cvičení v laboratoři.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte nástroje pro analýzu velkých objemů dat, jako je Hadoop MapReduce a Spark Pochopte vlastnosti lékařských dat Použití technik velkých dat pro práci s lékařskými daty Studujte systémy a algoritmy velkých dat v kontextu zdravotnických aplikací
Publikum
- Vývojáři Data Scientists
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení.
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Hadoop and Spark for Administrators
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na systémové administrátory, kteří se chtějí naučit, jak nastavit, nasadit a spravovat Hadoop clustery v rámci své organizace.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Hadoop.
- Pochopte čtyři hlavní součásti ekoystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použijte Hadoop Distributed File System (HDFS) ke škálování clusteru na stovky nebo tisíce uzlů.
- Nastavte HDFS tak, aby fungoval jako úložný modul pro místní nasazení Spark.
- Nastavte Spark pro přístup k alternativním úložným řešením, jako jsou databázové systémy Amazon S3 a NoSQL, jako jsou Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádějte administrativní úkoly, jako je poskytování, správa, monitorování a zabezpečení clusteru Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) představuje Hortonworks Data Platform (HDP) a provede účastníky nasazením řešení Spark + Hadoop.
Na konci tohoto školení budou účastníci schopni:
- Použijte Hortonworks ke spolehlivému provozu Hadoop ve velkém měřítku.
- Sjednoťte možnosti zabezpečení, správy a provozu Hadoop s agilními analytickými pracovními postupy Spark.
- Použijte Hortonworks k prozkoumání, ověření, certifikaci a podpoře každé z komponent v projektu Spark.
- Zpracovávejte různé typy dat, včetně strukturovaných, nestrukturovaných, v pohybu a v klidu.
A Practical Introduction to Stream Processing
21 hodinyV tomto živém školení pod vedením instruktora v České republice (na místě nebo na dálku) se účastníci naučí, jak nastavit a integrovat různé Stream Processing rámce se stávajícími systémy ukládání velkých dat a souvisejícími softwarovými aplikacemi a mikroslužbami.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte různé Stream Processing frameworky, jako je Spark Streaming a Kafka Streaming.
- Pochopte a vyberte nejvhodnější rámec pro danou práci.
- Zpracování dat nepřetržitě, souběžně a záznam po záznamu.
- Integrujte Stream Processing řešení se stávajícími databázemi, datovými sklady, datovými jezery atd.
- Integrujte nejvhodnější knihovnu pro zpracování datových proudů s podnikovými aplikacemi a mikroslužbami.
SMACK Stack for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí použít SMACK stack k vybudování platforem pro zpracování dat pro řešení velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementujte architekturu datového kanálu pro zpracování velkých dat.
- Vyvíjejte klastrovou infrastrukturu pomocí Apache Mesos a Docker.
- Analyzujte data pomocí Spark a Scala.
- Spravujte nestrukturovaná data pomocí Apache Cassandra.
Apache Spark Fundamentals
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na inženýry, kteří chtějí nastavit a nasadit Apache Spark systém pro zpracování velmi velkého množství dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark.
- Rychle zpracujte a analyzujte velmi velké soubory dat.
- Pochopte rozdíl mezi Apache Spark a Hadoop MapReduce a kdy použít který.
- Integrujte Apache Spark s dalšími nástroji strojového učení.
Administration of Apache Spark
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Spark for Developers
21 hodinyOBJEKTIVNÍ:
Tento kurz představí Apache Spark. Studenti se naučí, jak Spark zapadá do ekosystému velkých dat a jak Spark používat pro analýzu dat. Kurz pokrývá Spark Shell pro interaktivní analýzu dat, Spark internals, Spark API, Spark SQL, Spark streaming a strojové učení a graphX.
DIVÁCI:
Vývojáři / datoví analytici
Scaling Data Pipelines with Spark NLP
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Spark NLP, postavený na Apache Spark, k vývoji, implementaci a škálování zpracování textu v přirozeném jazyce. modely a potrubí.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí, abyste mohli začít budovat kanály NLP pomocí Spark NLP.
- Pochopte funkce, architekturu a výhody používání Spark NLP.
- K implementaci zpracování textu použijte předem připravené modely dostupné v Spark NLP.
- Naučte se stavět, trénovat a měnit Spark NLP modely pro produkční projekty.
- Aplikujte klasifikaci, odvození a analýzu sentimentu na případy použití v reálném světě (klinická data, statistiky chování zákazníků atd.).
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Python, Spark, and Hadoop for Big Data
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark, Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark