Python, Spark, and Hadoop for Big Data Počítačový Kurz
Python je škálovatelný, flexibilní a široce používaný programovací jazyk pro datovou vědu a strojové učení. Spark je nástroj pro zpracování dat používaný při dotazování, analýze a transformaci velkých dat, zatímco Hadoop je rámec softwarové knihovny pro ukládání a zpracování dat ve velkém měřítku.
Toto živé školení vedené instruktorem (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Formát kurzu
- Interaktivní přednáška a diskuze.
- Spousta cvičení a cvičení.
- Praktická implementace v prostředí živé laboratoře.
Možnosti přizpůsobení kurzu
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Návrh Školení
Úvod
- Přehled funkcí a architektury Spark a Hadoop
- Porozumění velkým datům
- Python základy programování
Začínáme
- Nastavení Python, Spark a Hadoop
- Pochopení datových struktur v Python
- Pochopení PySpark API
- Pochopení HDFS a MapReduce
Integrace Spark a Hadoop s Python
- Implementace Spark RDD v Python
- Zpracování dat pomocí MapReduce
- Vytváření distribuovaných datových sad v HDFS
Machine Learning s Spark MLlib
Zpracování Big Data s Spark Streaming
Práce s Recommender Systems
Práce s Kafkou, Sqoopem, Kafkou a Flume
Apache Mahout se Sparkem a Hadoop
Odstraňování problémů
Shrnutí a další kroky
Požadavky
- Zkušenosti se Sparkem a Hadoop
- Python zkušenosti s programováním
Publikum
- Datoví vědci
- Vývojáři
Open Training Courses require 5+ participants.
Python, Spark, and Hadoop for Big Data Počítačový Kurz - Booking
Python, Spark, and Hadoop for Big Data Počítačový Kurz - Enquiry
Python, Spark, and Hadoop for Big Data - Consultancy Enquiry
Consultancy Enquiry
Reference (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Analytics in Health
21 hodinyAnalýza velkých dat zahrnuje proces zkoumání velkého množství různých datových sad s cílem odhalit korelace, skryté vzorce a další užitečné poznatky.
Zdravotnický průmysl má obrovské množství komplexních heterogenních lékařských a klinických dat. Použití analýzy velkých dat na zdravotní data představuje obrovský potenciál při získávání poznatků pro zlepšení poskytování zdravotní péče. Obrovské množství těchto datových souborů však představuje velké výzvy v analýzách a praktických aplikacích v klinickém prostředí.
V tomto živém školení (na dálku) vedeném instruktorem se účastníci naučí, jak provádět analýzu velkých dat ve zdraví, když projdou řadou praktických cvičení v laboratoři.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte nástroje pro analýzu velkých objemů dat, jako je Hadoop MapReduce a Spark Pochopte vlastnosti lékařských dat Použití technik velkých dat pro práci s lékařskými daty Studujte systémy a algoritmy velkých dat v kontextu zdravotnických aplikací
Publikum
- Vývojáři Data Scientists
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení.
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Hortonworks Data Platform (HDP) for Administrators
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) představuje Hortonworks Data Platform (HDP) a provede účastníky nasazením řešení Spark + Hadoop.
Na konci tohoto školení budou účastníci schopni:
- Použijte Hortonworks ke spolehlivému provozu Hadoop ve velkém měřítku.
- Sjednoťte možnosti zabezpečení, správy a provozu Hadoop s agilními analytickými pracovními postupy Spark.
- Použijte Hortonworks k prozkoumání, ověření, certifikaci a podpoře každé z komponent v projektu Spark.
- Zpracovávejte různé typy dat, včetně strukturovaných, nestrukturovaných, v pohybu a v klidu.
Data Analysis with Hive/HiveQL
7 hodinyTento kurz se zabývá tím, jak používat jazyk Hive SQL (AKA: Hive HQL, SQL on Hive, HiveQL) pro lidi, kteří extrahují data z Hive
Impala for Business Intelligence
21 hodinyCloudera Impala je open source dotazovací stroj s masivním paralelním zpracováním (MPP) SQL pro clustery Apache Hadoop.
Impala umožňuje uživatelům zadávat dotazy s nízkou latencí SQL na data uložená v Hadoop Distributed File System a Apache Hbase bez nutnosti přesunu nebo transformace dat.
Publikum
Tento kurz je zaměřen na analytiky a datové vědce provádějící analýzu dat uložených v Hadoop pomocí nástrojů Business Intelligence nebo SQL.
Po tomto kurzu budou moci delegáti
- Extrahujte smysluplné informace z Hadoop shluků pomocí Impala.
- Napište specifické programy pro usnadnění Business Inteligence v Impala SQL dialektu.
- Odstraňování problémů Impala.
A Practical Introduction to Stream Processing
21 hodinyV tomto živém školení pod vedením instruktora v České republice (na místě nebo na dálku) se účastníci naučí, jak nastavit a integrovat různé Stream Processing rámce se stávajícími systémy ukládání velkých dat a souvisejícími softwarovými aplikacemi a mikroslužbami.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte různé Stream Processing frameworky, jako je Spark Streaming a Kafka Streaming.
- Pochopte a vyberte nejvhodnější rámec pro danou práci.
- Zpracování dat nepřetržitě, souběžně a záznam po záznamu.
- Integrujte Stream Processing řešení se stávajícími databázemi, datovými sklady, datovými jezery atd.
- Integrujte nejvhodnější knihovnu pro zpracování datových proudů s podnikovými aplikacemi a mikroslužbami.
SMACK Stack for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí použít SMACK stack k vybudování platforem pro zpracování dat pro řešení velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementujte architekturu datového kanálu pro zpracování velkých dat.
- Vyvíjejte klastrovou infrastrukturu pomocí Apache Mesos a Docker.
- Analyzujte data pomocí Spark a Scala.
- Spravujte nestrukturovaná data pomocí Apache Cassandra.
Apache Spark Fundamentals
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na inženýry, kteří chtějí nastavit a nasadit Apache Spark systém pro zpracování velmi velkého množství dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark.
- Rychle zpracujte a analyzujte velmi velké soubory dat.
- Pochopte rozdíl mezi Apache Spark a Hadoop MapReduce a kdy použít který.
- Integrujte Apache Spark s dalšími nástroji strojového učení.
Apache Spark in the Cloud
21 hodinyKřivka učení Apache Spark se na začátku pomalu zvyšuje, potřebuje hodně úsilí, aby se první vrátil. Tento kurz si klade za cíl proskočit první náročnou částí. Po absolvování tohoto kurzu účastníci porozumí základům Apache Spark, jasně odliší RDD od DataFrame, naučí se Python a Scala API, porozumí exekutorům a úkolům atd. Tento kurz také důsledně dodržuje doporučené postupy se zaměřuje na cloudové nasazení, Databricks a AWS. Studenti také porozumí rozdílům mezi AWS EMR a AWS Glue, jednou z nejnovějších služeb Spark společnosti AWS.
PUBLIKUM:
Data Engineer, DevOps, Data Scientist
Spark for Developers
21 hodinyOBJEKTIVNÍ:
Tento kurz představí Apache Spark. Studenti se naučí, jak Spark zapadá do ekosystému velkých dat a jak Spark používat pro analýzu dat. Kurz pokrývá Spark Shell pro interaktivní analýzu dat, Spark internals, Spark API, Spark SQL, Spark streaming a strojové učení a graphX.
DIVÁCI:
Vývojáři / datoví analytici
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Apache Spark SQL
7 hodinySpark SQL je modul Apache Spark pro práci se strukturovanými a nestrukturovanými daty. Spark SQL poskytuje informace o struktuře dat a také o prováděném výpočtu. Tyto informace lze použít k provádění optimalizací. Dvě běžné použití pro Spark SQL jsou: - k provádění SQL dotazů. - ke čtení dat z existující instalace Hive.
V tomto živém školení vedeném instruktorem (na místě nebo na dálku) se účastníci naučí, jak analyzovat různé typy souborů dat pomocí Spark SQL.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Spark SQL. Proveďte analýzu dat pomocí Spark SQL. Dotaz na datové sady v různých formátech. Vizualizujte data a výsledky dotazů.
Formát kurzu
- Interaktivní přednáška a diskuze. Spousta cvičení a praxe. Praktická implementace v prostředí živé laboratoře.
Možnosti přizpůsobení kurzu
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark