Python, Spark, and Hadoop for Big Data Počítačový Kurz
Python je škálovatelný, flexibilní a široce používaný programovací jazyk pro datovou vědu a strojové učení. Spark je nástroj pro zpracování dat používaný při dotazování, analýze a transformaci velkých dat, zatímco Hadoop je rámec softwarové knihovny pro ukládání a zpracování dat ve velkém měřítku.
Toto živé školení vedené instruktorem (online nebo na místě) je zaměřeno na vývojáře, kteří chtějí používat a integrovat Spark Hadoop a Python ke zpracování, analýze a transformaci velkých a komplexních souborů dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení zpracování velkých dat pomocí Spark, Hadoop a Python.
- Pochopte funkce, základní komponenty a architekturu Spark a Hadoop.
- Naučte se, jak integrovat Spark, Hadoop a Python pro zpracování velkých dat.
- Prozkoumejte nástroje v ekosystému Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka a Flume).
- Vytvářejte systémy doporučení pro společné filtrování podobné jako Netflix, YouTube, Amazon, Spotify a Google.
- Použijte Apache Mahout ke škálování algoritmů strojového učení.
Formát kurzu
- Interaktivní přednáška a diskuze.
- Spousta cvičení a cvičení.
- Praktická implementace v prostředí živé laboratoře.
Možnosti přizpůsobení kurzu
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Návrh Školení
Úvod
- Přehled funkcí a architektury Spark a Hadoop
- Porozumění velkým datům
- Python základy programování
Začínáme
- Nastavení Python, Spark a Hadoop
- Pochopení datových struktur v Python
- Pochopení PySpark API
- Pochopení HDFS a MapReduce
Integrace Spark a Hadoop s Python
- Implementace Spark RDD v Python
- Zpracování dat pomocí MapReduce
- Vytváření distribuovaných datových sad v HDFS
Machine Learning s Spark MLlib
Zpracování Big Data s Spark Streaming
Práce s Recommender Systems
Práce s Kafkou, Sqoopem, Kafkou a Flume
Apache Mahout se Sparkem a Hadoop
Odstraňování problémů
Shrnutí a další kroky
Požadavky
- Zkušenosti se Sparkem a Hadoop
- Python zkušenosti s programováním
Publikum
- Datoví vědci
- Vývojáři
Open Training Courses require 5+ participants.
Python, Spark, and Hadoop for Big Data Počítačový Kurz - Booking
Python, Spark, and Hadoop for Big Data Počítačový Kurz - Enquiry
Python, Spark, and Hadoop for Big Data - Consultancy Enquiry
Consultancy Enquiry
Reference (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurz - Python, Spark, and Hadoop for Big Data
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Analytics with Google Colab and Apache Spark
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na středně pokročilé datové vědce a inženýry, kteří chtějí používat Google Colab a Apache Spark pro zpracování a analýzu velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte prostředí velkých dat pomocí Google Colab a Spark.
- Zpracujte a analyzujte efektivně velké soubory dat pomocí Apache Spark.
- Vizualizujte velká data v prostředí pro spolupráci.
- Integrujte Apache Spark s cloudovými nástroji.
Big Data Analytics in Health
21 hodinyAnalýza velkých dat zahrnuje proces zkoumání velkého množství různých datových sad s cílem odhalit korelace, skryté vzorce a další užitečné poznatky.
Zdravotnický průmysl má obrovské množství komplexních heterogenních lékařských a klinických dat. Použití analýzy velkých dat na zdravotní data představuje obrovský potenciál při získávání poznatků pro zlepšení poskytování zdravotní péče. Obrovské množství těchto datových souborů však představuje velké výzvy v analýzách a praktických aplikacích v klinickém prostředí.
V tomto živém školení (na dálku) vedeném instruktorem se účastníci naučí, jak provádět analýzu velkých dat ve zdraví, když projdou řadou praktických cvičení v laboratoři.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte nástroje pro analýzu velkých objemů dat, jako je Hadoop MapReduce a Spark Pochopte vlastnosti lékařských dat Použití technik velkých dat pro práci s lékařskými daty Studujte systémy a algoritmy velkých dat v kontextu zdravotnických aplikací
Publikum
- Vývojáři Data Scientists
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení.
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Hadoop and Spark for Administrators
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na systémové administrátory, kteří se chtějí naučit, jak nastavit, nasadit a spravovat Hadoop clustery v rámci své organizace.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Hadoop.
- Pochopte čtyři hlavní součásti ekoystému Hadoop: HDFS, MapReduce, YARN a Hadoop Common.
- Použijte Hadoop Distributed File System (HDFS) ke škálování clusteru na stovky nebo tisíce uzlů.
- Nastavte HDFS tak, aby fungoval jako úložný modul pro místní nasazení Spark.
- Nastavte Spark pro přístup k alternativním úložným řešením, jako jsou databázové systémy Amazon S3 a NoSQL, jako jsou Redis, Elasticsearch, Couchbase, Aerospike atd.
- Provádějte administrativní úkoly, jako je poskytování, správa, monitorování a zabezpečení clusteru Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) představuje Hortonworks Data Platform (HDP) a provede účastníky nasazením řešení Spark + Hadoop.
Na konci tohoto školení budou účastníci schopni:
- Použijte Hortonworks ke spolehlivému provozu Hadoop ve velkém měřítku.
- Sjednoťte možnosti zabezpečení, správy a provozu Hadoop s agilními analytickými pracovními postupy Spark.
- Použijte Hortonworks k prozkoumání, ověření, certifikaci a podpoře každé z komponent v projektu Spark.
- Zpracovávejte různé typy dat, včetně strukturovaných, nestrukturovaných, v pohybu a v klidu.
Data Analysis with Hive/HiveQL
7 hodinyTento kurz se zabývá tím, jak používat jazyk Hive SQL (AKA: Hive HQL, SQL on Hive, HiveQL) pro lidi, kteří extrahují data z Hive
Impala for Business Intelligence
21 hodinyCloudera Impala je open source dotazovací stroj s masivním paralelním zpracováním (MPP) SQL pro clustery Apache Hadoop.
Impala umožňuje uživatelům zadávat dotazy s nízkou latencí SQL na data uložená v Hadoop Distributed File System a Apache Hbase bez nutnosti přesunu nebo transformace dat.
Publikum
Tento kurz je zaměřen na analytiky a datové vědce provádějící analýzu dat uložených v Hadoop pomocí nástrojů Business Intelligence nebo SQL.
Po tomto kurzu budou moci delegáti
- Extrahujte smysluplné informace z Hadoop shluků pomocí Impala.
- Napište specifické programy pro usnadnění Business Inteligence v Impala SQL dialektu.
- Odstraňování problémů Impala.
A Practical Introduction to Stream Processing
21 hodinyV tomto živém školení pod vedením instruktora v České republice (na místě nebo na dálku) se účastníci naučí, jak nastavit a integrovat různé Stream Processing rámce se stávajícími systémy ukládání velkých dat a souvisejícími softwarovými aplikacemi a mikroslužbami.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte různé Stream Processing frameworky, jako je Spark Streaming a Kafka Streaming.
- Pochopte a vyberte nejvhodnější rámec pro danou práci.
- Zpracování dat nepřetržitě, souběžně a záznam po záznamu.
- Integrujte Stream Processing řešení se stávajícími databázemi, datovými sklady, datovými jezery atd.
- Integrujte nejvhodnější knihovnu pro zpracování datových proudů s podnikovými aplikacemi a mikroslužbami.
SMACK Stack for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí použít SMACK stack k vybudování platforem pro zpracování dat pro řešení velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementujte architekturu datového kanálu pro zpracování velkých dat.
- Vyvíjejte klastrovou infrastrukturu pomocí Apache Mesos a Docker.
- Analyzujte data pomocí Spark a Scala.
- Spravujte nestrukturovaná data pomocí Apache Cassandra.
Apache Spark Fundamentals
21 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na inženýry, kteří chtějí nastavit a nasadit Apache Spark systém pro zpracování velmi velkého množství dat.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark.
- Rychle zpracujte a analyzujte velmi velké soubory dat.
- Pochopte rozdíl mezi Apache Spark a Hadoop MapReduce a kdy použít který.
- Integrujte Apache Spark s dalšími nástroji strojového učení.
Administration of Apache Spark
35 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začátečníky až středně pokročilé správce systému, kteří chtějí nasazovat, udržovat a optimalizovat clustery Spark.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Apache Spark v různých prostředích.
- Spravujte prostředky clusteru a monitorujte aplikace Spark.
- Optimalizujte výkon clusterů Spark.
- Implementujte bezpečnostní opatření a zajistěte vysokou dostupnost.
- Ladění a odstraňování běžných problémů se Sparkem.
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark