SMACK Stack for Data Science Počítačový Kurz
SMACK je sbírka softwaru datové platformy, a to Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, a Apache Kafka. Pomocí SMACK stack, uživatelé mohou vytvořit a rozšiřovat platformy pro zpracování dat.
Tento instruktor vedený, živý trénink (online nebo on-site) je zaměřen na vědce údajů, kteří chtějí použít SMACK stack k budování datových zpracovatelských platforem pro řešení velkých dat.
Po ukončení tohoto tréninku budou účastníci schopni:
- Vytvořte architekturu datového potrubí pro zpracování velkých dat.
- Rozvíjet infrastrukturu klastru s Apache Mesos a Docker.
- Analýza dat pomocí Spark a Scala.
- Řízení nestrukturovaných dat pomocí Apache Cassandra.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Hands-on implementace v živém laboratoři prostředí.
Možnosti personalizace kurzu
- Chcete-li požádat o přizpůsobené školení pro tento kurz, kontaktujte nás, abyste uspořádali.
Návrh Školení
Úvod
Přehled zásobníku SMACK
- Co je Apache Spark? Funkce Apache Spark Co je Apache Mesos? Funkce Apache Mesos Co je Apache Akka? Funkce Apache Akka Co je Apache Cassandra? Vlastnosti Apache Cassandra Co je Apache Kafka? Vlastnosti Apache Kafka
Scala Jazyk
- Scala syntaxe a struktura Scala řídící tok
Příprava vývojového prostředí
- Instalace a konfigurace zásobníku SMACK Instalace a konfigurace Docker
Apache Akka
- Použití herců
Apache Cassandra
- Vytvoření databáze pro operace čtení Práce se zálohami a obnovou
Konektory
- Vytváření streamu Vytváření aplikace Akka Ukládání dat pomocí Cassandra Prohlížení konektorů
Apache Kafka
- Práce s clustery Vytváření, publikování a konzumace zpráv
Apache Mesos
- Alokace zdrojů Spuštění clusterů Práce s Apache Aurora a Docker Spuštění služeb a úloh Nasazení Spark, Cassandra a Kafka na Mesos
Apache Spark
- Správa datových toků Práce s RDD a datovými rámci Provádění analýzy dat
Odstraňování problémů
- Řešení selhání služeb a chyb
Shrnutí a závěr
Požadavky
- Pochopení systémů zpracování dat
Publikum
- Data Scientists
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Počítačový Kurz - Booking
SMACK Stack for Data Science Počítačový Kurz - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Reference (1)
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Upcoming Courses
Související kurzy
Kaggle
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří se chtějí učit a budovat svou kariéru v Data Science pomocí Kaggle.
Na konci tohoto školení budou účastníci schopni:
- Přečtěte si o datové vědě a strojovém učení.
- Prozkoumejte analýzu dat.
- Přečtěte si o Kaggle a jak to funguje.
Accelerating Python Pandas Workflows with Modin
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Modin k sestavení a implementaci paralelních výpočtů s Pandas pro rychlejší analýzu dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí, abyste mohli začít vyvíjet pracovní postupy Pandas ve velkém měřítku s Modin.
- Pochopte funkce, architekturu a výhody Modin.
- Poznejte rozdíly mezi Modin, Dask a Rayem.
- Pomocí Modin provádějte operace Pandas rychleji.
- Implementujte celé Pandas API a funkce.
GPU Data Science with NVIDIA RAPIDS
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí použít RAPIDS k sestavení GPU-akcelerovaných datových kanálů, pracovních postupů a vizualizací s použitím algoritmů strojového učení, jako XGBoost, cuML atd.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí pro vytváření datových modelů pomocí NVIDIA RAPIDS.
- Pochopte vlastnosti, součásti a výhody RAPIDS.
- Využijte GPU k urychlení kompletních datových a analytických kanálů.
- Implementujte GPU-zrychlenou přípravu dat a ETL s cuDF a Apache Arrow.
- Naučte se provádět úlohy strojového učení pomocí algoritmů XGBoost a cuML.
- Vytvářejte vizualizace dat a provádějte analýzu grafů pomocí cuXfilter a cuGraph.
Anaconda Ecosystem for Data Scientists
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí používat ekosystém Anaconda k zachycení, správě a nasazení balíčků a pracovních postupů analýzy dat na jediné platformě.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Anaconda komponenty a knihovny.
- Pochopte základní koncepty, funkce a výhody Anaconda.
- Spravujte balíčky, prostředí a kanály pomocí Navigátoru Anaconda.
- Používejte balíčky Conda, R a Python pro datovou vědu a strojové učení.
- Seznamte se s některými praktickými případy použití a technikami pro správu více datových prostředí.
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark
Introduction to Data Science and AI using Python
35 hodinyToto je 5denní úvod do Data Science a AI.
Kurz je dodáván s příklady a cvičeními využívajícími Python
AWS Cloud9 for Data Science
28 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na středně pokročilé datové vědce a analytiky, kteří chtějí používat AWS Cloud9 pro zjednodušené pracovní postupy v oblasti datové vědy.
Na konci tohoto školení budou účastníci schopni:
- Nastavte prostředí datové vědy v AWS Cloud9.
- Proveďte analýzu dat pomocí Python, R a Jupyter Notebook v Cloud9.
- Integrujte AWS Cloud9 s datovými službami AWS, jako jsou S3, RDS a Redshift.
- Využijte AWS Cloud9 pro vývoj a nasazení modelu strojového učení.
- Optimalizujte cloudové pracovní postupy pro analýzu a zpracování dat.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 hodinypřehled
Poskytovatelé služeb (CSP) se potýkají s tlakem na snížení nákladů a maximalizování průměrného příjmu na uživatele (ARPU), přičemž zajišťují vynikající zákazní zkušenosti, ale objem dat stále roste. Globální mobilní data bude růst s kombinovanou roční rychlostí růstu (CAGR) o 78 procent do roku 2016, dosahující 10,8 exabytů měsíčně.
Mezitím generují CSP velké množství dat, včetně záznamů o volbách (CDR), sítí a údajů o zákaznících. Společnosti, které tyto údaje plně využívají, získají konkurenční okraj. Podle nedávného průzkumu The Economist Intelligence Unit, společnosti, které využívají datové rozhodování, mají 5-6% zvýšení produktivity. Zatím 53 % společností využívá pouze polovinu svých cenných údajů, a čtvrtina respondentů poznamenala, že obrovské množství užitečných údajů je ztraceno. Objem dat je tak vysoký, že manuální analýza je nemožná a většina softwarových systémů dědictví se nedokáže udržet, což vede k vymazání nebo ignorování cenných dat.
S Big Data & Analytics’ vysokorychlostní, skalovatelné Big Data software, CSPs mohou minovat všechny své údaje pro lepší rozhodování v kratším čase. Různé produkty a techniky poskytují konečnou softwarovou platformu pro shromažďování, přípravu, analýzu a prezentaci poznatků z velkých dat. Oblasti aplikace zahrnují monitorování výkonu sítě, detekci podvodů, detekci zákaznických záznamů a analýzu úvěrového rizika. Big Data & Analýza produktů měřítko pro zpracování terabytů dat, ale implementace takových nástrojů vyžaduje nový typ databázového systému založeného na cloudu, jako Hadoop nebo masivní měřítko paralelní počítačový procesor (KPU atd.)
Tento kurz pracuje na Big Data BI pro Telco pokrývá všechny vznikající nové oblasti, ve kterých CSP investují pro zvýšení produktivity a otevření nového toku příjmů z podnikání. Kurz poskytne kompletní 360-stupňový přehled Big Data BI v Telco tak, že rozhodovatelé a manažeři mohou mít velmi široký a komplexní přehled možností Big Data BI v Telco pro produktivitu a výnosy.
Cíle kurzu
Hlavním cílem kurzu je zavést nové Big Data obchodní inteligence techniky v 4 odvětvích Telecom Business (Marketing/prodej, síťová operace, finanční operace a vztah k zákazníkům Management). Studenti budou představeni k následujícím:
- Úvod do Big Data-co je 4Vs (volumen, rychlost, rozmanitost a pravděpodobnost) v Big Data- Generace, extrakce a řízení z perspektivy Telco
- Jak se analytika liší od analytiky dědictví
- Vnitřní odůvodnění Big Data -Telco perspektivy
- Úvod do Hadoop Ecosystem- seznámení se všemi Hadoop nástroji jako Hive, Pig, SPARC –kdy a jak jsou používány k řešení Big Data problém
- Jak Big Data je extrahována k analýze pro analytické nástroje-jak Business Analysis’s mohou snížit své bolestivé body shromažďování a analýzy dat prostřednictvím integrovaného Hadoop dashboard přístupu
- Základní úvod do analýzy Insight, analýzy vizualizace a prediktivní analýzy pro Telco
- Zákazník Churn analýza a Big Data-jak Big Data analýza může snížit zákaznický churn a nespokojenost zákazníků v Telco případových studiích
- Analýza síťových selhání a servisních selhání z síťových meta-dát a IPDR
- Finanční analýza - podvody, podvody a odhady ROI z prodeje a operačních údajů
- Zákazník akvizice problém-Cílový marketing, segmentace zákazníků a cross-prodej z prodeje dat
- Úvod a shrnutí všech Big Data analytických produktů a kde se hodí do analytického prostoru společnosti Telco
- Závěr-jak přijmout krok za krokem přístup k zavedení Big Data Business Intelligence ve vaší organizaci
Cílová publikum
- Síťová operace, finanční manažeři, manažeři CRM a špičkové manažeři IT v kanceláři Telco CIO.
- Business Analytici v Telco
- CFO kancelář manažeři / analytici
- Operativní manažeři
- QA manažeři
Introduction to Google Colab for Data Science
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na začínající datové vědce a IT profesionály, kteří se chtějí naučit základy datové vědy pomocí Google Colab.
Na konci tohoto školení budou účastníci schopni:
- Nastavte a procházejte Google Colab.
- Napište a spusťte základní Python kód.
- Import a zpracování datových sad.
- Vytvářejte vizualizace pomocí Python knihoven.
A Practical Introduction to Data Science
35 hodinyÚčastníci, kteří absolvují toto školení, získají praktické znalosti z reálného světa Data Science a souvisejících technologií, metodologií a nástrojů.
Účastníci budou mít příležitost uplatnit tyto znalosti v praxi prostřednictvím praktických cvičení. Skupinová interakce a zpětná vazba od instruktora tvoří důležitou součást třídy.
Kurz začíná úvodem do základních pojmů Data Science, poté postupuje k nástrojům a metodologiím používaným v Data Science.
Publikum
- Vývojáři Techničtí analytici IT konzultanti
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení
Poznámka
- Chcete-li požádat o školení na míru pro tento kurz, kontaktujte nás a domluvíme se.
Data Science Programme
245 hodinyExploze informací a dat v dnešním světě nemá obdoby, naše schopnost inovovat a posouvat hranice možného roste rychleji než kdy předtím. Role Data Scientist je dnes jednou z nejžádanějších dovedností napříč průmyslem.
Nabízíme mnohem více než učení prostřednictvím teorie; poskytujeme praktické, obchodovatelné dovednosti, které překlenují propast mezi světem akademické obce a požadavky průmyslu.
Tento 7týdenní kurikulum může být přizpůsobeno vašim specifickým průmyslovým požadavkům, kontaktujte nás pro další informace nebo navštivte webové stránky Nobleprog Institute
Publikum:
Tento program je určen pro absolventy postgraduálního studia a také pro kohokoli s požadovanými nezbytnými dovednostmi, které budou určeny hodnocením a pohovorem.
Dodávka:
Poskytování kurzu bude směsí Instructor Led Classroom a Instructor Led Online; typicky 1. týden bude 'třídou vedenou', týdny 2-6 'virtuální učebnou' a 7. týden zpět 'třídou vedenou'.
Data Science for Big Data Analytics
35 hodinyVelká data jsou datové soubory, které jsou tak objemné a složité, že tradiční aplikační software pro zpracování dat je pro ně nedostatečný. Velké problémy s daty zahrnují sběr dat, ukládání dat, analýzu dat, vyhledávání, sdílení, přenos, vizualizaci, dotazování, aktualizaci a ochranu osobních údajů.