SMACK Stack for Data Science Počítačový Kurz
SMACK je sbírka softwaru datové platformy, a to Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, a Apache Kafka. Pomocí SMACK stack, uživatelé mohou vytvořit a rozšiřovat platformy pro zpracování dat.
Tento instruktor vedený, živý trénink (online nebo on-site) je zaměřen na vědce údajů, kteří chtějí použít SMACK stack k budování datových zpracovatelských platforem pro řešení velkých dat.
Po ukončení tohoto tréninku budou účastníci schopni:
- Vytvořte architekturu datového potrubí pro zpracování velkých dat.
- Rozvíjet infrastrukturu klastru s Apache Mesos a Docker.
- Analýza dat pomocí Spark a Scala.
- Řízení nestrukturovaných dat pomocí Apache Cassandra.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Hands-on implementace v živém laboratoři prostředí.
Možnosti personalizace kurzu
- Chcete-li požádat o přizpůsobené školení pro tento kurz, kontaktujte nás, abyste uspořádali.
Návrh Školení
Úvod
Přehled zásobníku SMACK
- Co je Apache Spark? Funkce Apache Spark Co je Apache Mesos? Funkce Apache Mesos Co je Apache Akka? Funkce Apache Akka Co je Apache Cassandra? Vlastnosti Apache Cassandra Co je Apache Kafka? Vlastnosti Apache Kafka
Scala Jazyk
- Scala syntaxe a struktura Scala řídící tok
Příprava vývojového prostředí
- Instalace a konfigurace zásobníku SMACK Instalace a konfigurace Docker
Apache Akka
- Použití herců
Apache Cassandra
- Vytvoření databáze pro operace čtení Práce se zálohami a obnovou
Konektory
- Vytváření streamu Vytváření aplikace Akka Ukládání dat pomocí Cassandra Prohlížení konektorů
Apache Kafka
- Práce s clustery Vytváření, publikování a konzumace zpráv
Apache Mesos
- Alokace zdrojů Spuštění clusterů Práce s Apache Aurora a Docker Spuštění služeb a úloh Nasazení Spark, Cassandra a Kafka na Mesos
Apache Spark
- Správa datových toků Práce s RDD a datovými rámci Provádění analýzy dat
Odstraňování problémů
- Řešení selhání služeb a chyb
Shrnutí a závěr
Požadavky
- Pochopení systémů zpracování dat
Publikum
- Data Scientists
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Počítačový Kurz - Booking
SMACK Stack for Data Science Počítačový Kurz - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Consultancy Enquiry
Reference (1)
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Upcoming Courses
Související kurzy
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Anaconda Ecosystem for Data Scientists
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí používat ekosystém Anaconda k zachycení, správě a nasazení balíčků a pracovních postupů analýzy dat na jediné platformě.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Anaconda komponenty a knihovny.
- Pochopte základní koncepty, funkce a výhody Anaconda.
- Spravujte balíčky, prostředí a kanály pomocí Navigátoru Anaconda.
- Používejte balíčky Conda, R a Python pro datovou vědu a strojové učení.
- Seznamte se s některými praktickými případy použití a technikami pro správu více datových prostředí.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 hodinypřehled
Poskytovatelé služeb (CSP) se potýkají s tlakem na snížení nákladů a maximalizování průměrného příjmu na uživatele (ARPU), přičemž zajišťují vynikající zákazní zkušenosti, ale objem dat stále roste. Globální mobilní data bude růst s kombinovanou roční rychlostí růstu (CAGR) o 78 procent do roku 2016, dosahující 10,8 exabytů měsíčně.
Mezitím generují CSP velké množství dat, včetně záznamů o volbách (CDR), sítí a údajů o zákaznících. Společnosti, které tyto údaje plně využívají, získají konkurenční okraj. Podle nedávného průzkumu The Economist Intelligence Unit, společnosti, které využívají datové rozhodování, mají 5-6% zvýšení produktivity. Zatím 53 % společností využívá pouze polovinu svých cenných údajů, a čtvrtina respondentů poznamenala, že obrovské množství užitečných údajů je ztraceno. Objem dat je tak vysoký, že manuální analýza je nemožná a většina softwarových systémů dědictví se nedokáže udržet, což vede k vymazání nebo ignorování cenných dat.
S Big Data & Analytics’ vysokorychlostní, skalovatelné Big Data software, CSPs mohou minovat všechny své údaje pro lepší rozhodování v kratším čase. Různé produkty a techniky poskytují konečnou softwarovou platformu pro shromažďování, přípravu, analýzu a prezentaci poznatků z velkých dat. Oblasti aplikace zahrnují monitorování výkonu sítě, detekci podvodů, detekci zákaznických záznamů a analýzu úvěrového rizika. Big Data & Analýza produktů měřítko pro zpracování terabytů dat, ale implementace takových nástrojů vyžaduje nový typ databázového systému založeného na cloudu, jako Hadoop nebo masivní měřítko paralelní počítačový procesor (KPU atd.)
Tento kurz pracuje na Big Data BI pro Telco pokrývá všechny vznikající nové oblasti, ve kterých CSP investují pro zvýšení produktivity a otevření nového toku příjmů z podnikání. Kurz poskytne kompletní 360-stupňový přehled Big Data BI v Telco tak, že rozhodovatelé a manažeři mohou mít velmi široký a komplexní přehled možností Big Data BI v Telco pro produktivitu a výnosy.
Cíle kurzu
Hlavním cílem kurzu je zavést nové Big Data obchodní inteligence techniky v 4 odvětvích Telecom Business (Marketing/prodej, síťová operace, finanční operace a vztah k zákazníkům Management). Studenti budou představeni k následujícím:
- Úvod do Big Data-co je 4Vs (volumen, rychlost, rozmanitost a pravděpodobnost) v Big Data- Generace, extrakce a řízení z perspektivy Telco
- Jak se analytika liší od analytiky dědictví
- Vnitřní odůvodnění Big Data -Telco perspektivy
- Úvod do Hadoop Ecosystem- seznámení se všemi Hadoop nástroji jako Hive, Pig, SPARC –kdy a jak jsou používány k řešení Big Data problém
- Jak Big Data je extrahována k analýze pro analytické nástroje-jak Business Analysis’s mohou snížit své bolestivé body shromažďování a analýzy dat prostřednictvím integrovaného Hadoop dashboard přístupu
- Základní úvod do analýzy Insight, analýzy vizualizace a prediktivní analýzy pro Telco
- Zákazník Churn analýza a Big Data-jak Big Data analýza může snížit zákaznický churn a nespokojenost zákazníků v Telco případových studiích
- Analýza síťových selhání a servisních selhání z síťových meta-dát a IPDR
- Finanční analýza - podvody, podvody a odhady ROI z prodeje a operačních údajů
- Zákazník akvizice problém-Cílový marketing, segmentace zákazníků a cross-prodej z prodeje dat
- Úvod a shrnutí všech Big Data analytických produktů a kde se hodí do analytického prostoru společnosti Telco
- Závěr-jak přijmout krok za krokem přístup k zavedení Big Data Business Intelligence ve vaší organizaci
Cílová publikum
- Síťová operace, finanční manažeři, manažeři CRM a špičkové manažeři IT v kanceláři Telco CIO.
- Business Analytici v Telco
- CFO kancelář manažeři / analytici
- Operativní manažeři
- QA manažeři
Data Science Programme
245 hodinyExploze informací a dat v dnešním světě nemá obdoby, naše schopnost inovovat a posouvat hranice možného roste rychleji než kdy předtím. Role Data Scientist je dnes jednou z nejžádanějších dovedností napříč průmyslem.
Nabízíme mnohem více než učení prostřednictvím teorie; poskytujeme praktické, obchodovatelné dovednosti, které překlenují propast mezi světem akademické obce a požadavky průmyslu.
Tento 7týdenní kurikulum může být přizpůsobeno vašim specifickým průmyslovým požadavkům, kontaktujte nás pro další informace nebo navštivte webové stránky Nobleprog Institute
Publikum:
Tento program je určen pro absolventy postgraduálního studia a také pro kohokoli s požadovanými nezbytnými dovednostmi, které budou určeny hodnocením a pohovorem.
Dodávka:
Poskytování kurzu bude směsí Instructor Led Classroom a Instructor Led Online; typicky 1. týden bude 'třídou vedenou', týdny 2-6 'virtuální učebnou' a 7. týden zpět 'třídou vedenou'.
Data Science for Big Data Analytics
35 hodinyVelká data jsou datové soubory, které jsou tak objemné a složité, že tradiční aplikační software pro zpracování dat je pro ně nedostatečný. Velké problémy s daty zahrnují sběr dat, ukládání dat, analýzu dat, vyhledávání, sdílení, přenos, vizualizaci, dotazování, aktualizaci a ochranu osobních údajů.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Jupyter for Data Science Teams
7 hodinyThis instructor-led, live training in České republice (online or onsite) introduces the idea of collaborative development in data science and demonstrates how to use Jupyter to track and participate as a team in the "life cycle of a computational idea". It walks participants through the creation of a sample data science project based on top of the Jupyter ecosystem.
By the end of this training, participants will be able to:
- Install and configure Jupyter, including the creation and integration of a team repository on Git.
- Use Jupyter features such as extensions, interactive widgets, multiuser mode and more to enable project collaboraton.
- Create, share and organize Jupyter Notebooks with team members.
- Choose from Scala, Python, R, to write and execute code against big data systems such as Apache Spark, all through the Jupyter interface.
Kaggle
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří se chtějí učit a budovat svou kariéru v Data Science pomocí Kaggle.
Na konci tohoto školení budou účastníci schopni:
- Přečtěte si o datové vědě a strojovém učení.
- Prozkoumejte analýzu dat.
- Přečtěte si o Kaggle a jak to funguje.
MATLAB Fundamentals, Data Science & Report Generation
35 hodinyV první části tohoto školení pokryjeme základy MATLAB a jeho funkci jako jazyka i platformy. Součástí této diskuse je úvod do MATLAB syntaxe, polí a matic, vizualizace dat, vývoje skriptů a objektově orientovaných principů.
Ve druhé části demonstrujeme, jak používat MATLAB pro dolování dat, strojové učení a prediktivní analytiku. Abychom účastníkům poskytli jasnou a praktickou perspektivu přístupu a síly MATLAB, nakreslíme srovnání mezi používáním MATLAB a jinými nástroji, jako jsou tabulky, C, C++ a Visual Basic.
Ve třetí části školení se účastníci naučí, jak zefektivnit svou práci automatizací zpracování dat a generování reportů.
V průběhu kurzu budou účastníci uplatňovat v praxi myšlenky získané praktickými cvičeními v laboratorním prostředí. Na konci školení budou mít účastníci důkladný přehled o schopnostech MATLAB a budou je moci využít pro řešení reálných problémů datové vědy a také pro zefektivnění své práce prostřednictvím automatizace.
V průběhu kurzu budou probíhat hodnocení, aby bylo možné změřit pokrok.
Formát kurzu
- Kurz zahrnuje teoretická a praktická cvičení, včetně případových diskuzí, kontroly ukázkového kódu a praktické implementace.
Poznámka
- Cvičební sezení budou vycházet z předem připravených šablon vzorových datových zpráv. Pokud máte specifické požadavky, kontaktujte nás, abychom se domluvili.
Accelerating Python Pandas Workflows with Modin
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Modin k sestavení a implementaci paralelních výpočtů s Pandas pro rychlejší analýzu dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí, abyste mohli začít vyvíjet pracovní postupy Pandas ve velkém měřítku s Modin.
- Pochopte funkce, architekturu a výhody Modin.
- Poznejte rozdíly mezi Modin, Dask a Rayem.
- Pomocí Modin provádějte operace Pandas rychleji.
- Implementujte celé Pandas API a funkce.
Python Programming for Finance
35 hodinyPython je programovací jazyk, který si získal obrovskou popularitu ve finančním průmyslu. Přijato největšími investičními bankami a hedgeovými fondy je používáno k vytváření široké škály finančních aplikací od základních obchodních programů až po systémy řízení rizik.
V tomto živém školení vedeném instruktorem se účastníci naučí, jak používat Python k vývoji praktických aplikací pro řešení řady specifických problémů souvisejících s financemi.
Na konci tohoto školení budou účastníci schopni:
- Pochopit základy programovacího jazyka Python
- Stáhnout, nainstalovat a udržovat nejlepší vývojové nástroje pro vytváření finančních aplikací v Python
- Vybrat a využívat nejvhodnější balíčky a programovací techniky Python pro organizaci, vizualizaci a analýzu finančních dat z různých zdrojů (CSV, Excel, databáze, web atd.)
- Vytvořit aplikace, které řeší problémy související s alokací aktiv, analýzou rizik, investičním výkonem a dalšími
- Odstraňovat chyby, integrovat, nasazovat a optimalizovat aplikaci Python
Publikum
- Vývojáři
- Analytici
- Kvantitativní analytici
Formát kurzu
- Kombinace přednášek, diskusí, cvičení a intenzivní praktické výuky
Poznámka
- Toto školení si klade za cíl poskytnout řešení některých z hlavních problémů, kterým čelí finanční profesionálové. Pokud máte konkrétní téma, nástroj nebo techniku, kterou byste chtěli rozšířit nebo podrobněji prozkoumat, kontaktujte nás a domluvíme se.
GPU Data Science with NVIDIA RAPIDS
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí použít RAPIDS k sestavení GPU-akcelerovaných datových kanálů, pracovních postupů a vizualizací s použitím algoritmů strojového učení, jako XGBoost, cuML atd.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí pro vytváření datových modelů pomocí NVIDIA RAPIDS.
- Pochopte vlastnosti, součásti a výhody RAPIDS.
- Využijte GPU k urychlení kompletních datových a analytických kanálů.
- Implementujte GPU-zrychlenou přípravu dat a ETL s cuDF a Apache Arrow.
- Naučte se provádět úlohy strojového učení pomocí algoritmů XGBoost a cuML.
- Vytvářejte vizualizace dat a provádějte analýzu grafů pomocí cuXfilter a cuGraph.
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark
Data Science: Analysis and Presentation
7 hodinyIntegrované prostředí systému Wolfram z něj činí účinný nástroj pro analýzu i prezentaci dat. Tento kurz pokrývá aspekty jazyka Wolfram relevantní pro analýzu, včetně statistických výpočtů, vizualizace, importu a exportu dat a automatického generování zpráv.