SMACK Stack for Data Science Počítačový Kurz
SMACK je sbírka softwaru datové platformy, a to Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, a Apache Kafka. Pomocí SMACK stack, uživatelé mohou vytvořit a rozšiřovat platformy pro zpracování dat.
Tento instruktor vedený, živý trénink (online nebo on-site) je zaměřen na vědce údajů, kteří chtějí použít SMACK stack k budování datových zpracovatelských platforem pro řešení velkých dat.
Po ukončení tohoto tréninku budou účastníci schopni:
- Vytvořte architekturu datového potrubí pro zpracování velkých dat.
- Rozvíjet infrastrukturu klastru s Apache Mesos a Docker.
- Analýza dat pomocí Spark a Scala.
- Řízení nestrukturovaných dat pomocí Apache Cassandra.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Hands-on implementace v živém laboratoři prostředí.
Možnosti personalizace kurzu
- Chcete-li požádat o přizpůsobené školení pro tento kurz, kontaktujte nás, abyste uspořádali.
Návrh Školení
Úvod
Přehled zásobníku SMACK
- Co je Apache Spark? Funkce Apache Spark Co je Apache Mesos? Funkce Apache Mesos Co je Apache Akka? Funkce Apache Akka Co je Apache Cassandra? Vlastnosti Apache Cassandra Co je Apache Kafka? Vlastnosti Apache Kafka
Scala Jazyk
- Scala syntaxe a struktura Scala řídící tok
Příprava vývojového prostředí
- Instalace a konfigurace zásobníku SMACK Instalace a konfigurace Docker
Apache Akka
- Použití herců
Apache Cassandra
- Vytvoření databáze pro operace čtení Práce se zálohami a obnovou
Konektory
- Vytváření streamu Vytváření aplikace Akka Ukládání dat pomocí Cassandra Prohlížení konektorů
Apache Kafka
- Práce s clustery Vytváření, publikování a konzumace zpráv
Apache Mesos
- Alokace zdrojů Spuštění clusterů Práce s Apache Aurora a Docker Spuštění služeb a úloh Nasazení Spark, Cassandra a Kafka na Mesos
Apache Spark
- Správa datových toků Práce s RDD a datovými rámci Provádění analýzy dat
Odstraňování problémů
- Řešení selhání služeb a chyb
Shrnutí a závěr
Požadavky
- Pochopení systémů zpracování dat
Publikum
- Data Scientists
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Počítačový Kurz - Booking
SMACK Stack for Data Science Počítačový Kurz - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Reference (1)
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Upcoming Courses
Související kurzy
Kaggle
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří se chtějí učit a budovat svou kariéru v datové vědě pomocí Kaggle.
Na konci tohoto školení budou účastníci schopni:
- Přečtěte si o datové vědě a strojovém učení.
- Prozkoumejte analýzu dat.
- Přečtěte si o Kaggle a jak to funguje.
Accelerating Python Pandas Workflows with Modin
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Modin k vytváření a implementaci paralelních výpočtů s Pandas pro rychlejší analýzu dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí pro zahájení vývoje Pandas pracovních postupů ve velkém měřítku s Modinem.
- Pochopte funkce, architekturu a výhody Modinu.
- Poznejte rozdíly mezi Modin, Dask a Ray.
- S Modinem provádějte operace Pandas rychleji.
- Implementujte celé Pandas API a funkce.
GPU Data Science with NVIDIA RAPIDS
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí použít RAPIDS k vytvoření GPU akcelerovaných datových kanálů, pracovních postupů a vizualizací s použitím algoritmů strojového učení, jako je např. XGBoost, cuML atd.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné vývojové prostředí pro vytváření datových modelů pomocí NVIDIA RAPIDS.
- Pochopte vlastnosti, součásti a výhody RAPIDS.
- Využijte GPU k urychlení kompletních datových a analytických kanálů.
- Implementujte GPU akcelerovanou přípravu dat a ETL pomocí cuDF a Apache Arrow.
- Naučte se provádět úlohy strojového učení pomocí algoritmů XGBoost a cuML.
- Vytvářejte vizualizace dat a provádějte analýzu grafů pomocí cuXfilter a cuGraph.
Anaconda Ecosystem for Data Scientists
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí využívat ekosystém Anaconda k zachycení, správě a nasazení balíčků a pracovních postupů analýzy dat na jediné platformě.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte komponenty a knihovny Anaconda.
- Pochopte základní koncepty, funkce a výhody Anacondy.
- Spravujte balíčky, prostředí a kanály pomocí Anaconda Navigator.
- Používejte balíčky Conda, R a Python pro datovou vědu a strojové učení.
- Seznamte se s některými praktickými případy použití a technikami pro správu více datových prostředí.
Python and Spark for Big Data (PySpark)
21 hodinyV tomto živém školení vedeném instruktorem v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze velkých dat.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Introduction to Graph Computing
28 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci seznámí s nabídkou technologií a implementačními přístupy pro zpracování grafových dat. Cílem je identifikovat objekty reálného světa, jejich charakteristiky a vztahy, poté tyto vztahy modelovat a zpracovat je jako data pomocí přístupu Graph Computing (také známého jako Graph Analytics). Začínáme širokým přehledem a zužujeme se na konkrétní nástroje, když procházíme řadou případových studií, praktických cvičení a živých nasazení.
Na konci tohoto školení budou účastníci schopni:
- Pochopte, jak jsou grafová data uchovávána a procházena.
- Vyberte nejlepší rámec pro daný úkol (od databází grafů po rámce pro dávkové zpracování.)
- Implementujte Hadoop, Spark, GraphX a Pregel k provádění grafových výpočtů na mnoha strojích paralelně.
- Podívejte se na problémy s velkými daty v reálném světě z hlediska grafů, procesů a průchodů.
Apache Spark MLlib
35 hodinyMLlib je knihovna Spark pro strojové učení (ML). Jeho cílem je učinit praktické strojové učení škálovatelné a snadné. Skládá se z běžných výukových algoritmů a utilit, včetně klasifikace, regrese, shlukování, kolaborativního filtrování, redukce rozměrů, stejně jako optimalizačních primitiv nižší úrovně a rozhraní API na vyšší úrovni.
Dělí se na dva balíčky:
- spark.mllib obsahuje původní API postavené na RDD. spark.ml poskytuje API vyšší úrovně postavené na DataFrames pro vytváření kanálů ML.
Publikum
Tento kurz je zaměřen na inženýry a vývojáře, kteří chtějí využít vestavěnou knihovnu strojů pro Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 hodinyTento kurz je určen pro vývojáře a datové vědce, kteří chtějí porozumět umělé inteligenci a implementovat ji do svých aplikací. Zvláštní pozornost je věnována analýze dat, distribuované umělé inteligenci a zpracování přirozeného jazyka.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 hodinypřehled
Poskytovatelé služeb (CSP) se potýkají s tlakem na snížení nákladů a maximalizování průměrného příjmu na uživatele (ARPU), přičemž zajišťují vynikající zákazní zkušenosti, ale objem dat stále roste. Globální mobilní data bude růst s kombinovanou roční rychlostí růstu (CAGR) o 78 procent do roku 2016, dosahující 10,8 exabytů měsíčně.
Mezitím generují CSP velké množství dat, včetně záznamů o volbách (CDR), sítí a údajů o zákaznících. Společnosti, které tyto údaje plně využívají, získají konkurenční okraj. Podle nedávného průzkumu The Economist Intelligence Unit, společnosti, které využívají datové rozhodování, mají 5-6% zvýšení produktivity. Zatím 53 % společností využívá pouze polovinu svých cenných údajů, a čtvrtina respondentů poznamenala, že obrovské množství užitečných údajů je ztraceno. Objem dat je tak vysoký, že manuální analýza je nemožná a většina softwarových systémů dědictví se nedokáže udržet, což vede k vymazání nebo ignorování cenných dat.
S Big Data & Analytics’ vysokorychlostní, skalovatelné Big Data software, CSPs mohou minovat všechny své údaje pro lepší rozhodování v kratším čase. Různé produkty a techniky poskytují konečnou softwarovou platformu pro shromažďování, přípravu, analýzu a prezentaci poznatků z velkých dat. Oblasti aplikace zahrnují monitorování výkonu sítě, detekci podvodů, detekci zákaznických záznamů a analýzu úvěrového rizika. Big Data & Analýza produktů měřítko pro zpracování terabytů dat, ale implementace takových nástrojů vyžaduje nový typ databázového systému založeného na cloudu, jako Hadoop nebo masivní měřítko paralelní počítačový procesor (KPU atd.)
Tento kurz pracuje na Big Data BI pro Telco pokrývá všechny vznikající nové oblasti, ve kterých CSP investují pro zvýšení produktivity a otevření nového toku příjmů z podnikání. Kurz poskytne kompletní 360-stupňový přehled Big Data BI v Telco tak, že rozhodovatelé a manažeři mohou mít velmi široký a komplexní přehled možností Big Data BI v Telco pro produktivitu a výnosy.
Cíle kurzu
Hlavním cílem kurzu je zavést nové Big Data obchodní inteligence techniky v 4 odvětvích Telecom Business (Marketing/prodej, síťová operace, finanční operace a vztah k zákazníkům Management). Studenti budou představeni k následujícím:
- Úvod do Big Data-co je 4Vs (volumen, rychlost, rozmanitost a pravděpodobnost) v Big Data- Generace, extrakce a řízení z perspektivy Telco
- Jak se analytika liší od analytiky dědictví
- Vnitřní odůvodnění Big Data -Telco perspektivy
- Úvod do Hadoop Ecosystem- seznámení se všemi Hadoop nástroji jako Hive, Pig, SPARC –kdy a jak jsou používány k řešení Big Data problém
- Jak Big Data je extrahována k analýze pro analytické nástroje-jak Business Analysis’s mohou snížit své bolestivé body shromažďování a analýzy dat prostřednictvím integrovaného Hadoop dashboard přístupu
- Základní úvod do analýzy Insight, analýzy vizualizace a prediktivní analýzy pro Telco
- Zákazník Churn analýza a Big Data-jak Big Data analýza může snížit zákaznický churn a nespokojenost zákazníků v Telco případových studiích
- Analýza síťových selhání a servisních selhání z síťových meta-dát a IPDR
- Finanční analýza - podvody, podvody a odhady ROI z prodeje a operačních údajů
- Zákazník akvizice problém-Cílový marketing, segmentace zákazníků a cross-prodej z prodeje dat
- Úvod a shrnutí všech Big Data analytických produktů a kde se hodí do analytického prostoru společnosti Telco
- Závěr-jak přijmout krok za krokem přístup k zavedení Big Data Business Intelligence ve vaší organizaci
Cílová publikum
- Síťová operace, finanční manažeři, manažeři CRM a špičkové manažeři IT v kanceláři Telco CIO.
- Business Analytici v Telco
- CFO kancelář manažeři / analytici
- Operativní manažeři
- QA manažeři
Data Science for Big Data Analytics
35 hodinyVelká data jsou datové soubory, které jsou tak objemné a složité, že tradiční aplikační software pro zpracování dat je pro ně nedostatečný. Velké problémy s daty zahrnují sběr dat, ukládání dat, analýzu dat, vyhledávání, sdílení, přenos, vizualizaci, dotazování, aktualizaci a ochranu osobních údajů.
Data Science: Analysis and Presentation
7 hodinyIntegrované prostředí systému Wolfram z něj činí účinný nástroj pro analýzu i prezentaci dat. Tento kurz pokrývá aspekty jazyka Wolfram relevantní pro analýzu, včetně statistických výpočtů, vizualizace, importu a exportu dat a automatického generování zpráv.
Data Science Programme
245 hodinyExploze informací a dat v dnešním světě nemá obdoby, naše schopnost inovovat a posouvat hranice možného roste rychleji než kdy předtím. Role Data Scientist je dnes jednou z nejžádanějších dovedností napříč průmyslem.
Nabízíme mnohem více než učení prostřednictvím teorie; poskytujeme praktické, obchodovatelné dovednosti, které překlenují propast mezi světem akademické obce a požadavky průmyslu.
Tento 7týdenní kurikulum může být přizpůsobeno vašim specifickým průmyslovým požadavkům, kontaktujte nás pro další informace nebo navštivte webové stránky Nobleprog Institute
Publikum:
Tento program je určen pro absolventy postgraduálního studia a také pro kohokoli s požadovanými nezbytnými dovednostmi, které budou určeny hodnocením a pohovorem.
Dodávka:
Poskytování kurzu bude směsí Instructor Led Classroom a Instructor Led Online; typicky 1. týden bude 'třídou vedenou', týdny 2-6 'virtuální učebnou' a 7. týden zpět 'třídou vedenou'.
MATLAB Fundamentals, Data Science & Report Generation
35 hodinyV první části tohoto školení pokryjeme základy MATLAB a jeho funkci jako jazyka i platformy. Součástí této diskuse je úvod do MATLAB syntaxe, polí a matic, vizualizace dat, vývoje skriptů a objektově orientovaných principů.
Ve druhé části demonstrujeme, jak používat MATLAB pro dolování dat, strojové učení a prediktivní analytiku. Abychom účastníkům poskytli jasnou a praktickou perspektivu přístupu a síly MATLAB, nakreslíme srovnání mezi používáním MATLAB a jinými nástroji, jako jsou tabulky, C, C++ a Visual Basic.
Ve třetí části školení se účastníci naučí, jak zefektivnit svou práci automatizací zpracování dat a generování reportů.
V průběhu kurzu budou účastníci uplatňovat v praxi myšlenky získané praktickými cvičeními v laboratorním prostředí. Na konci školení budou mít účastníci důkladný přehled o schopnostech MATLAB a budou je moci využít pro řešení reálných problémů datové vědy a také pro zefektivnění své práce prostřednictvím automatizace.
V průběhu kurzu budou probíhat hodnocení, aby bylo možné změřit pokrok.
Formát kurzu
- Kurz zahrnuje teoretická a praktická cvičení, včetně případových diskuzí, kontroly ukázkového kódu a praktické implementace.
Poznámka
- Cvičební sezení budou vycházet z předem připravených šablon vzorových datových zpráv. Pokud máte specifické požadavky, kontaktujte nás, abychom se domluvili.
Jupyter for Data Science Teams
7 hodinyJupyter je open-source, webové interaktivní IDE a výpočetní prostředí.
Toto živé školení vedené instruktorem (online nebo na místě) představuje myšlenku kolaborativního vývoje v oblasti datové vědy a ukazuje, jak používat Jupyter ke sledování a účasti jako tým v „životním cyklu výpočetní myšlenky“. Provede účastníky vytvořením vzorového projektu vědy o datech založeného na ekosystému Jupyter.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Jupyter, včetně vytvoření a integrace týmového úložiště na Git.
- Používejte funkce Jupyter, jako jsou rozšíření, interaktivní widgety, režim pro více uživatelů a další, abyste umožnili spolupráci na projektu.
- Vytvářejte, sdílejte a organizujte notebooky Jupyter se členy týmu.
- Vyberte si z Scala, Python, R, chcete-li psát a spouštět kód proti velkým datovým systémům, jako je Apache Spark, to vše prostřednictvím rozhraní Jupyter.
Formát kurzu
- Interaktivní přednáška a diskuze.
- Spousta cvičení a cvičení.
- Praktická implementace v prostředí živé laboratoře.
Možnosti přizpůsobení kurzu
- Jupyter Notebook podporuje více než 40 jazyků včetně R, Python, Scala, Julia atd. Chcete-li přizpůsobit tento kurz vašemu jazyku (jazykům), kontaktujte nás, abychom se domluvili.
F# for Data Science
21 hodinyData science je aplikace statistické analýzy, strojového učení, vizualizace dat a programování za účelem pochopení a interpretace reálných dat. F# je velmi vhodný programovací jazyk pro datovou vědu, protože kombinuje efektivní spouštění, REPL-scripting, výkonné knihovny a škálovatelnou integraci dat.
V tomto živém školení vedeném instruktorem se účastníci naučí, jak používat F# k řešení řady reálných problémů datové vědy.
Na konci tohoto školení budou účastníci schopni:
- Používejte integrované balíčky datové vědy F# Používejte F# pro spolupráci s dalšími jazyky a platformami, včetně Excelu, R, Matlabu a Python Použijte balíček Deedle k řešení problémů s časovými řadami Provádějte pokročilou analýzu s minimálními řádky kódu produkční kvality Pochopte, jak funkční programování se přirozeně hodí pro vědecké výpočty a výpočty s velkými daty Přístup a vizualizace dat pomocí F# Aplikujte F# pro strojové učení
Prozkoumejte řešení problémů v oblastech, jako je business intelligence a sociální hry
Publikum
- Vývojáři Data vědci
Formát kurzu
- Část přednáška, část diskuse, cvičení a těžké praktické cvičení