SMACK Stack pro Datovou Vědu Počítačový Kurz
SMACK je sbírka softwarových platform pro zpracování dat, konkrétně Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra a Apache Kafka. S využitím stacku SMACK mohou uživatelé vytvářet a škálovat platformy pro zpracování dat.
Tato instruktorem vedená živá školení (online nebo na místě) je určena data scientistům, kteří chtějí použít stack SMACK k vytváření platform pro zpracování velkých dat.
Na konci tohoto školení budou účastníci schopni:
- Implementovat architekturu datového potrubí pro zpracování velkých dat.
- Vytvářet cluster infrastrukturu pomocí Apache Mesos a Dockeru.
- Analyzovat data s Sparkem a Scalou.
- Spravovat nestrukturovaná data pomocí Apache Cassandra.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Množství cvičení a praxe.
- Praktická implementace v živém laboratorním prostředí.
Možnosti přizpůsobení kurzu
- Pro požadavek na přizpůsobené školení pro tento kurz nás prosím kontaktujte, abychom to uspořádali.
Návrh Školení
Úvod
Přehled SMACK stacku
- Co je Apache Spark? Funkce Apache Spark
- Co je Apache Mesos? Funkce Apache Mesos
- Co je Apache Akka? Funkce Apache Akka
- Co je Apache Cassandra? Funkce Apache Cassandra
- Co je Apache Kafka? Funkce Apache Kafka
Jazyk Scala
- Syntaxe a struktura Scalay
- Řídicí konstrukce v Scalay
Příprava vývojového prostředí
- Instalace a konfigurace SMACK stacku
- Instalace a konfigurace Dockeru
Apache Akka
- Použití herců (actors)
Apache Cassandra
- Vytváření databází pro čtení dat
- Práce s zálohováním a obnovením
Konectory (Connectors)
- Vytváření streamů
- Sestavování aplikace v Akka
- Ukládání dat do CASSANDRY
- Přehled konectorů
Apache Kafka
- Práce s clustery
- Vytváření, publikování a konzumace zpráv
Apache Mesos
- Přidělování prostředků
- Správa clustérů
- Práce s Apache Aurorou a Dockerem
- Spouštění služeb a úloh
- Nasazování Spark, Cassandra a Kafka na Mesosu
Apache Spark
- Správa toků dat
- Práce s RDDs a dataframes
- Provádění analýzy dat
Řešení problémů
- Zpracování selhání služeb a chyb
Shrnutí a závěr
Požadavky
- Pochopení datových zpracovacích systémů
Cílová skupina
- Data Scientists (datoví vědci)
Veřejné školení vyžaduje minimálně 5 účastníků.
SMACK Stack pro Datovou Vědu Počítačový Kurz - Rezervace
SMACK Stack pro Datovou Vědu Počítačový Kurz - Dotaz
SMACK Stack pro Datovou Vědu - Dotaz ohledně konzultace
Dotaz ohledně konzultace
Reference (1)
very interactive...
Richard Langford
Kurz - SMACK Stack for Data Science
Nadcházející kurzy
Související kurzy
Ekosystém pro datové vědce
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce, kteří chtějí používat ekosystém Anaconda k zachycení, správě a nasazení balíčků a pracovních postupů analýzy dat na jediné platformě.
Na konci tohoto školení budou účastníci schopni:
- Nainstalujte a nakonfigurujte Anaconda komponenty a knihovny.
- Pochopte základní koncepty, funkce a výhody Anaconda.
- Spravujte balíčky, prostředí a kanály pomocí Navigátoru Anaconda.
- Používejte balíčky Conda, R a Python pro datovou vědu a strojové učení.
- Seznamte se s některými praktickými případy použití a technikami pro správu více datových prostředí.
Big Data Business Intelligence pro Telecom a poskytovatelé služeb Communication
35 hodinypřehled
Poskytovatelé služeb (CSP) se potýkají s tlakem na snížení nákladů a maximalizování průměrného příjmu na uživatele (ARPU), přičemž zajišťují vynikající zákazní zkušenosti, ale objem dat stále roste. Globální mobilní data bude růst s kombinovanou roční rychlostí růstu (CAGR) o 78 procent do roku 2016, dosahující 10,8 exabytů měsíčně.
Mezitím generují CSP velké množství dat, včetně záznamů o volbách (CDR), sítí a údajů o zákaznících. Společnosti, které tyto údaje plně využívají, získají konkurenční okraj. Podle nedávného průzkumu The Economist Intelligence Unit, společnosti, které využívají datové rozhodování, mají 5-6% zvýšení produktivity. Zatím 53 % společností využívá pouze polovinu svých cenných údajů, a čtvrtina respondentů poznamenala, že obrovské množství užitečných údajů je ztraceno. Objem dat je tak vysoký, že manuální analýza je nemožná a většina softwarových systémů dědictví se nedokáže udržet, což vede k vymazání nebo ignorování cenných dat.
S Big Data & Analytics’ vysokorychlostní, skalovatelné Big Data software, CSPs mohou minovat všechny své údaje pro lepší rozhodování v kratším čase. Různé produkty a techniky poskytují konečnou softwarovou platformu pro shromažďování, přípravu, analýzu a prezentaci poznatků z velkých dat. Oblasti aplikace zahrnují monitorování výkonu sítě, detekci podvodů, detekci zákaznických záznamů a analýzu úvěrového rizika. Big Data & Analýza produktů měřítko pro zpracování terabytů dat, ale implementace takových nástrojů vyžaduje nový typ databázového systému založeného na cloudu, jako Hadoop nebo masivní měřítko paralelní počítačový procesor (KPU atd.)
Tento kurz pracuje na Big Data BI pro Telco pokrývá všechny vznikající nové oblasti, ve kterých CSP investují pro zvýšení produktivity a otevření nového toku příjmů z podnikání. Kurz poskytne kompletní 360-stupňový přehled Big Data BI v Telco tak, že rozhodovatelé a manažeři mohou mít velmi široký a komplexní přehled možností Big Data BI v Telco pro produktivitu a výnosy.
Cíle kurzu
Hlavním cílem kurzu je zavést nové Big Data obchodní inteligence techniky v 4 odvětvích Telecom Business (Marketing/prodej, síťová operace, finanční operace a vztah k zákazníkům Management). Studenti budou představeni k následujícím:
- Úvod do Big Data-co je 4Vs (volumen, rychlost, rozmanitost a pravděpodobnost) v Big Data- Generace, extrakce a řízení z perspektivy Telco
- Jak se analytika liší od analytiky dědictví
- Vnitřní odůvodnění Big Data -Telco perspektivy
- Úvod do Hadoop Ecosystem- seznámení se všemi Hadoop nástroji jako Hive, Pig, SPARC –kdy a jak jsou používány k řešení Big Data problém
- Jak Big Data je extrahována k analýze pro analytické nástroje-jak Business Analysis’s mohou snížit své bolestivé body shromažďování a analýzy dat prostřednictvím integrovaného Hadoop dashboard přístupu
- Základní úvod do analýzy Insight, analýzy vizualizace a prediktivní analýzy pro Telco
- Zákazník Churn analýza a Big Data-jak Big Data analýza může snížit zákaznický churn a nespokojenost zákazníků v Telco případových studiích
- Analýza síťových selhání a servisních selhání z síťových meta-dát a IPDR
- Finanční analýza - podvody, podvody a odhady ROI z prodeje a operačních údajů
- Zákazník akvizice problém-Cílový marketing, segmentace zákazníků a cross-prodej z prodeje dat
- Úvod a shrnutí všech Big Data analytických produktů a kde se hodí do analytického prostoru společnosti Telco
- Závěr-jak přijmout krok za krokem přístup k zavedení Big Data Business Intelligence ve vaší organizaci
Cílová publikum
- Síťová operace, finanční manažeři, manažeři CRM a špičkové manažeři IT v kanceláři Telco CIO.
- Business Analytici v Telco
- CFO kancelář manažeři / analytici
- Operativní manažeři
- QA manažeři
Praktický úvod do datové vědy
35 hodinyÚčastníci, kteří absolvují toto školení, získají praktické a relevantní porozumění datové vědě a jejím souvisejícím technologiím, metodologiím a nástrojům.
Účastníci budou mít možnost tuto znalost uplatnit prostřednictvím praktických cvičení. Skupinová interakce a zpětná vazba od vyučujícího představují důležitou součást kurzu.
Kurs začíná úvodem do základních konceptů datové vědy a dále pokračuje v popisu nástrojů a metodologií používaných v této oblasti.
Účastníci kurzu
- Vývojáři
- Techničtí analytičtí pracovníci
- IT konzultanti
Formát kurzu
- Částečně přednáška, částečně diskuse, cvičení a značné praktické uplatnění.
Poznámka
- Pro požadavek na přizpůsobené školení pro tento kurz, kontaktujte nás a domluvte si detaily.
Program Data Science
245 hodinyExploze informací a dat v dnešním světě nemá obdoby, naše schopnost inovovat a posouvat hranice možného roste rychleji než kdy předtím. Role Data Scientist je dnes jednou z nejžádanějších dovedností napříč průmyslem.
Nabízíme mnohem více než učení prostřednictvím teorie; poskytujeme praktické, obchodovatelné dovednosti, které překlenují propast mezi světem akademické obce a požadavky průmyslu.
Tento 7týdenní kurikulum může být přizpůsobeno vašim specifickým průmyslovým požadavkům, kontaktujte nás pro další informace nebo navštivte webové stránky Nobleprog Institute
Publikum:
Tento program je určen pro absolventy postgraduálního studia a také pro kohokoli s požadovanými nezbytnými dovednostmi, které budou určeny hodnocením a pohovorem.
Dodávka:
Poskytování kurzu bude směsí Instructor Led Classroom a Instructor Led Online; typicky 1. týden bude 'třídou vedenou', týdny 2-6 'virtuální učebnou' a 7. týden zpět 'třídou vedenou'.
Datová věda pro velká data analytiku
35 hodinyVelká data jsou datové soubory, které jsou tak objemné a složité, že tradiční aplikační software pro zpracování dat je pro ně nedostatečný. Velké problémy s daty zahrnují sběr dat, ukládání dat, analýzu dat, vyhledávání, sdílení, přenos, vizualizaci, dotazování, aktualizaci a ochranu osobních údajů.
Data Science klíčové pro profesionály v oblasti Marketingu a Prodeje
21 hodinyTento kurz je určený pro Marketingové a Prodejní Profesionály, kteří se chtějí více zabývat aplikací datových věd v marketingu/ prodaji. Kurz poskytuje podrobný přehled různých technik datových věd používaných pro "upselling", "cross-selling", segmentaci trhu, branding a CLV (Customer Lifetime Value).
Rozdíl mezi Marketingem a Prodejem - Jak se liší prodej a marketing?
Jednoduchými slovy lze prodej charakterizovat jako proces, který se zaměřuje na jednotlivce nebo malé skupiny. Marketing na druhou stranu míří na širší skupinu nebo obecnou veřejnost. Marketing zahrnuje výzkum (identifikaci potřeb zákazníků), vývoj produktů (vytvořování inovačních produktů) a propagaci produktu (pomocí reklam) a tím vytváří povědomí o produktu mezi spotřebiteli. Marketing znamená generování potenciálních klientů nebo případů. Jakmile je produkt na trhu, je úkolem prodejce přesvědčit zákazníka k nákupu tohoto produktu. Prodej znamená převod potenciálních klientů na kupující zákazníky a objednávky, zatímco marketing se zaměřuje na delší výhledy, prodej se týká kratších cílů.
Jupyter pro týmy v datové vědě
7 hodinyTento instruktorův živý kurz (online nebo na místě) představí myšlenku společného vývoje ve vědeckém zpracování dat a ukáže, jak používat Jupyter pro sledování a účast jako tým v "životním cyklu výpočetní myšlenky". Kurz projedná postupem vytvoření vzorového projektu ve vědeckém zpracování dat na základě Jupyter ekosystému.
Koncem tohoto kurzu budou účastníci schopni:
- Nainstalovat a nakonfigurovat Jupyter, včetně vytvoření a integrace týmového repozitáře na Git.
- Používat funkce Jupyteru jako rozšíření, interaktivní widgety, víceklientský režim a další k podpoře projektové spolupráce.
- Vytvářet, sdílet a organizovat Jupyter Notebook s členy týmu.
- Zvolit jazyky Scala, Python, R pro psaní a spouštění kódu proti systémům velkých dat jako jsou Apache Spark přes rozhraní Jupyteru.
Kaggle
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří se chtějí učit a budovat svou kariéru v Data Science pomocí Kaggle.
Na konci tohoto školení budou účastníci schopni:
- Přečtěte si o datové vědě a strojovém učení.
- Prozkoumejte analýzu dat.
- Přečtěte si o Kaggle a jak to funguje.
Základy MATLABu, Datová Analýza a Generování Zpráv
35 hodinyV první části tohoto školení pokryjeme základy MATLAB a jeho funkci jako jazyka i platformy. Součástí této diskuse je úvod do MATLAB syntaxe, polí a matic, vizualizace dat, vývoje skriptů a objektově orientovaných principů.
Ve druhé části demonstrujeme, jak používat MATLAB pro dolování dat, strojové učení a prediktivní analytiku. Abychom účastníkům poskytli jasnou a praktickou perspektivu přístupu a síly MATLAB, nakreslíme srovnání mezi používáním MATLAB a jinými nástroji, jako jsou tabulky, C, C++ a Visual Basic.
Ve třetí části školení se účastníci naučí, jak zefektivnit svou práci automatizací zpracování dat a generování reportů.
V průběhu kurzu budou účastníci uplatňovat v praxi myšlenky získané praktickými cvičeními v laboratorním prostředí. Na konci školení budou mít účastníci důkladný přehled o schopnostech MATLAB a budou je moci využít pro řešení reálných problémů datové vědy a také pro zefektivnění své práce prostřednictvím automatizace.
V průběhu kurzu budou probíhat hodnocení, aby bylo možné změřit pokrok.
Formát kurzu
- Kurz zahrnuje teoretická a praktická cvičení, včetně případových diskuzí, kontroly ukázkového kódu a praktické implementace.
Poznámka
- Cvičební sezení budou vycházet z předem připravených šablon vzorových datových zpráv. Pokud máte specifické požadavky, kontaktujte nás, abychom se domluvili.
Machine Learning pro Data Science s Pythonem
21 hodinyTento instruktorem vedený, živý školení v České republice (online nebo přítomně) je určen pro data analytiky, vývojáře nebo aspirující datové vědce středního úrovně, kteří si přejí používat strojové učení v Pythonu ke získávání inzercí, dělání predikcí a automatizaci data ovládaných rozhodnutí.
Na konci tohoto kurzu budou účastníci schopni:
- Pochopit a rozlišovat klíčové paradigmy strojového učení.
- Zkoumat techniky předzpracování dat a metriky hodnocení modelů.
- Používat algoritmy strojového učení k řešení praktických problémů s daty.
- Pracovat s Python knihovnami a Jupyter notebooky pro praxi.
- Vytvářet modely pro predikci, klasifikaci, doporučování a shlukování.
Zrychlování Python Pandas pracovních postupů s využitím Modin
14 hodinyToto živé školení vedené instruktorem v České republice (online nebo na místě) je zaměřeno na datové vědce a vývojáře, kteří chtějí používat Modin k sestavení a implementaci paralelních výpočtů s Pandas pro rychlejší analýzu dat.
Na konci tohoto školení budou účastníci schopni:
- Nastavte potřebné prostředí, abyste mohli začít vyvíjet pracovní postupy Pandas ve velkém měřítku s Modin.
- Pochopte funkce, architekturu a výhody Modin.
- Poznejte rozdíly mezi Modin, Dask a Rayem.
- Pomocí Modin provádějte operace Pandas rychleji.
- Implementujte celé Pandas API a funkce.
Python Programming for Finance
35 hodinyPython je programovací jazyk, který získal obrovskou popularitu v finančním průmyslu. Přijatý největšími investičními bankami a hedge fondy se používá k vytváření širokého spektra finančních aplikací, od základních obchodních programů po systémy řízení rizik.
V tomto vedeném instruktorem živém školení se účastníci naučí používat Python k vývoji praktických aplikací pro řešení mnoha specifických problémů souvisejících s financemi.
Na konci tohoto školení budou účastníci schopni:
- Pochopit základy programovacího jazyka Python
- Stáhnout, nainstalovat a udržovat nejlepší vývojové nástroje pro vytváření finančních aplikací v Pythonu
- Vybrat a využít nejvhodnější balíčky a programovací techniky Pythonu k organizaci, vizualizaci a analýze finančních dat z různých zdrojů (CSV, Excel, databáze, webové stránky atd.)
- Stavět aplikace, které řeší problémy související s alokací aktiv, analýzou rizik, výkonem investic a dalšími aspekty
- Odrážet, integrovat, nasazovat a optimalizovat aplikaci v Pythonu
Cílová skupina
- Vývojáři
- Analytici
- Quants (kvantitativní analytici)
Formát kurzu
- Část přednáška, část diskuse, cvičení a významná praktická práce
Poznámka
- Toto školení má za cíl poskytnout řešení některých hlavních problémů, s kterými se finanční profesionálové setkávají. Pokud máte konkrétní téma, nástroj nebo techniku, kterou byste chtěli přidat nebo podrobněji rozpracovat, prosím, kontaktujte nás pro uspořádání.
Grafické procesory v datové vědě s NVIDIA RAPIDS
14 hodinyTento školení pod vedením instruktora (online nebo na místě) je určený datovým vědcům a vývojářům, kteří chtějí použít RAPIDS pro vytváření GPU-akcelerovaných datových potoků, pracovních postupů a vizualizací s použitím algoritmů strojového učení, jako je XGBoost, cuML atd.
Na konci tohoto školení budou účastníci schopni:
- Nastavit nezbytné vývojové prostředí pro vytváření datových modelů s NVIDIA RAPIDS.
- Pochopit funkce, komponenty a výhody RAPIDS.
- Využít GPU k akceleraci datových a analytických potoků od začátku do konce.
- Implementovat GPU-akcelerovanou přípravu dat a ETL s cuDF a Apache Arrow.
- Naučit se, jak provádět úkoly strojového učení pomocí algoritmů XGBoost a cuML.
- Vytvářet datové vizualizace a provádět grafickou analýzu s cuXfilter a cuGraph.
Python a Spark pro Velká Data (PySpark)
21 hodinyV tomto živém školení pod vedením instruktora v České republice se účastníci naučí, jak používat Python a Spark společně k analýze velkých dat při práci na praktických cvičeních.
Na konci tohoto školení budou účastníci schopni:
- Naučte se používat Spark s Python k analýze Big Data.
- Pracujte na cvičeních, která napodobují případy ze skutečného světa.
- Použijte různé nástroje a techniky pro analýzu velkých dat pomocí PySpark.
Stratio: Moduly Rocket a Intelligence s PySpark
14 hodinyStratio je datová platforma, která integruje big data, AI a správu do jediného řešení. Moduly Rocket a Intelligence umožňují rychlou datovou procházkou, transformaci a pokročilý analytický výkon ve firemních prostředích.
Tato instruktor-provedená živá školení (online nebo na místě) je určeno středně pokročilým datovým profesionálům, kteří chtějí efektivně používat moduly Rocket a Intelligence v Stratio s PySpark, zaměřením na smyčkové struktury, uživatelsky definované funkce a pokročilou datovou logiku.
Po ukončení tohoto školení budou účastníci schopni:
- Navigovat a pracovat ve Stratio platformě s využitím modulů Rocket a Intelligence.
- Používat PySpark ve kontextu nahrávání dat, transformace a analýzy.
- Používat smyčky a podmíněnou logiku pro ovládání datových pracovních toků a úkolů inženýrství funkcí.
- Vytvářet a spravovat uživatelsky definované funkce (UDF) pro opakovatelné datové operace v PySpark.
Formát kurzu
- Interaktivní přednáška a diskuse.
- Mnoho cvičení a praxe.
- Praktické realizace v živém laboratorním prostředí.
Možnosti personalizace kurzu
- Pro požadavek na personalizované školení tohoto kurzu, kontaktujte nás pro uspořádání.