Návrh Školení

Rozdělení témat na denní bázi: (každá lekce trvá 2 hodiny)

Den 1: Relace -1: Obchodní přehled Proč Big Data Business Intelligence v Telco.

    Případové studie od T-Mobile, Verizon atd. Míra adaptace velkých dat v severoamerickém Telco a jak přizpůsobují svůj budoucí obchodní model a provoz kolem Big Data BI Široká správa aplikací v oblasti sítě a služeb Customer Churn Management Integrace dat & Vizualizace řídicího panelu Správa podvodů Generování obchodních pravidel Profilování zákazníků Lokalizované podávání reklam

Den 1: Relace 2: Představení Big Data-1

    Hlavní charakteristiky Big Data - objem, rozmanitost, rychlost a pravdivost. Architektura MPP pro objem. Datové sklady – statické schéma, pomalu se vyvíjející datová sada MPP Databáze jako Greenplum, Exadata, Teradata, Netezza, Vertica atd. Hadoop Based Solutions – žádné podmínky na strukturu datové sady. Typický vzor: HDFS, MapReduce (crunch), načtení z HDFS Batch – vhodné pro analytické/neinteraktivní Objem: CEP streamování dat Typické možnosti – CEP produkty (např. Infostreams, Apama, MarkLogic atd.) Méně připravené na produkci – Storm/S4 NoSQL databáze – (sloupcový a klíč–hodnota): Nejlépe se hodí jako analytický doplněk k datovému skladu/databázi

Den-1 : Relace -3 : Úvod do Big Data-2

NeSQL řešení

    KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Hierarchical) – GT.m, Cache KV Store (Objednáno) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store – Gigaspaces, Coord, Databáze objektů Apache River – ZopeDB, DB40, Courant Shoal Document Store , Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variety dat: Úvod do problematiky Data Cleaning v Big Data

    RDBMS – statická struktura/schéma, nepodporuje agilní, průzkumné prostředí. NeSQL – polostrukturovaná, dostatečně strukturovaná pro uložení dat bez přesného schématu před uložením dat Problémy s čištěním dat

1. den : 4. relace : Úvod do velkých dat 3 : Hadoop

    Kdy zvolit Hadoop? STRUKTUROVANÉ – Podnikové datové sklady/databáze mohou ukládat masivní data (za cenu), ale vnucují strukturu (není vhodné pro aktivní průzkum) POLOSTRUKTUROVANÁ data – obtížné s tradičními řešeními (DW/DB) Skladová data = VELKÉ úsilí a statická i po implementace Pro rozmanitost a objem dat, schvácených na komoditním hardwaru – HADOOP Commodity H/W potřebný k vytvoření Hadoop Clusteru

Úvod do Map Reduce /HDFS

    MapReduce – distribuce výpočetní techniky na více serverech HDFS – zpřístupnění dat lokálně pro výpočetní proces (s redundancí) Data – mohou být nestrukturovaná/bez schémat (na rozdíl od RDBMS) Odpovědnost vývojáře za pochopení dat Programming MapReduce = práce s Javou ( pro/proti), ruční načítání dat do HDFS

Den 2: Relace 1.1: Spark: Distribuovaná databáze v paměti

    Co je zpracování „v paměti“? Spark SQL Spark SDK Spark API RDD Spark Lib Hanna Jak migrovat stávající systém Hadoop na Spark

Den 2 relace -1.2: Storm - Zpracování v reálném čase v Big Data

    Proudy Špunty Šrouby Topologie

Den 2: Relace 2: Big Data Management Systém

    Pohybující se části, spuštění/selhání výpočetních uzlů :ZooKeeper - Pro konfigurační/koordinační/názvové služby Složitý kanál/pracovní postup: Oozie – správa pracovního postupu, závislostí, daisy chain Nasazení, konfigurace, správa clusteru, upgrade atd. (správce systému): Ambari In Cloud: Nástroje platformy Whirr Evolving Big Data pro sledování problémů s aplikacemi vrstvy ETL

Den 2: Sezení 3: Prediktivní analytika v Business Intelligence -1: Základní techniky a BI založené na strojovém učení:

    Úvod do strojového učení Techniky klasifikace bayesiánských předpovědí připravující trénovací soubor Markov náhodné pole Učení pod dohledem a bez dohledu Extrakce funkcí Podpora Vektor Stroj Neuronová síť Posílení učení Big Data velký variabilní problém -Náhodný les (RF) Učení reprezentace Hluboké učení Big Data Problém automatizace – Vícemodelový soubor RF automatizace prostřednictvím Soft10-M LDA a tématické modelování Agilní učení Učení založené na agentech – Příklad z Telco provozu Distribuované učení – Příklad z Telco provozu Úvod do Open source Nástroje pro prediktivní analytiku: R, Rapidminer, Mahut Škálovatelnější analytické- Laboratoř Apache Hama, Spark a CMU Graph

Den 2: Relace 4 Ekosystém prediktivní analýzy 2: Běžné problémy prediktivní analýzy v Telecom

    Statistiky analytické Vizualizace analytické Strukturované prediktivní analytické Nestrukturované prediktivní analytické Profilování zákazníků Doporučení Motor Detekce vzorů Zjištění pravidel/scénářů – selhání, podvod, optimalizace Zjištění kořenové příčiny Analýza sentimentu CRM analytika Analytika sítě Analytika textu Analýza asistovaná technologie Kontrola podvodů Analytika v reálném čase

Den 3: Sekce 1: Analýza síťového provozu – analýza hlavních příčin selhání sítě, přerušení služby z metadat, IPDR a CRM:

    Využití CPU Využití paměti Využití QoS fronty Využití teploty zařízení Chyba rozhraní Verze IoS Směrování Události Variace latence Analytika Syslog Ztráta zátěže Simulace Topologie Inference Výkon Prahové hodnoty Zařízení Pasti Shromažďování a zpracování IPDR (podrobný záznam IP) Použití dat IPDR pro Spotřebu šířky pásma účastníka, Využití síťového rozhraní , stav modemu a diagnostické informace HFC

Den 3: Relace 2: Nástroje pro analýzu selhání síťové služby:

    Přehled sítě Dashboard: monitorujte celkové nasazení sítě a sledujte klíčové ukazatele výkonu vaší organizace Panel analýzy špičkového období: porozumějte trendům aplikací a předplatitelů, které řídí maximální využití, s podrobností specifickou pro danou lokalitu Řídicí panel účinnosti směrování: ovládejte síťové náklady a sestavujte obchodní případy pro investiční projekty pomocí úplné pochopení propojovacích a tranzitních vztahů Řídicí panel zábavy v reálném čase: přístup k metrikám, na kterých záleží, včetně zhlédnutí videa, trvání a kvality zážitku (QoE) Panel přechodu IPv6: prozkoumejte pokračující zavádění IPv6 ve vaší síti a získejte přehled o aplikace a zařízení ovlivňující trendy Případová studie-1: Alcatel-Lucent Big Network Analytics (BNA) Data Miner Multidimenzionální mobilní inteligence (m.IQ6)

Den 3 : Sezení 3: Big Data BI pro Marketing/Prodej – Pochopení prodeje/marketingu z údajů o prodeji: (Všechny se zobrazí v živé prediktivní analytické ukázce)

    Identifikace klientů s nejvyšší rychlostí Identifikace klientů pro dané produkty Identifikace správné sady produktů pro klienta (Recommendation Engine) Technika segmentace trhu Technika křížového prodeje a dalšího prodeje Technika segmentace klienta Technika prognózy tržeb z prodeje

Den 3: Sezení 4: BI potřebné pro kancelář Telco CFO:

    Přehled Business Analytické práce potřebné v kanceláři finančního ředitele Analýza rizik nových investic Prognóza výnosů, zisku Prognóza akvizice nových klientů Prognóza ztrát Analytika podvodů ve financích ( podrobnosti příští sezení )

Den 4: Sekce 1: Prevence podvodů BI z Big Data v analytice Telco-Fraud:

    Únik šířky pásma / Podvod šířky pásma Podvody dodavatele/nadměrné poplatky za projekty Vrácení peněz zákazníkem/poplatky podvody Podvody s úhradou cestovních náhrad

Den 4: Sezení 2: Od předpovědi churningu k prevenci churnování:

    3 typy odchodů: aktivní/záměrné, rotační/náhodné, pasivní nedobrovolné zákaznický hovor, vstupenky, e-maily) a jejich převod na strukturovaná data pro analýzu odchodů Social Media CRM – nový způsob získávání indexu spokojenosti zákazníků Případová studie 1: T-Mobile USA: Snížení odchodu zákazníků o 50 %

Den 4: Sezení 3: Jak používat prediktivní analýzu pro analýzu hlavních příčin nespokojenosti zákazníků:

    Případová studie -1 : Propojení nespokojenosti s problémy – účetnictví, selhání inženýringu, jako je přerušení služby, špatná šířka pásma Případová studie-2: Big Data Řídicí panel QA pro sledování indexu spokojenosti zákazníků z různých parametrů, jako je eskalace hovorů, závažnost problémů, čekající služba přerušovací události atd.

Den 4: Relace 4: Big Data Ovládací panel pro rychlý přístup k různým datům a zobrazení:

    Integrace stávající aplikační platformy s Big Data Dashboard Správa Big Data Případová studie Big Data Dashboard: Tableau a Pentaho Použijte aplikaci Big Data k prosazení systému sledování reklam na základě umístění a správy

Den 5 : Sezení 1: Jak odůvodnit implementaci Big Data BI v organizaci:

    Definování návratnosti investic pro implementaci Big Data Případové studie pro úsporu času analytika na sběr a přípravu dat – zvýšení zisku z produktivity Případové studie zisku z výnosů z odchodu zákazníků Zisk z výnosů z reklamy založené na umístění a dalších cílených reklam Integrovaný tabulkový přístup pro výpočet cca. náklady vs. výnosy/úspory z implementace Big Data.

Den 5: Relace 2: Postup krok za krokem k nahrazení staršího datového systému na Big Data Systém:

    Pochopení praktického Big Data Plánu migrace Jaké jsou důležité informace potřebné před vytvořením architektury Big Data implementace Jaké jsou různé způsoby výpočtu objemu, rychlosti, rozmanitosti a pravdivosti dat Jak odhadnout nárůst dat Případové studie v 2 Telco

Den 5: Sezení 3 a 4: Recenze Big Data prodejců a recenze jejich produktů. Relace Q/A:

    AccentureAlcatel-Lucent Amazon –A9 APTEAN (dříve CDC Software) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks Huawei HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (dříve 10Gen) MU Sigma Netspace Revoluce Opera Řešení Oracle Pentaho Platfora Racklik Prodej Analytics Qforcelik SAP SAS Institute Sisense Software AG/Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems VMware (součást EMC)

Požadavky

  • Měl by mít základní znalosti podnikového provozu a datových systémů v Telecom ve svém oboru
  • Musí mít základní znalosti SQL/Oracle nebo relační databáze
  • Základní znalost statistiky (na úrovni Excelu)
 35 hodiny

Počet účastníků



Price per participant

Reference (2)

Související kategorie