Návrh Školení

Každé sezení trvá 2 hodiny

Den 1: Sezení -1: Obchodní přehled Proč Big Data Business Intelligence v Govt.

    Případové studie z NIH, DoE Big Data adaptace v Govt. Agentury a jejich budoucí fungování v oblasti velkých dat Predictive Analytics Široká aplikační oblast v ministerstvech obrany, NSA, IRS, USDA atd. Propojení velkých dat se staršími daty Základní pochopení základních technologií v prediktivní analýze Integrace dat a vizualizace řídicích panelů Podvody management Business Rule/generování detekce podvodů Detekce hrozeb a profilování Analýza nákladů a přínosů pro implementaci Big Data

Den 1: Relace 2: Představení Big Data-1

    Hlavní charakteristiky Big Data - objem, rozmanitost, rychlost a pravdivost. Architektura MPP pro objem. Datové sklady – statické schéma, pomalu se vyvíjející datová sada MPP Databáze jako Greenplum, Exadata, Teradata, Netezza, Vertica atd. Hadoop Based Solutions – žádné podmínky na strukturu datové sady. Typický vzor: HDFS, MapReduce (crunch), načtení z HDFS Batch – vhodné pro analytické/neinteraktivní Objem: CEP streamování dat Typické možnosti – CEP produkty (např. Infostreams, Apama, MarkLogic atd.) Méně připravené na produkci – Storm/S4 NoSQL databáze – (sloupcový a klíč–hodnota): Nejlépe se hodí jako analytický doplněk k datovému skladu/databázi

Den-1 : Relace -3 : Úvod do Big Data-2

NeSQL řešení

    KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Hierarchical) – GT.m, Cache KV Store (Objednáno) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store – Gigaspaces, Coord, Databáze objektů Apache River – ZopeDB, DB40, Courant Shoal Document Store , Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variety dat: Úvod do problematiky Data Cleaning v Big Data

    RDBMS – statická struktura/schéma, nepodporuje agilní, průzkumné prostředí. NeSQL – polostrukturovaná, dostatečně struktura pro uložení dat bez přesného schématu před uložením dat Problémy s čištěním dat

1. den : 4. relace : Úvod do velkých dat 3 : Hadoop

    Kdy zvolit Hadoop? STRUKTUROVANÉ – Podnikové datové sklady/databáze mohou ukládat masivní data (za cenu), ale vnucují strukturu (není vhodné pro aktivní průzkum) POLOSTRUKTUROVANÁ data – obtížné s tradičními řešeními (DW/DB) Skladová data = VELKÉ úsilí a statická i po implementace Pro rozmanitost a objem dat, schvácených na komoditním hardwaru – HADOOP Commodity H/W potřebný k vytvoření Hadoop Clusteru

Úvod do Map Reduce /HDFS

    MapReduce – distribuce výpočetní techniky na více serverech HDFS – zpřístupnění dat lokálně pro výpočetní proces (s redundancí) Data – mohou být nestrukturovaná/bez schémat (na rozdíl od RDBMS) Odpovědnost vývojáře za pochopení dat Programming MapReduce = práce s Javou ( pro/proti), ruční načítání dat do HDFS

2. den: 1. zasedání: Big Data Budování ekosystému Big Data ETL: vesmír Big Data nástrojů – který z nich použít a kdy?

    Hadoop vs. jiná řešení č.SQL Pro interaktivní, náhodný přístup k datům Hbase (sloupcově orientovaná databáze) nad Hadoop Náhodný přístup k datům, ale uložená omezení (max 1 PB) Nevhodné pro ad-hoc analýzy, dobré pro protokolování, počítání, časové řady Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC) Flume – Streamování dat (např. log dat) do HDFS

Den 2: Relace 2: Systém velkých dat Management

    Pohybující se části, spuštění/selhání výpočetních uzlů :ZooKeeper - Pro konfigurační/koordinační/názvové služby Složitý kanál/pracovní postup: Oozie – správa pracovního postupu, závislostí, daisy chain Nasazení, konfigurace, správa clusteru, upgrade atd. (správce systému): Ambari In Cloud: Vrčení

Den 2: Sezení 3: Prediktivní analytika v Business Intelligence -1: Základní techniky a BI založené na strojovém učení:

    Úvod do strojového učení Techniky klasifikace učení Bayesian Prediction-příprava školícího souboru Support Vector Machine KNN p-Tree Algebra & vertikální těžba Neuronová síť Big Data velký variabilní problém -Random forest (RF) Big Data Automatizační problém – Multi-modelový soubor RF Automation prostřednictvím Soft10-M Textový analytický nástroj-Treeminer Agilní učení Učení založené na agentech Distribuované učení Úvod do Open source nástrojů pro prediktivní analýzu: R, Rapidminer, Mahut

Den-2: Session-4 Prediktivní analytický ekosystém-2: Běžné prediktivní analytické problémy v Govt.

    Statistiky analytické Vizualizace analytické Strukturované prediktivní analytické Nestrukturované prediktivní analytické Profilování hrozeb/podvodů/dodavatelů Doporučení Engine Detekce vzorů Zjištění pravidel/scénářů – selhání, podvod, optimalizace Zjištění kořenové příčiny Analýza sentimentu CRM analytika Síťová analytika Textová analýza Asistovaná kontrola podvodů Analytika v reálném čase

Den 3 : Sekce 1 : Real Time a Scalable Analytic Over Hadoop

    Proč běžné analytické algoritmy selhávají v Hadoop/HDFS Apache Hama- pro hromadné Synchronní distribuované výpočty Apache SPARK- pro clusterové výpočty pro analytické CMU Graphics Lab2- Grafový asynchronní přístup k distribuovaným výpočtům KNN p-Algebra založený přístup od Treeminer pro snížení hardwarové náklady na provoz

Den 3: Sezení 2: Nástroje pro eDiscovery a forenzní

    eDiscovery over Big Data vs. starší data – srovnání nákladů a výkonu Prediktivní kódování a kontrola pomocí technologie (TAR) Živá ukázka produktu Tar (vMiner), abyste pochopili, jak TAR funguje pro rychlejší objevování Rychlejší indexování pomocí HDFS – rychlost dat NLP neboli zpracování přirozeného jazyka – různé techniky a open source produkty eDiscovery v cizích jazycích – technologie pro zpracování cizích jazyků

Den 3 : Sezení 3: Big Data BI pro Cyber Security – Pochopení celých 360stupňových pohledů na rychlý sběr dat až po identifikaci hrozeb

    Pochopení základů bezpečnostní analýzy – povrch útoku, chybná konfigurace zabezpečení, obrana hostitele Síťová infrastruktura/velký datový kanál/odpovědní ETL pro analýzu v reálném čase Preskriptivní vs prediktivní – Na základě pevných pravidel versus automatické zjišťování pravidel hrozeb z metadat

Den 3: Sezení 4: Big Data v USDA: Aplikace v zemědělství

    Úvod do internetu věcí (Internet of Things) pro zemědělství založené na senzorech Big Data a ovládání Úvod do satelitního zobrazování a jeho aplikace v zemědělství Integrace senzorových a obrazových dat pro úrodnost půdy, doporučení a prognózy pěstování Zemědělské pojištění a Big Data Předpověď ztráty plodin

Den 4: Přednáška 1: BI prevence podvodů z Big Data v Govt-Fraud analytics:

    Základní klasifikace analýzy podvodů – založená na pravidlech vs. prediktivní analytika Pod dohledem vs. bez dohledu Strojové učení pro detekci vzorů podvodů Podvody dodavatelů/nadměrné poplatky za projekty Techniky detekce podvodů Medicare a Medicaid pro zpracování nároků Podvody s úhradou cestovních náhrad Podvody s refundací IRS Případové studie a živé ukázky budou být uvedeny všude tam, kde jsou k dispozici údaje.

Den 4: Sezení 2: Social Media Analytické – shromažďování a analýza zpravodajských informací

    Big Data ETL API pro extrakci dat sociálních médií Text, obrázek, meta data a video Analýza sentimentu z kanálu sociálních médií Kontextové a nekontextové filtrování zdroje sociálních médií Social Media Panel pro integraci různých sociálních médií Automatické profilování profilu sociálních médií Živá ukázka každého analytika bude poskytnuto prostřednictvím nástroje Treeminer.

Den 4 : Relace 3: Big Data Analytické zpracování obrazu a video kanálů

    Techniky ukládání obrazu v Big Data- Řešení úložiště pro data přesahující petabajty LTFS a LTO GPFS-LTFS (řešení vrstveného úložiště pro velká obrazová data) Základy analýzy obrazu Rozpoznávání objektů Segmentace obrazu Sledování pohybu 3D rekonstrukce obrazu

Den 4: Relace 4: Big Data aplikace v NIH:

    Rozvíjející se oblasti Bio-informatiky Problémy metagenomiky a dolování velkých dat Prediktivní analytika velkých dat pro farmakogenomiku, metabolomiku a proteomiku Velká data v navazujícím procesu genomiky Aplikace prediktivní analýzy velkých dat ve veřejném zdraví

Big Data Ovládací panel pro rychlý přístup k různým datům a zobrazení:

    Integrace stávající aplikační platformy s Big Data Dashboard Správa velkých dat Případová studie Big Data Dashboard: Tableau a Pentaho Použijte aplikaci Big Data k prosazení lokalizačních služeb ve vládě. Systém sledování a řízení

Den 5 : Sezení 1: Jak odůvodnit implementaci Big Data BI v organizaci:

    Definování návratnosti investic pro implementaci Big Data Případové studie pro úsporu času analytika na sběr a přípravu dat – zvýšení zisku z produktivity Případové studie zisku z výnosů z úspory nákladů na licencovanou databázi Příjmy z výnosů ze služeb založených na místě Úspora předcházení podvodům Integrovaný tabulkový přístup k vypočítat cca. náklady vs. výnosy/úspory z implementace Big Data.

Den 5: Relace 2: Postup krok za krokem k nahrazení staršího datového systému na Big Data Systém:

    Porozumění praktickému Big Data plánu migrace Jaké jsou důležité informace potřebné před vytvořením architektury Big Data implementace Jaké jsou různé způsoby výpočtu objemu, rychlosti, rozmanitosti a pravdivosti dat Jak odhadnout nárůst dat Případové studie

Den 5: Sezení 4: Recenze Big Data prodejců a recenze jejich produktů. Relace Q/A:

    Accenture APTEAN (dříve CDC Software) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (dříve 10Gen) MU Sigma Netapp Opera Solutions Oracle Pentaho Platfora Qliktech Quantum Rackspace Revoluce AG Software Salesforce AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (součást EMC)

Požadavky

  • Základní znalost podnikového provozu a datových systémů ve státní správě. v jejich doméně
  • Základní znalost SQL/Oracle nebo relační databáze
  • Základní porozumění Statistics (na úrovni tabulky)
  35 hodiny

Počet účastníků



Price per participant

Reference (4)

Související kurzy

Související kategorie