Návrh Školení

Den 01

Přehled Big Data Business Intelligence pro analýzu kriminálního zpravodajství

  • Případové studie z vymáhání práva – Prediktivní policejní práce
  • Big Data míra přijetí v donucovacích orgánech a jak přizpůsobují své budoucí fungování kolem Big Data Predictive Analytics
  • Rozvíjející se technologická řešení, jako jsou snímače výstřelů, sledovací video a sociální média
  • Použití technologie Big Data ke zmírnění přetížení informacemi
  • Propojení Big Data se staršími daty
  • Základní porozumění základním technologiím v prediktivní analytice
  • Data Integration & Vizualizace řídicího panelu
  • Řízení podvodů
  • Business Rules a Detekce podvodů
  • Detekce a profilování hrozeb
  • Analýza nákladů a přínosů pro implementaci Big Data

Úvod do Big Data

  • Hlavní charakteristiky Big Data -- Objem, Varieta, Rychlost a Pravdivost.
  • Architektura MPP (Massively Parallel Processing).
  • Data Warehouses – statické schéma, pomalu se vyvíjející datový soubor
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica atd.
  • Hadoop Based Solutions – žádné podmínky pro strukturu datového souboru.
  • Typický vzor: HDFS, MapReduce (crunch), načtení z HDFS
  • Apache Spark pro zpracování proudu
  • Dávkové - vhodné pro analytické/neinteraktivní
  • Hlasitost : Data streamování CEP
  • Typické možnosti – produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
  • Méně připravené na výrobu – Storm/S4
  • NoSQL Databases – (sloupcový a klíč–hodnota): Nejlépe se hodí jako analytický doplněk k datovému skladu/databázi

NeSQL řešení

  • KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarchický) - GT.m, Cache
  • KV Store (Objednáno) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store – Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Mělčina
  • Document Store – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Široký sloupcový obchod – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variety dat: Úvod do Data Cleaning problémů v oblasti Big Data

  • RDBMS – statická struktura/schéma, nepodporuje agilní, průzkumné prostředí.
  • NoSQL – polostrukturovaná, dostatečně struktura pro uložení dat bez přesného schématu před uložením dat
  • Problémy s čištěním dat

Hadoop

  • Kdy zvolit Hadoop?
  • STRUKTUROVANÉ – Podnikové datové sklady/databáze mohou ukládat masivní data (za cenu), ale vyžadují strukturu (není vhodné pro aktivní průzkum)
  • POLOSTRUKTUROVANÁ data – obtížně proveditelná tradičními řešeními (DW/DB)
  • Skladová data = OBROVSKÉ úsilí a statické i po implementaci
  • Pro rozmanitost a objem dat, schvácený na komoditním hardwaru – HADOOP
  • Komoditní H/W potřebné k vytvoření Hadoop Clusteru

Úvod do Map Reduce /HDFS

  • MapReduce – distribuce výpočetní techniky na více serverů
  • HDFS – zpřístupněte data lokálně pro výpočetní proces (s redundancí)
  • Data – mohou být nestrukturovaná/bez schématu (na rozdíl od RDBMS)
  • Odpovědnost vývojáře za pochopení dat
  • Programming MapReduce = práce s Java (výhody/nevýhody), ruční načítání dat do HDFS

Den 02

Big Data Ekosystém -- Budování Big Data ETL (Extract, Transform, Load) -- Které Big Data nástroje použít a kdy?

  • Hadoop vs. Jiná NoSQL řešení
  • Pro interaktivní, náhodný přístup k datům
  • Hbase (sloupcově orientovaná databáze) nad Hadoop
  • Náhodný přístup k datům, ale omezení (max. 1 PB)
  • Není dobré pro ad-hoc analýzy, dobré pro protokolování, počítání, časové řady
  • Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC)
  • Flume – Streamujte data (např. data protokolu) do HDFS

Big Data Management Systém

  • Pohyblivé části, spuštění/selhání výpočetních uzlů :ZooKeeper – Pro konfigurační/koordinační/názvové služby
  • Složitý kanál/pracovní postup: Oozie – správa pracovního postupu, závislostí, daisy chain
  • Nasazení, konfigurace, správa clusteru, upgrade atd. (sys admin): Ambari
  • V oblaku: Whirr

Predictive Analytics -- Základní techniky a Business Intelligence založené na strojovém učení

  • Úvod do Machine Learning
  • Učení klasifikačních technik
  • Bayesian Prediction -- příprava cvičného souboru
  • Podpora Vector Machine
  • KNN p-Tree Algebra a vertikální těžba
  • Neural Networks
  • Big Data velký proměnný problém -- Náhodný les (RF)
  • Big Data Problém automatizace – Multi-modelový soubor RF
  • Automatizace pomocí Soft10-M
  • Textový analytický nástroj-Treeminer
  • Agile učení
  • Agent based learning
  • Distribuované učení
  • Úvod do Open source nástrojů pro prediktivní analytiku: R, Python, Rapidminer, Mahut

Predictive Analytics Ekosystém a jeho aplikace v Criminal Intelligence Analysis

  • Technologie a proces vyšetřování
  • Analytický přehled
  • Vizualizační analytika
  • Strukturovaná prediktivní analytika
  • Nestrukturovaná prediktivní analytika
  • Profilování hrozeb/podvodů/prodejců
  • Motor doporučení
  • Detekce vzoru
  • Zjištění pravidel/scénářů – selhání, podvod, optimalizace
  • Odhalení hlavní příčiny
  • Analýza sentimentu
  • CRM analytika
  • Síťová analytika
  • Textová analýza pro získávání informací z přepisů, svědeckých výpovědí, internetového chatování atd.
  • Technologie asistovaná kontrola
  • Analytika podvodů
  • Analýza v reálném čase

Den 03

Analýzy v reálném čase a Scalaz Hadoop

  • Proč běžné analytické algoritmy selhávají v Hadoop/HDFS
  • Apache Hama- pro Bulk Synchronous Distributed Computing
  • Apache SPARK- pro clusterové výpočty a analýzu v reálném čase
  • CMU Graphics Lab2 - Asynchronní přístup k distribuované práci na počítači založený na grafu
  • KNN p -- Přístup založený na algebře od Treemineru pro snížení provozních nákladů na hardware

Nástroje pro eDiscovery a forenzní

  • eDiscovery over Big Data vs. starší data – srovnání nákladů a výkonu
  • Prediktivní kódování a kontrola pomocí technologie (TAR)
  • Živá ukázka vMiner pro pochopení toho, jak TAR umožňuje rychlejší objevování
  • Rychlejší indexování pomocí HDFS – Rychlost dat
  • NLP (zpracování přirozeného jazyka) – open source produkty a techniky
  • eDiscovery v cizích jazycích -- technologie pro zpracování cizích jazyků

Big Data BI pro Cyber Security – Získání 360stupňového pohledu, rychlý sběr dat a identifikace hrozeb

  • Pochopení základů bezpečnostní analýzy - povrch útoku, chybná konfigurace zabezpečení, obrana hostitele
  • Síťová infrastruktura / Velké datové potrubí / Odezva ETL pro analýzu v reálném čase
  • Preskriptivní vs prediktivní – Pevná pravidla založená na automatickém zjišťování pravidel hrozeb z metadat

Shromažďování různorodých dat pro analýzu kriminálních informací

  • Použití IoT (Internet of Things) jako senzorů pro sběr dat
  • Použití satelitních snímků pro domácí sledování
  • Použití sledování a obrazových dat pro identifikaci zločinců
  • Další technologie shromažďování dat -- drony, tělesné kamery, GPS značkovací systémy a technologie termovizí
  • Kombinace automatizovaného vyhledávání dat s daty získanými od informátorů, výslechů a výzkumů
  • Forecasting trestná činnost

Den 04

BI prevence podvodů z Big Data ve Fraud Analytics

  • Základní klasifikace Fraud Analytics -- na pravidlech vs prediktivní analytika
  • Strojové učení pod dohledem vs. bez dozoru pro detekci vzorů podvodů
  • Business na obchodní podvody, podvody s lékařskými nároky, pojistné podvody, daňové úniky a praní špinavých peněz

Social Media Analytics -- Shromažďování a analýza zpravodajských informací

  • Jak Social Media používají zločinci k organizování, náboru a plánování
  • Big Data ETL API pro extrakci dat sociálních médií
  • Text, obrázek, meta data a video
  • Analýza sentimentu z kanálu sociálních médií
  • Kontextové a nekontextové filtrování zdroje sociálních médií
  • Social Media Panel pro integraci různých sociálních médií
  • Automatické profilování profilu na sociálních sítích
  • Živé demo každého analytika bude poskytnuto prostřednictvím nástroje Treeminer

Big Data Analýza zpracování obrázků a video kanálů

  • Techniky ukládání obrazu v Big Data -- Řešení ukládání dat přesahujících petabajty
  • LTFS (Linear Tape File System) a LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System – Linear Tape File System) – řešení vrstveného úložiště pro velká obrazová data
  • Základy analýzy obrazu
  • Rozpoznávání objektů
  • Segmentace obrazu
  • Sledování pohybu
  • 3D rekonstrukce obrazu

Biometriky, DNA a identifikační programy nové generace

  • Kromě otisků prstů a rozpoznávání obličeje
  • Rozpoznávání řeči, úhoz (analýza vzoru psaní uživatelů) a CODIS (kombinovaný systém indexu DNA)
  • Kromě párování DNA: použití forenzního fenotypování DNA ke konstrukci obličeje ze vzorků DNA

Big Data Ovládací panel pro rychlý přístup k různým datům a zobrazení:

  • Integrace stávající aplikační platformy s Big Data Dashboard
  • Big Data řízení
  • Případová studie řídicího panelu Big Data: Tableau a Pentaho
  • Použijte aplikaci Big Data k odeslání služeb založených na poloze v Govt.
  • Systém sledování a řízení

Den 05

Jak odůvodnit implementaci Big Data BI v rámci organizace:

  • Definování ROI (Return on Investment) pro implementaci Big Data
  • Případové studie pro úsporu času analytika při sběru a přípravě dat – zvýšení produktivity
  • Příjmy z nižších nákladů na licencování databáze
  • Příjmy ze služeb založených na poloze
  • Úspora nákladů díky prevenci podvodů
  • Integrovaný tabulkový přístup pro výpočet přibližných nákladů vs. zisk/úspory příjmů z implementace Big Data.

Postup krok za krokem pro nahrazení staršího datového systému systémem Big Data

  • Big Data Plán migrace
  • Jaké kritické informace jsou potřeba před vytvořením architektury Big Data systému?
  • Jaké jsou různé způsoby výpočtu objemu, rychlosti, rozmanitosti a věrohodnosti dat
  • Jak odhadnout nárůst dat
  • Případové studie

Recenze Big Data Prodejců a recenze jejich produktů.

  • Accenture
  • APTEAN (dříve CDC Software)
  • Cisco Systémy
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Datové systémy Hitachi
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dříve 10Gen)
  • MU Sigma
  • Netapp
  • Opera řešení
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvantová
  • Rackspace
  • Revoluční analytika
  • Salesforce
  • SAP
  • SAS Ústav
  • Sisense
  • Software AG/Teracotta
  • Automatizace Soft10
  • Splunk
  • Sqrrl
  • Supermikro
  • Tableau Software
  • Teradata
  • Myslete na Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (součást EMC)

Q/A relace

Požadavky

  • Znalost procesů vymáhání práva a datových systémů
  • Základní znalost SQL/Oracle nebo relační databáze
  • Základní znalost statistik (na úrovni tabulky)

Publikum

  • Specialisté na vymáhání práva s technickým zázemím
 35 hodiny

Počet účastníků


Price per participant

Reference (1)

Upcoming Courses

Související kategorie