Návrh Školení
Den 01
Přehled Big Data Business Intelligence pro analýzu kriminálního zpravodajství
- Případové studie z vymáhání práva – Prediktivní policejní práce
- Big Data míra přijetí v donucovacích orgánech a jak přizpůsobují své budoucí fungování kolem Big Data Predictive Analytics
- Rozvíjející se technologická řešení, jako jsou snímače výstřelů, sledovací video a sociální média
- Použití technologie Big Data ke zmírnění přetížení informacemi
- Propojení Big Data se staršími daty
- Základní porozumění základním technologiím v prediktivní analytice
- Data Integration & Vizualizace řídicího panelu
- Řízení podvodů
- Business Rules a Detekce podvodů
- Detekce a profilování hrozeb
- Analýza nákladů a přínosů pro implementaci Big Data
Úvod do Big Data
- Hlavní charakteristiky Big Data -- Objem, Varieta, Rychlost a Pravdivost.
- Architektura MPP (Massively Parallel Processing).
- Data Warehouses – statické schéma, pomalu se vyvíjející datový soubor
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica atd.
- Hadoop Based Solutions – žádné podmínky pro strukturu datového souboru.
- Typický vzor: HDFS, MapReduce (crunch), načtení z HDFS
- Apache Spark pro zpracování proudu
- Dávkové - vhodné pro analytické/neinteraktivní
- Hlasitost : Data streamování CEP
- Typické možnosti – produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
- Méně připravené na výrobu – Storm/S4
- NoSQL Databases – (sloupcový a klíč–hodnota): Nejlépe se hodí jako analytický doplněk k datovému skladu/databázi
NeSQL řešení
- KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarchický) - GT.m, Cache
- KV Store (Objednáno) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store – Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Mělčina
- Document Store – CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Široký sloupcový obchod – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variety dat: Úvod do Data Cleaning problémů v oblasti Big Data
- RDBMS – statická struktura/schéma, nepodporuje agilní, průzkumné prostředí.
- NoSQL – polostrukturovaná, dostatečně struktura pro uložení dat bez přesného schématu před uložením dat
- Problémy s čištěním dat
Hadoop
- Kdy zvolit Hadoop?
- STRUKTUROVANÉ – Podnikové datové sklady/databáze mohou ukládat masivní data (za cenu), ale vyžadují strukturu (není vhodné pro aktivní průzkum)
- POLOSTRUKTUROVANÁ data – obtížně proveditelná tradičními řešeními (DW/DB)
- Skladová data = OBROVSKÉ úsilí a statické i po implementaci
- Pro rozmanitost a objem dat, schvácený na komoditním hardwaru – HADOOP
- Komoditní H/W potřebné k vytvoření Hadoop Clusteru
Úvod do Map Reduce /HDFS
- MapReduce – distribuce výpočetní techniky na více serverů
- HDFS – zpřístupněte data lokálně pro výpočetní proces (s redundancí)
- Data – mohou být nestrukturovaná/bez schématu (na rozdíl od RDBMS)
- Odpovědnost vývojáře za pochopení dat
- Programming MapReduce = práce s Java (výhody/nevýhody), ruční načítání dat do HDFS
Den 02
Big Data Ekosystém -- Budování Big Data ETL (Extract, Transform, Load) -- Které Big Data nástroje použít a kdy?
- Hadoop vs. Jiná NoSQL řešení
- Pro interaktivní, náhodný přístup k datům
- Hbase (sloupcově orientovaná databáze) nad Hadoop
- Náhodný přístup k datům, ale omezení (max. 1 PB)
- Není dobré pro ad-hoc analýzy, dobré pro protokolování, počítání, časové řady
- Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC)
- Flume – Streamujte data (např. data protokolu) do HDFS
Big Data Management Systém
- Pohyblivé části, spuštění/selhání výpočetních uzlů :ZooKeeper – Pro konfigurační/koordinační/názvové služby
- Složitý kanál/pracovní postup: Oozie – správa pracovního postupu, závislostí, daisy chain
- Nasazení, konfigurace, správa clusteru, upgrade atd. (sys admin): Ambari
- V oblaku: Whirr
Predictive Analytics -- Základní techniky a Business Intelligence založené na strojovém učení
- Úvod do Machine Learning
- Učení klasifikačních technik
- Bayesian Prediction -- příprava cvičného souboru
- Podpora Vector Machine
- KNN p-Tree Algebra a vertikální těžba
- Neural Networks
- Big Data velký proměnný problém -- Náhodný les (RF)
- Big Data Problém automatizace – Multi-modelový soubor RF
- Automatizace pomocí Soft10-M
- Textový analytický nástroj-Treeminer
- Agile učení
- Agent based learning
- Distribuované učení
- Úvod do Open source nástrojů pro prediktivní analytiku: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosystém a jeho aplikace v Criminal Intelligence Analysis
- Technologie a proces vyšetřování
- Analytický přehled
- Vizualizační analytika
- Strukturovaná prediktivní analytika
- Nestrukturovaná prediktivní analytika
- Profilování hrozeb/podvodů/prodejců
- Motor doporučení
- Detekce vzoru
- Zjištění pravidel/scénářů – selhání, podvod, optimalizace
- Odhalení hlavní příčiny
- Analýza sentimentu
- CRM analytika
- Síťová analytika
- Textová analýza pro získávání informací z přepisů, svědeckých výpovědí, internetového chatování atd.
- Technologie asistovaná kontrola
- Analytika podvodů
- Analýza v reálném čase
Den 03
Analýzy v reálném čase a Scalaz Hadoop
- Proč běžné analytické algoritmy selhávají v Hadoop/HDFS
- Apache Hama- pro Bulk Synchronous Distributed Computing
- Apache SPARK- pro clusterové výpočty a analýzu v reálném čase
- CMU Graphics Lab2 - Asynchronní přístup k distribuované práci na počítači založený na grafu
- KNN p -- Přístup založený na algebře od Treemineru pro snížení provozních nákladů na hardware
Nástroje pro eDiscovery a forenzní
- eDiscovery over Big Data vs. starší data – srovnání nákladů a výkonu
- Prediktivní kódování a kontrola pomocí technologie (TAR)
- Živá ukázka vMiner pro pochopení toho, jak TAR umožňuje rychlejší objevování
- Rychlejší indexování pomocí HDFS – Rychlost dat
- NLP (zpracování přirozeného jazyka) – open source produkty a techniky
- eDiscovery v cizích jazycích -- technologie pro zpracování cizích jazyků
Big Data BI pro Cyber Security – Získání 360stupňového pohledu, rychlý sběr dat a identifikace hrozeb
- Pochopení základů bezpečnostní analýzy - povrch útoku, chybná konfigurace zabezpečení, obrana hostitele
- Síťová infrastruktura / Velké datové potrubí / Odezva ETL pro analýzu v reálném čase
- Preskriptivní vs prediktivní – Pevná pravidla založená na automatickém zjišťování pravidel hrozeb z metadat
Shromažďování různorodých dat pro analýzu kriminálních informací
- Použití IoT (Internet of Things) jako senzorů pro sběr dat
- Použití satelitních snímků pro domácí sledování
- Použití sledování a obrazových dat pro identifikaci zločinců
- Další technologie shromažďování dat -- drony, tělesné kamery, GPS značkovací systémy a technologie termovizí
- Kombinace automatizovaného vyhledávání dat s daty získanými od informátorů, výslechů a výzkumů
- Forecasting trestná činnost
Den 04
BI prevence podvodů z Big Data ve Fraud Analytics
- Základní klasifikace Fraud Analytics -- na pravidlech vs prediktivní analytika
- Strojové učení pod dohledem vs. bez dozoru pro detekci vzorů podvodů
- Business na obchodní podvody, podvody s lékařskými nároky, pojistné podvody, daňové úniky a praní špinavých peněz
Social Media Analytics -- Shromažďování a analýza zpravodajských informací
- Jak Social Media používají zločinci k organizování, náboru a plánování
- Big Data ETL API pro extrakci dat sociálních médií
- Text, obrázek, meta data a video
- Analýza sentimentu z kanálu sociálních médií
- Kontextové a nekontextové filtrování zdroje sociálních médií
- Social Media Panel pro integraci různých sociálních médií
- Automatické profilování profilu na sociálních sítích
- Živé demo každého analytika bude poskytnuto prostřednictvím nástroje Treeminer
Big Data Analýza zpracování obrázků a video kanálů
- Techniky ukládání obrazu v Big Data -- Řešení ukládání dat přesahujících petabajty
- LTFS (Linear Tape File System) a LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System – Linear Tape File System) – řešení vrstveného úložiště pro velká obrazová data
- Základy analýzy obrazu
- Rozpoznávání objektů
- Segmentace obrazu
- Sledování pohybu
- 3D rekonstrukce obrazu
Biometriky, DNA a identifikační programy nové generace
- Kromě otisků prstů a rozpoznávání obličeje
- Rozpoznávání řeči, úhoz (analýza vzoru psaní uživatelů) a CODIS (kombinovaný systém indexu DNA)
- Kromě párování DNA: použití forenzního fenotypování DNA ke konstrukci obličeje ze vzorků DNA
Big Data Ovládací panel pro rychlý přístup k různým datům a zobrazení:
- Integrace stávající aplikační platformy s Big Data Dashboard
- Big Data řízení
- Případová studie řídicího panelu Big Data: Tableau a Pentaho
- Použijte aplikaci Big Data k odeslání služeb založených na poloze v Govt.
- Systém sledování a řízení
Den 05
Jak odůvodnit implementaci Big Data BI v rámci organizace:
- Definování ROI (Return on Investment) pro implementaci Big Data
- Případové studie pro úsporu času analytika při sběru a přípravě dat – zvýšení produktivity
- Příjmy z nižších nákladů na licencování databáze
- Příjmy ze služeb založených na poloze
- Úspora nákladů díky prevenci podvodů
- Integrovaný tabulkový přístup pro výpočet přibližných nákladů vs. zisk/úspory příjmů z implementace Big Data.
Postup krok za krokem pro nahrazení staršího datového systému systémem Big Data
- Big Data Plán migrace
- Jaké kritické informace jsou potřeba před vytvořením architektury Big Data systému?
- Jaké jsou různé způsoby výpočtu objemu, rychlosti, rozmanitosti a věrohodnosti dat
- Jak odhadnout nárůst dat
- Případové studie
Recenze Big Data Prodejců a recenze jejich produktů.
- Accenture
- APTEAN (dříve CDC Software)
- Cisco Systémy
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Datové systémy Hitachi
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dříve 10Gen)
- MU Sigma
- Netapp
- Opera řešení
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvantová
- Rackspace
- Revoluční analytika
- Salesforce
- SAP
- SAS Ústav
- Sisense
- Software AG/Teracotta
- Automatizace Soft10
- Splunk
- Sqrrl
- Supermikro
- Tableau Software
- Teradata
- Myslete na Big Analytics
- Tidemark Systems
- Treeminer
- VMware (součást EMC)
Q/A relace
Požadavky
- Znalost procesů vymáhání práva a datových systémů
- Základní znalost SQL/Oracle nebo relační databáze
- Základní znalost statistik (na úrovni tabulky)
Publikum
- Specialisté na vymáhání práva s technickým zázemím