Návrh Školení

===== Den 01 ===== Přehled Big Data Business Intelligence for Criminal Intelligence Analysis

    Případové studie z vymáhání práva – Prediktivní policejní míra přijímání velkých dat v agenturách činných v trestním řízení a jak přizpůsobují své budoucí operace velkým datům Predictive Analytics Vznikající technologická řešení, jako jsou senzory výstřelů, sledovací video a sociální média Používání technologie Big Data ke zmírnění informací přetížení Propojení velkých dat se staršími daty Základní pochopení základních technologií v prediktivní analýze Integrace dat a vizualizace řídicích panelů Správa podvodů Obchodní pravidla a detekce podvodů Detekce a profilování hrozeb Analýza nákladů a přínosů implementace velkých dat

Úvod do Big Data

    Hlavní charakteristiky velkých dat -- objem, rozmanitost, rychlost a pravdivost. Architektura MPP (Massively Parallel Processing) Datové sklady – statické schéma, pomalu se vyvíjející datový soubor Databáze MPP: Greenplum, Exadata, Teradata, Netezza, Vertica atd. Hadoop Based Solutions – žádné podmínky na strukturu datového souboru. Typický vzor: HDFS, MapReduce (crunch), načtení z HDFS Apache Spark pro zpracování streamů Dávkově vhodné pro analytické/neinteraktivní Objem: Streamování dat CEP Typické možnosti – produkty CEP (např. Infostreams, Apama, MarkLogic atd.) Méně připravené na výrobu – Databáze Storm/S4 NoSQL – (sloupcové a klíč–hodnota): Nejlépe se hodí jako analytický doplněk k datovému skladu/databázi

NeSQL řešení

    KV Store – Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store – Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (Hierarchical) – GT.m, Cache KV Store (Objednáno) – TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache – Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store – Gigaspaces, Coord, Databáze objektů Apache River – ZopeDB, DB - Courant Shoal Document Store , Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variety dat: Úvod do Data Cleaning problémů v oblasti Big Data

    RDBMS – statická struktura/schéma, nepodporuje agilní, průzkumné prostředí. NeSQL – polostrukturovaná, dostatečně strukturovaná pro uložení dat bez přesného schématu před uložením dat Problémy s čištěním dat

Hadoop

    Kdy zvolit Hadoop? STRUKTUROVANÉ – Podnikové datové sklady/databáze mohou ukládat masivní data (za cenu), ale vnucují strukturu (není vhodné pro aktivní průzkum) POLOSTRUKTUROVANÁ data – obtížné provádět pomocí tradičních řešení (DW/DB) Skladová data = VELKÉ úsilí a dokonce i statické po implementaci Pro rozmanitost a objem dat, schvácených na komoditním hardwaru – HADOOP Commodity H/W potřebný k vytvoření Hadoop Clusteru

Úvod do Map Reduce /HDFS

    MapReduce – distribuce výpočetní techniky na více serverech HDFS – zpřístupnění dat lokálně pro výpočetní proces (s redundancí) Data – mohou být nestrukturovaná/bez schémat (na rozdíl od RDBMS) Odpovědnost vývojáře za pochopení dat Programming MapReduce = práce s Javou ( pro/proti), ruční načítání dat do HDFS

===== Den 02 ===== Big Data Ekosystém -- Budování Big Data ETL (extrahování, transformace, načítání) -- Které Big Data nástroje použít a kdy?

    Hadoop vs. jiná řešení č.SQL Pro interaktivní, náhodný přístup k datům Hbase (sloupcově orientovaná databáze) nad Hadoop Náhodný přístup k datům, ale uložená omezení (max 1 PB) Nevhodné pro ad-hoc analytiku, dobré pro protokolování, počítání, časové řady Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC) Flume – Streamování dat (např. log dat) do HDFS

Big Data Management Systém

    Pohybující se části, spuštění/selhání výpočetních uzlů :ZooKeeper - Pro konfigurační/koordinační/názvové služby Složitý kanál/pracovní postup: Oozie – správa pracovního postupu, závislostí, daisy chain Nasazení, konfigurace, správa clusteru, upgrade atd. (správce systému): Ambari In Cloud: Vrčení

Predictive Analytics -- Základní techniky a Business Intelligence založené na strojovém učení

    Úvod do strojového učení Klasifikační techniky Bayesian Prediction -- příprava trénovacího souboru Support Vector Machine KNN p-Tree Algebra & vertikální těžba Neuronové sítě Velký problém velkých proměnných velkých dat -- Náhodný les (RF) Problém automatizace velkých dat – Soubor více modelů RF Automatizace pomocí Soft10-M Textový analytický nástroj-Treeminer Agilní učení Učení založené na agentech Distribuované učení Úvod do Open source nástrojů pro prediktivní analytiku: R, Python, Rapidminer, Mahut

Predictive Analytics Ekosystém a jeho aplikace v Criminal Intelligence Analysis

    Technologie a vyšetřovací proces Analytika statistik Vizualizace Analytika Strukturovaná prediktivní analýza Nestrukturovaná prediktivní analýza Profilování hrozeb/podvodů/dodavatelů Doporučení Engine Detekce vzorů Zjišťování pravidel/scénářů – selhání, podvod, optimalizace Zjištění hlavní příčiny Analýza sentimentu CRM Analytika Síťová analýza Analytika textu pro získání přehledu od přepisy, výpovědi svědků, internetové chatování atd. Technologie asistovaná kontrola Analýza podvodů Analýza v reálném čase

===== Den 03 ===== V reálném čase a Scalazobrazení analýzy přes Hadoop

    Proč běžné analytické algoritmy selhávají v Hadoop/HDFS Apache Hama- pro Bulk Synchronní distribuované výpočty Apache SPARK- pro clusterové výpočty a analytické CMU Graphics Lab2 v reálném čase- Grafový asynchronní přístup k distribuovaným výpočtům KNN p -- Algebraický přístup od Treeminer pro snížené náklady na provoz hardwaru

Nástroje pro eDiscovery a forenzní

    eDiscovery over Big Data vs. starší data – srovnání nákladů a výkonu Prediktivní kódování a Technology Assisted Review (TAR) Živá ukázka vMiner pro pochopení toho, jak TAR umožňuje rychlejší objevování Rychlejší indexování prostřednictvím HDFS – Rychlost dat NLP (zpracování v přirozeném jazyce) – open source produkty a techniky eDiscovery v cizích jazycích -- technologie pro zpracování cizích jazyků

Big Data BI pro Cyber Security – Získání 360stupňového pohledu, rychlý sběr dat a identifikace hrozeb

    Pochopení základů bezpečnostní analýzy – povrch útoku, chybná konfigurace zabezpečení, obrana hostitele Síťová infrastruktura / velké datové potrubí / ETL odezvy pro analýzu v reálném čase Preskriptivní vs prediktivní – Na základě pevných pravidel versus automatické zjišťování pravidel hrozeb z metadat

Shromažďování různorodých dat pro analýzu kriminálních informací

    Využití internetu věcí (Internet of Things) jako senzorů pro zachycování dat Využití satelitních snímků pro domácí dohled Využití sledování a obrazových dat pro identifikaci zločinců Další technologie shromažďování dat -- drony, tělesné kamery, systémy GPS a termovizní technologie Kombinace automatizovaného získávání dat s daty získané od informátorů, výslechů a výzkumů Forecasting trestné činnosti

===== Den 04 ===== BI prevence podvodů od Big Data v nástroji Fraud Analytics

    Základní klasifikace analýzy podvodů – analýza založená na pravidlech vs. prediktivní analýza pod dohledem vs. bez dohledu Strojové učení pro detekci vzorů podvodů Business až po obchodní podvody, podvody s lékařskými nároky, pojistné podvody, daňové úniky a praní špinavých peněz

Social Media Analytics -- Shromažďování a analýza zpravodajských informací

    Jak Social Media používají zločinci k organizování, náboru a plánování Big Data ETL API pro extrakci dat sociálních médií Text, obrázek, metadata a video Analýza sentimentu ze zdroje sociálních médií Kontextové a nekontextové filtrování zdroje sociálních médií Social Media Dashboard pro integraci různých sociálních médií Automatické profilování profilu sociálních médií Živé demo každého analytika bude poskytnuto prostřednictvím nástroje Treeminer Tool

Big Data Analýza zpracování obrázků a video kanálů

    Techniky ukládání obrazu v Big Data -- Řešení úložiště pro data přesahující petabajty LTFS (Linear Tape File System) a LTO (Linear Tape Open) GPFS-LTFS (General Parallel File System - Linear Tape File System) -- vrstvené řešení úložiště pro Big obrazová data Základy analýzy obrazu Rozpoznávání objektů Segmentace obrazu Sledování pohybu 3D rekonstrukce obrazu

Biometriky, DNA a identifikační programy nové generace

    Kromě otisků prstů a rozpoznávání obličeje Rozpoznávání řeči, úhoz (analýza uživatelského vzoru) a CODIS (kombinovaný systém indexů DNA) Kromě shody DNA: použití forenzního fenotypování DNA ke konstrukci obličeje ze vzorků DNA

Big Data Ovládací panel pro rychlý přístup k různým datům a zobrazení:

    Integrace stávající aplikační platformy s Big Data Dashboard Správa velkých dat Případová studie Big Data Dashboard: Tableau a Pentaho Použijte aplikaci Big Data k prosazení lokalizačních služeb ve vládě. Systém sledování a řízení

===== Den 05 ===== Jak odůvodnit implementaci Big Data BI v rámci organizace:

    Definování ROI (návratnost Investment) pro implementaci Big Data Případové studie pro úsporu času analytika při shromažďování a přípravě dat – zvýšení produktivity Příjmy z nižších nákladů na licencování databází Příjmy ze služeb založených na umístění Úspory nákladů díky prevenci podvodů Integrovaná tabulka přístup pro výpočet přibližných nákladů vs. zisk/úspory příjmů z implementace Big Data.

Postup krok za krokem pro nahrazení staršího datového systému systémem Big Data

    Big Data Plán migrace Jaké důležité informace jsou potřeba před vytvořením architektury Big Data systému? Jaké jsou různé způsoby výpočtu objemu, rychlosti, rozmanitosti a pravdivosti dat Jak odhadnout nárůst dat Případové studie

Recenze Big Data Prodejců a recenze jejich produktů.

    Accenture APTEAN (dříve CDC Software) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (dříve 10Gen) MU Sigma Netapp Opera Solutions Oracle Pentaho Platfora Qliktech Quantum Rackspace Revoluce AG Software Salesforce AG /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (součást EMC)

Q/A relace

Požadavky

  • Znalost procesů vymáhání práva a datových systémů
  • Základní znalost SQL/Oracle nebo relační databáze
  • Základní znalost statistik (na úrovni tabulky)
  35 hodiny

Počet účastníků


Začátek

Konec


Dates are subject to availability and take place between 09:30 and 16:30.

Price per participant

Reference (4)

Související kurzy

Související kategorie