Návrh Školení

Každá seance trvá 2 hodiny

Den-1: Seance -1: Obchodní přehled proč Big Data Business Intelligence ve vládě

  • Případové studie z NIH, DoE
  • Adaptace Big Data ve vládních agenturách a jak se přizpůsobují budoucí operacím na základě prediktivní analýzy Big Data
  • Rozsáhlé oblasti aplikace v DoD, NSA, IRS, USDA atd.
  • Integrování Big Data s legacy daty
  • Základní znalost povolujících technologií v prediktivní analýze
  • Integrace dat a vizualizace na řídicím panelu
  • Správa podvodů
  • Generování pravidel pro detekci podvodů
  • Detekce a profilace hrozeb
  • Analýza nákladů a přínosů implementace Big Data

Den-1: Seance-2 : Úvod do Big Data-1

  • Hlavní charakteristiky Big Data - objem, variety, rychlost a důvěrnost. MPP architektura pro objem.
  • Datové skladovy - statická schéma, pomalu se měnící soubor dat
  • MPP databáze jako Greenplum, Exadata, Teradata, Netezza, Vertica atd.
  • Řešení založená na Hadoopu - bez podmínek na strukturu souboru dat.
  • Typický vzor: HDFS, MapReduce (zpracování), získání dat z HDFS
  • Zpracování dávkami - vhodné pro analytické/neninteraktivní účely
  • Objem: CEP streamování dat
  • Typická volba - produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
  • Méně připravené na produkční použití - Storm/S4
  • NoSQL databáze - (sloupcová a key-value): Nejlépe vhodné jako analytický doplněk k datovému skladu/databázi

Den-1: Seance -3 : Úvod do Big Data-2

NoSQL řešení

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchický) - GT.m, Cache
  • KV Store (Seřazený) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Různé typy dat: Úvod do problémů čištění dat v Big Data

  • RDBMS - statická struktura/schéma, nepodporuje agilní a průzkumné prostředí.
  • NoSQL - semi strukturovaná, dostatečně strukturovaná k ukládání dat bez přesného schématu před uložením
  • Problémy s čištěním dat

Den-1: Seance-4 : Úvod do Big Data-3: Hadoop

  • Kdy vybrat Hadoop?
  • STRUKTUROVANÁ - Podnikové datové skladovy/databáze mohou ukládat obrovské objemy dat (za cenu), ale vynucují strukturu (nevhodné pro aktivní průzkum)
  • SEMI STRUKTUROVANÁ data - těžké zpracovat s tradičními řešeními (DW/DB)
  • Ukládání dat = obrovský úsilí a statické i po implementaci
  • Pro variety & objem dat, zpracovávaných na low-cost hardwaru - HADOOP
  • Low-cost HW potřebný k vytvoření clusteru Hadoop

Úvod do MapReduce/HDFS

  • MapReduce - distribuované zpracování na více serverech
  • HDFS - ukládání dat místně pro výpočetní proces (s redundantností)
  • Data - mohou být nestrukturované/bez schématu (na rozdíl od RDBMS)
  • Vývojářská odpovědnost za význam dat
  • Programování MapReduce = práce s Javou (výhody/nedostatky), ruční načítání dat do HDFS

Den-2: Seance-1: Ekosystém Big Data - Vytvoření ETL pro Big Data: univerzum nástrojů Big Data - který použít a kdy?

  • Hadoop vs. ostatní NoSQL řešení
  • Pro interaktivní, náhodný přístup k datům
  • Hbase (sloupcová databáze) na vrcholu Hadoopu
  • Náhodný přístup k datům, ale s omezeními (max 1 PB)
  • Nesnadné pro ad-hoc analýzu, dobré pro logging, počítání, časové řady
  • Sqoop - Import dat z databází do Hive nebo HDFS (JDBC/ODBC přístup)
  • Flume - Streamování dat (např. logovacích dat) do HDFS

Den-2: Seance-2: Systém správy Big Data

  • Hýbající se části, výpočetní uzly startují/spadají: ZooKeeper - pro konfiguraci/koordinaci/nazvování služeb
  • Složitá datová přípojka/pracovní postup: Oozie - správa pracovního postupu, závislostí, sekvencí
  • Nasazení, konfigurace, správa clusteru, upgrade atd. (admin systému): Ambari
  • V cloudu: Whirr

Den-2: Seance-3: Prediktivní analýza v Business Intelligence -1: Základní techniky a machine learning:

  • Úvod do machine learningu
  • Učení klasifikačních technik
  • Bayesovská predikce - příprava trénovací souboru
  • Support Vector Machine (SVM)
  • KNN p-Tree Algebra & vertikální těžba dat
  • Neuronové sítě
  • Big Data a problém velkých proměnných - Random Forest (RF)
  • Automatizace přes více modelů - Multi-model ensemble RF
  • Automatizace prostřednictvím Soft10-M
  • Nástroj pro textovou analýzu - Treeminer
  • Agile učení
  • Agent-based learning
  • Distribuované učení
  • Úvod do open source nástrojů pro prediktivní analýzu: R, Rapidminer, Mahout

Den-2: Seance-4 Prediktivní ekosystém -2: Běžné problémy prediktivní analýzy ve vládě

  • Insight analytika
  • Vizualizační analytika
  • Strukturovaná prediktivní analytika
  • Nestrukturovaná prediktivní analytika
  • Profilace hrozeb/podvodů/poskytovatelů služeb
  • Doporučovací systém
  • Detekce vzorů
  • Zjišťování pravidel/scenářů - selhání, podvod, optimalizace
  • Detekce kořenových příčin
  • Analýza názorů (sentiment analysis)
  • CRM analytika
  • Sítěová analytika
  • Textová analýza
  • Technologie asistované revize (TAR)
  • Analýza podvodů
  • Reálně časová analytika

Den-3: Seance-1: Reálně časová a škálovatelná analýza nad Hadoopem

  • Proč obecné algoritmy analytických metod selhávají v Hadoopu/HDFS
  • Apache Hama - pro hromadně synchronní distribuované zpracování
  • Apache SPARK - pro clusterové výpočty reálného času
  • CMU Graphics Lab2 - grafický asynchronní přístup k distribuovanému zpracování
  • Přístup KNN p-Algebra od Treeminer pro snížení nákladů na hardwarovou operaci

Den-3: Seance-2: Nástroje pro eDiscovery a forenziku

  • eDiscovery nad Big Data vs. Legacy data - srovnání nákladů a výkonu
  • Prediktivní kódování a technologie asistované revize (TAR)
  • Živá demo produktu TAR (vMiner) pro rychlejší zjišťování
  • Rychlejší indexace prostřednictvím HDFS - rychlost dat
  • NLP nebo zpracování přirozeného jazyka - různé techniky a open source produkty
  • eDiscovery v cizích jazycích - technologie pro zpracování cizích jazyků

Den-3: Seance-3: Big Data BI pro kybernetickou bezpečnost - Chápání celkového pohledu na rychlé sběry dat až po identifikaci hrozeb

  • Základy analýzy bezpečnosti - útočná povrch, bezpečnostní špatné konfigurace, obrana hostitelských systémů
  • Síťová infrastruktura/velké datové trubky/ETL pro reálnou časovou analýzu
  • Preskriptivní vs prediktivní - pevná pravidla vs automatické zjišťování hrozeb z metadata

Den-3: Seance-4: Big Data v USDA: Aplikace v zemědělství

  • Úvod do IoT (Internet of Things) pro zemědělství - senzorová Big Data a kontrola
  • Úvod do satelitního snímání a jeho aplikace v zemědělství
  • Integrace senzorových a obrazových dat pro úrodnost půdy, doporučení ke klíčovému zpracování a prognózy
  • Pojištění v zemědělství a Big Data
  • Prognóza ztrát úrod

Den-4: Seance-1: Prevence podvodů BI ze Big Data ve vládě - Analýza podvodů:

  • Základní klasifikace analýzy podvodů - pravidla vs prediktivní analytika
  • Supervizované vs nesupervizované machine learning pro detekci vzorů podvodů
  • Podvody poskytovatelů služeb/přeplacení za projekty
  • Medicare a Medicaid - techniky detekce podvodů při zpracování nároků
  • Podvody v oplacení cestovních nákladů
  • IRS podvody s náhradami z daně
  • Budou předány případové studie a živé demo tam, kde jsou data k dispozici.

Den-4: Seance-2: Analýza sociálních médií - sběr a analýza informací

  • API ETL Big Data pro extrakci dat z sociálních médií
  • Text, obrázek, metadata a video
  • Analýza názorů (sentiment analysis) z feedu sociálních médií
  • Kontextová a nekontextová filtrace dat z sociálních médií
  • Dashboard sociálních médií pro integraci různých sociálních médií
  • Automatické profilování uživatelských účtů na sociálních médiích
  • Budou předány živá demo každé analýzy prostřednictvím nástroje Treeminer.

Den-4: Seance-3: Big Data analytika v zpracování obrázků a videí

  • Techniky ukládání obrázků ve Big Data - řešení pro ukládání dat překračujících petabytes
  • LTFS a LTO
  • GPFS-LTFS (vrstvené řešení pro ukládání velkých datových souborů)
  • Základy analýzy obrázků
  • Poznávání objektů
  • Segmentace obrázků
  • Sledování pohybu
  • Rekonstrukce 3D obrazu

Den-4: Seance-4: Aplikace Big Data v NIH:

  • Vznikající oblasti bioinformatiky
  • Meta-genomika a problémy s těžbou Big Data
  • Prediktivní analýza Big Data pro farmakogenomiku, metabolomiku a proteomiku
  • Big Data v procesu downstream genomiky
  • Aplikace prediktivní analýzy Big Data ve veřejné zdravotnictví

Dashboard Big Data pro rychlý přístup k různým datům a jejich vizualizaci:

  • Integrace stávající aplikace s dashboardem Big Data
  • Správa Big Data
  • Případová studie dashboardu Big Data: Tableau a Pentaho
  • Použití aplikace Big Data k poskytování lokálních služeb ve vládě
  • Sledovací systém a správa

Den-5: Seance-1: Jak ospravedlnit implementaci Big Data BI v organizaci:

  • Definování ROI (návratu z investice) pro implementaci Big Data
  • Případové studie ušetření času analytiků při sběru a přípravě dat - nárůst produktivity
  • Případové studie zisku příjmů díky úsporám na licencovaných databázích
  • Zisk příjmů díky lokálním službám
  • Úspory díky prevenci podvodů
  • Integrovaný spreadsheetový přístup k výpočtu přibližných nákladů vs. zisku/poušetření díky implementaci Big Data.

Den-5: Seance-2: Krok za krokem postup pro nahrazení legacy systému Big Data systémem:

  • Chápání praktického plánu migrace Big Data
  • Jaké jsou důležité informace potřebné před architekturální implementací Big Data
  • Různé způsoby výpočtu objemu, rychlosti, variety a důvěrnosti dat
  • Jak odhadnout nárůst dat
  • Případové studie

Den-5: Seance-4: Revize výrobků poskytovatelů Big Data. Q&A session:

  • Accenture
  • APTEAN (dříve CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dříve 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (součást EMC)

Požadavky

  • Základní znalost provozu a datových systémů vlády v dané oblasti
  • Základní znalost SQL/Oracle nebo relační databáze
  • Základní znalost statistiky (na úrovni tabulkových procesorů)
 35 hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie