Návrh Školení

Každý sraz trvá 2 hodiny

Den-1: Sraz -1: Obchodní přehled proč Big Data Business Intelligence ve státních orgánech

  • Případové studie z NIH, DoE
  • Adopce Big Data v státních orgánech a jejich přizpůsobení budoucím operacím na základě prediktivní analýzy dat
  • Rozsáhlé oblasti aplikace v DoD, NSA, IRS, USDA atd.
  • Integrování Big Data s legacy data
  • Základní pochopení enable technologií v prediktivní analýze dat
  • Integrace dat a vizualizace na řídicím panelu
  • Správa podvodu
  • Generování pravidel obchodních operací / detekce podvodu
  • Detekce a profilace hrozeb
  • Analýza nákladů a výhod pro implementaci Big Data

Den-1: Sraz-2 : Úvod do Big Data-1

  • Hlavní charakteristiky Big Data – objem, variety, rychlost a pravdivost. Architektura MPP pro objem.
  • Datové skladovy – statická schémata, pomalu se měnící datasety
  • Databázové systémy MPP jako Greenplum, Exadata, Teradata, Netezza, Vertica atd.
  • Řešení na bázi Hadoopu – bez podmínek na strukturu datasetu.
  • Typický vzor: HDFS, MapReduce (crunch), extrahování z HDFS
  • dávka – vhodná pro analytické/ned interaktivní úkoly
  • objem: CEP proudící data
  • Typické volby – produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
  • Méně připravené na výrobu – Storm/S4
  • NoSQL databáze – (sloupcové a key-value): Nejlépe vyhovují jako analytické doplnění datových skladů/databází

Den-1: Sraz -3 : Úvod do Big Data-2

NoSQL řešení

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchický) - GT.m, Cache
  • KV Store (Uspořádaný) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variace dat: Úvod do problému čištění dat v Big Data

  • RDBMS – statická struktura/schéma, neuspokojuje agilní a průzkumný prostředí.
  • NoSQL – polostrukturované, dostatečně strukturované k ukládání dat bez přesného schématu před uložením
  • Problémy s čištěním dat

Den-1: Sraz-4 : Úvod do Big Data-3: Hadoop

  • Kdy vybrat Hadoop?
  • STRUKTUROVANÁ - podnikové datové skladovy/databáze mohou ukládat obrovské objemy dat (s náklady), ale impození struktury (nepodobné pro aktivní průzkum)
  • POLOSTRUKTUROVANÁ data – těžké zvládnout s tradičními řešeními (DW/DB)
  • Vytvořování datových skladů = obrovská námaha a statické i po implementaci
  • Pro variety a objem dat, zpracovaný na commodity hardwaru – HADOOP
  • Potřeba commodity HW pro vytvoření clusteru Hadoopu

Úvod do Map Reduce/HDFS

  • MapReduce – distribuované výpočty přes více serverů
  • HDFS – udržení dat místně pro proces výpočtu (s redundantními kopie)
  • Data – mohou být nestrukturovaná/bez schématu (na rozdíl od RDBMS)
  • Vývojářovská odpovědnost za dělátko dat
  • Programování MapReduce = práce s Javou (výhody/nevýhody), manuální nahrávání dat do HDFS

Den-2: Sraz-1: Ekosystém Big Data-Budování Big Data ETL: vesmír Big Data nástrojů – který vybrat a kdy?

  • Hadoop vs. jiná NoSQL řešení
  • Pro interaktivní, náhodný přístup k datům
  • Hbase (sloupcová databáze) na bázi Hadoopu
  • Náhodný přístup k datům, ale s omezeními (max 1 PB)
  • Nesnadné pro ad-hoc analýzu, vhodné pro logging, počítání, časové řady
  • Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC)
  • Flume – proudová data (např. logy) do HDFS

Den-2: Sraz-2: Správa systému Big Data

  • Součásti, výpočetní uzly startují/spadají: ZooKeeper – pro konfiguraci/koordinaci/jmenovací služby
  • Komplexní pipeline/workflow: Oozie – správa workflow, závislosti, daisy chain
  • Nasazení, konfigurace, cluster management, upgrade atd. (sys admin): Ambari
  • V cloudu: Whirr

Den-2: Sraz-3: Prediktivní analýza v Business Intelligence -1: Základní techniky a BI založené na strojovém učení:

  • Úvod do strojového učení
  • Techniky klasifikace
  • Bayesovsky predikce – příprava trénovací souboru
  • Support Vector Machine
  • KNN p-Tree Algebra a vertikální těžba
  • Neuronové sítě
  • Big Data problém velké variability – Náhodný les (RF)
  • Big Data automatizační problém – Multimodelový soubor RF
  • Automatizace prostřednictvím Soft10-M
  • Nástroj pro textovou analýzu – Treeminer
  • Agile learning
  • Agent-based learning
  • Distribuované učení
  • Úvod do open source nástrojů pro prediktivní analýzu: R, Rapidminer, Mahut

Den-2: Sraz-4 Prediktivní ekosystém-2: Běžné problémy prediktivní analýzy ve státních orgánech

  • Insightová analýza
  • Vizualizační analýza
  • Strukturovaná prediktivní analýza
  • Nestrukturovaná prediktivní analýza
  • Profilace hrozeb/podvodů/dodavatelů
  • Doporučovací motor
  • Detekce vzorů
  • Odhalení pravidel/scénářů – selhání, podvod, optimalizace
  • Odhalení hlavní příčiny
  • Analýza sentimentu
  • CRM analýza
  • Sítová analýza
  • Textová analýza
  • Technologie asistované revize (TAR)
  • Analýza podvodu
  • Reálně časová analýza

Den-3: Sraz-1 : Reálně časová a škálovatelná analýza nad Hadoopem

  • Proč běžné algoritmy analytických metod selhávají v Hadoopu/HDFS
  • Apache Hama – pro bulk synchronní distribuované výpočty
  • Apache SPARK – pro clusterové výpočty pro reálně časovou analýzu
  • CMU Graphics Lab2 – grafický asynchronní přístup k distribuovaným výpočtům
  • KNN p-Algebra založený přístup od Treeminer pro snížení nákladů na hardware operace

Den-3: Sraz-2: Nástroje pro eDiscovery a forenziční analýzu

  • eDiscovery nad Big Data vs. legacy daty – srovnavací analýza nákladů a výkonu
  • Prediktivní kódování a technologie asistovaná revize (TAR)
  • Živá demonstrace produktu TAR (vMiner) pro rychlejší odhalení
  • Rychlé indexování prostřednictvím HDFS – rychlost dat
  • NLP nebo zpracování přirozeného jazyka – různé techniky a open source produkty
  • eDiscovery v cizích jazycích – technologie pro zpracování cizích jazyků

Den-3: Sraz 3: Big Data BI pro kybernetickou bezpečnost – pochopení celkového pohledu od rychlé sběr dat k identifikaci hrozeb

  • Pochopení základů analytických metod bezpečnosti – útočný povrch, špatně nakonfigurovaná bezpečnost, obranné mechanismy hostitelského zařízení
  • Sítová infrastruktura/Large datapipe/Response ETL pro reálně časovou analýzu
  • Preskriptivní vs prediktivní – pevně definované pravidla vs automatické odhalení pravidel hrozeb z metadata

Den-3: Sraz 4: Big Data v USDA: Aplikace v zemědělství

  • Úvod do IoT (Internet of Things) pro zemědělství – senzorová Big Data a řízení
  • Úvod do satelitních snímků a jejich aplikace v zemědělství
  • Integrace senzorových a obrazových dat pro ovoz půdy, doporučení k pěstování a prognózy
  • Pojišťovnictví v zemědělství a Big Data
  • Prognóza ztráty úrodu

Den-4: Sraz-1: BI pro prevenci podvodu ze Big Data ve státních orgánech – analýza podvodu:

  • Základní klasifikace analýzy podvodu – pravidlozaložené vs prediktivní analytické metody
  • Supervizované vs ne-supervizované strojové učení pro detekci vzorů podvodu
  • Podvod od dodavatelů/úpravy nákladů za projekty
  • Medicare a Medicaid podvod – techniky detekce podvodu při zpracování požadavků
  • Podvody s náhradou cestovních výdajů
  • Podvody s daňovými restitucemi IRS
  • Kde jsou k dispozici data, budou poskytnuty případové studie a živá demonстраce.

Den-4: Sraz-2: Analýza sociálních médií – sběr informací a analýza

  • API pro extrakci dat z sociálních médií v Big Data ETL
  • Text, obrázky, metadata a video
  • Analýza sentimentu z krmení sociálních médií
  • Kontextové a nekontextové filtry pro krmení sociálních médií
  • Řídicí panel sociálních médií pro integraci různých sociálních médií
  • Automatizované profilování sociálních médií
  • Živá demonстраce každé analýzy bude provedena prostřednictvím nástroje Treeminer.

Den-4: Sraz-3: Big Data analýza v zpracování obrazu a videokrmení

  • Techniky ukládání obrázků v Big Data – řešení pro úložiště dat překračujících petabytes
  • LTFS a LTO
  • GPFS-LTFS (Vrstvené řešení pro úložiště velkých obrázkových dat)
  • Základy analýzy obrazu
  • Rozpoznávání objektů
  • Segmentace obrázku
  • Sledování pohybu
  • 3D rekonstrukce obrázků

Den-4: Sraz-4: Aplikace Big Data v NIH:

  • Nové oblasti bioinformatiky
  • Metagenomika a problémy těžby dat Big Data
  • Prediktivní analýza Big Data pro farmakogenomiku, metabolomiku a proteomiku
  • Big Data v dolním proudu genomického procesu
  • Aplikace prediktivní analýzy Big Data ve veřejném zdravotnictví

Řídicí panel Big Data pro rychlý přístup k rozmanitým datům a jejich zobrazování:

  • Integrace existující aplikací s řídicím panely Big Data
  • Správa Big Data
  • Případová studie řídicího panelu Big Data: Tableau a Pentaho
  • Použití aplikace Big Data pro poskytování lokací založených služeb ve státních orgánech
  • Sledovací systém a management

Den-5: Sraz-1: Jak ospravedlnit implementaci Big Data BI v organizaci:

  • Definování ROI pro implementaci Big Data
  • Případové studie ušetření času analytiků při sběru a přípravě dat – zvýšení produktivity
  • Případové studie ušetření nákladů na licencované databáze
  • Užitky z lokací založených služeb
  • Ušetření díky prevenci podvodu
  • Integrální přístup tabulového procesoru k výpočtu přibližných nákladů vs. užitků/slev z implementace Big Data.

Den-5: Sraz-2: Krokový postup k nahrazení legacy datového systému systémem Big Data:

  • Praktická cesta migrace Big Data
  • Jaké informace jsou důležité před architekturální implementací Big Data
  • Různé způsoby výpočtu objemu, rychlosti, variety a pravdivosti dat
  • Jak odhadovat růst dat
  • Případové studie

Den-5: Sraz 4: Revize dodavatelů Big Data a revize jejich produktů. Q/A sezení:

  • Accenture
  • APTEAN (dříve CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dříve 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (součást EMC)

Požadavky

  • Základní znalosti obchodního provozu a datových systémů ve státních orgánech v rámci jejich domény
  • Základní znalost SQL/Oracle nebo relační databáze
  • Základní znalost statistiky (na úrovni tabulových procesorů)
 35 hodiny

Počet účastníků


Cena za účastníka

Reference (1)

Nadcházející kurzy

Související kategorie