Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Každý sraz trvá 2 hodiny
Den-1: Sraz -1: Obchodní přehled proč Big Data Business Intelligence ve státních orgánech
- Případové studie z NIH, DoE
- Adopce Big Data v státních orgánech a jejich přizpůsobení budoucím operacím na základě prediktivní analýzy dat
- Rozsáhlé oblasti aplikace v DoD, NSA, IRS, USDA atd.
- Integrování Big Data s legacy data
- Základní pochopení enable technologií v prediktivní analýze dat
- Integrace dat a vizualizace na řídicím panelu
- Správa podvodu
- Generování pravidel obchodních operací / detekce podvodu
- Detekce a profilace hrozeb
- Analýza nákladů a výhod pro implementaci Big Data
Den-1: Sraz-2 : Úvod do Big Data-1
- Hlavní charakteristiky Big Data – objem, variety, rychlost a pravdivost. Architektura MPP pro objem.
- Datové skladovy – statická schémata, pomalu se měnící datasety
- Databázové systémy MPP jako Greenplum, Exadata, Teradata, Netezza, Vertica atd.
- Řešení na bázi Hadoopu – bez podmínek na strukturu datasetu.
- Typický vzor: HDFS, MapReduce (crunch), extrahování z HDFS
- dávka – vhodná pro analytické/ned interaktivní úkoly
- objem: CEP proudící data
- Typické volby – produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
- Méně připravené na výrobu – Storm/S4
- NoSQL databáze – (sloupcové a key-value): Nejlépe vyhovují jako analytické doplnění datových skladů/databází
Den-1: Sraz -3 : Úvod do Big Data-2
NoSQL řešení
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchický) - GT.m, Cache
- KV Store (Uspořádaný) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variace dat: Úvod do problému čištění dat v Big Data
- RDBMS – statická struktura/schéma, neuspokojuje agilní a průzkumný prostředí.
- NoSQL – polostrukturované, dostatečně strukturované k ukládání dat bez přesného schématu před uložením
- Problémy s čištěním dat
Den-1: Sraz-4 : Úvod do Big Data-3: Hadoop
- Kdy vybrat Hadoop?
- STRUKTUROVANÁ - podnikové datové skladovy/databáze mohou ukládat obrovské objemy dat (s náklady), ale impození struktury (nepodobné pro aktivní průzkum)
- POLOSTRUKTUROVANÁ data – těžké zvládnout s tradičními řešeními (DW/DB)
- Vytvořování datových skladů = obrovská námaha a statické i po implementaci
- Pro variety a objem dat, zpracovaný na commodity hardwaru – HADOOP
- Potřeba commodity HW pro vytvoření clusteru Hadoopu
Úvod do Map Reduce/HDFS
- MapReduce – distribuované výpočty přes více serverů
- HDFS – udržení dat místně pro proces výpočtu (s redundantními kopie)
- Data – mohou být nestrukturovaná/bez schématu (na rozdíl od RDBMS)
- Vývojářovská odpovědnost za dělátko dat
- Programování MapReduce = práce s Javou (výhody/nevýhody), manuální nahrávání dat do HDFS
Den-2: Sraz-1: Ekosystém Big Data-Budování Big Data ETL: vesmír Big Data nástrojů – který vybrat a kdy?
- Hadoop vs. jiná NoSQL řešení
- Pro interaktivní, náhodný přístup k datům
- Hbase (sloupcová databáze) na bázi Hadoopu
- Náhodný přístup k datům, ale s omezeními (max 1 PB)
- Nesnadné pro ad-hoc analýzu, vhodné pro logging, počítání, časové řady
- Sqoop - Import z databází do Hive nebo HDFS (přístup JDBC/ODBC)
- Flume – proudová data (např. logy) do HDFS
Den-2: Sraz-2: Správa systému Big Data
- Součásti, výpočetní uzly startují/spadají: ZooKeeper – pro konfiguraci/koordinaci/jmenovací služby
- Komplexní pipeline/workflow: Oozie – správa workflow, závislosti, daisy chain
- Nasazení, konfigurace, cluster management, upgrade atd. (sys admin): Ambari
- V cloudu: Whirr
Den-2: Sraz-3: Prediktivní analýza v Business Intelligence -1: Základní techniky a BI založené na strojovém učení:
- Úvod do strojového učení
- Techniky klasifikace
- Bayesovsky predikce – příprava trénovací souboru
- Support Vector Machine
- KNN p-Tree Algebra a vertikální těžba
- Neuronové sítě
- Big Data problém velké variability – Náhodný les (RF)
- Big Data automatizační problém – Multimodelový soubor RF
- Automatizace prostřednictvím Soft10-M
- Nástroj pro textovou analýzu – Treeminer
- Agile learning
- Agent-based learning
- Distribuované učení
- Úvod do open source nástrojů pro prediktivní analýzu: R, Rapidminer, Mahut
Den-2: Sraz-4 Prediktivní ekosystém-2: Běžné problémy prediktivní analýzy ve státních orgánech
- Insightová analýza
- Vizualizační analýza
- Strukturovaná prediktivní analýza
- Nestrukturovaná prediktivní analýza
- Profilace hrozeb/podvodů/dodavatelů
- Doporučovací motor
- Detekce vzorů
- Odhalení pravidel/scénářů – selhání, podvod, optimalizace
- Odhalení hlavní příčiny
- Analýza sentimentu
- CRM analýza
- Sítová analýza
- Textová analýza
- Technologie asistované revize (TAR)
- Analýza podvodu
- Reálně časová analýza
Den-3: Sraz-1 : Reálně časová a škálovatelná analýza nad Hadoopem
- Proč běžné algoritmy analytických metod selhávají v Hadoopu/HDFS
- Apache Hama – pro bulk synchronní distribuované výpočty
- Apache SPARK – pro clusterové výpočty pro reálně časovou analýzu
- CMU Graphics Lab2 – grafický asynchronní přístup k distribuovaným výpočtům
- KNN p-Algebra založený přístup od Treeminer pro snížení nákladů na hardware operace
Den-3: Sraz-2: Nástroje pro eDiscovery a forenziční analýzu
- eDiscovery nad Big Data vs. legacy daty – srovnavací analýza nákladů a výkonu
- Prediktivní kódování a technologie asistovaná revize (TAR)
- Živá demonstrace produktu TAR (vMiner) pro rychlejší odhalení
- Rychlé indexování prostřednictvím HDFS – rychlost dat
- NLP nebo zpracování přirozeného jazyka – různé techniky a open source produkty
- eDiscovery v cizích jazycích – technologie pro zpracování cizích jazyků
Den-3: Sraz 3: Big Data BI pro kybernetickou bezpečnost – pochopení celkového pohledu od rychlé sběr dat k identifikaci hrozeb
- Pochopení základů analytických metod bezpečnosti – útočný povrch, špatně nakonfigurovaná bezpečnost, obranné mechanismy hostitelského zařízení
- Sítová infrastruktura/Large datapipe/Response ETL pro reálně časovou analýzu
- Preskriptivní vs prediktivní – pevně definované pravidla vs automatické odhalení pravidel hrozeb z metadata
Den-3: Sraz 4: Big Data v USDA: Aplikace v zemědělství
- Úvod do IoT (Internet of Things) pro zemědělství – senzorová Big Data a řízení
- Úvod do satelitních snímků a jejich aplikace v zemědělství
- Integrace senzorových a obrazových dat pro ovoz půdy, doporučení k pěstování a prognózy
- Pojišťovnictví v zemědělství a Big Data
- Prognóza ztráty úrodu
Den-4: Sraz-1: BI pro prevenci podvodu ze Big Data ve státních orgánech – analýza podvodu:
- Základní klasifikace analýzy podvodu – pravidlozaložené vs prediktivní analytické metody
- Supervizované vs ne-supervizované strojové učení pro detekci vzorů podvodu
- Podvod od dodavatelů/úpravy nákladů za projekty
- Medicare a Medicaid podvod – techniky detekce podvodu při zpracování požadavků
- Podvody s náhradou cestovních výdajů
- Podvody s daňovými restitucemi IRS
- Kde jsou k dispozici data, budou poskytnuty případové studie a živá demonстраce.
Den-4: Sraz-2: Analýza sociálních médií – sběr informací a analýza
- API pro extrakci dat z sociálních médií v Big Data ETL
- Text, obrázky, metadata a video
- Analýza sentimentu z krmení sociálních médií
- Kontextové a nekontextové filtry pro krmení sociálních médií
- Řídicí panel sociálních médií pro integraci různých sociálních médií
- Automatizované profilování sociálních médií
- Živá demonстраce každé analýzy bude provedena prostřednictvím nástroje Treeminer.
Den-4: Sraz-3: Big Data analýza v zpracování obrazu a videokrmení
- Techniky ukládání obrázků v Big Data – řešení pro úložiště dat překračujících petabytes
- LTFS a LTO
- GPFS-LTFS (Vrstvené řešení pro úložiště velkých obrázkových dat)
- Základy analýzy obrazu
- Rozpoznávání objektů
- Segmentace obrázku
- Sledování pohybu
- 3D rekonstrukce obrázků
Den-4: Sraz-4: Aplikace Big Data v NIH:
- Nové oblasti bioinformatiky
- Metagenomika a problémy těžby dat Big Data
- Prediktivní analýza Big Data pro farmakogenomiku, metabolomiku a proteomiku
- Big Data v dolním proudu genomického procesu
- Aplikace prediktivní analýzy Big Data ve veřejném zdravotnictví
Řídicí panel Big Data pro rychlý přístup k rozmanitým datům a jejich zobrazování:
- Integrace existující aplikací s řídicím panely Big Data
- Správa Big Data
- Případová studie řídicího panelu Big Data: Tableau a Pentaho
- Použití aplikace Big Data pro poskytování lokací založených služeb ve státních orgánech
- Sledovací systém a management
Den-5: Sraz-1: Jak ospravedlnit implementaci Big Data BI v organizaci:
- Definování ROI pro implementaci Big Data
- Případové studie ušetření času analytiků při sběru a přípravě dat – zvýšení produktivity
- Případové studie ušetření nákladů na licencované databáze
- Užitky z lokací založených služeb
- Ušetření díky prevenci podvodu
- Integrální přístup tabulového procesoru k výpočtu přibližných nákladů vs. užitků/slev z implementace Big Data.
Den-5: Sraz-2: Krokový postup k nahrazení legacy datového systému systémem Big Data:
- Praktická cesta migrace Big Data
- Jaké informace jsou důležité před architekturální implementací Big Data
- Různé způsoby výpočtu objemu, rychlosti, variety a pravdivosti dat
- Jak odhadovat růst dat
- Případové studie
Den-5: Sraz 4: Revize dodavatelů Big Data a revize jejich produktů. Q/A sezení:
- Accenture
- APTEAN (dříve CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dříve 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (součást EMC)
Požadavky
- Základní znalosti obchodního provozu a datových systémů ve státních orgánech v rámci jejich domény
- Základní znalost SQL/Oracle nebo relační databáze
- Základní znalost statistiky (na úrovni tabulových procesorů)
35 hodiny
Reference (1)
Schopnost vedenáře vyhovět požadavkům organizace při přizpůsobení kurzu, a ne jen ho poskytnout pro formální splnění povinnosti.
Masilonyane - Revenue Services Lesotho
Kurz - Big Data Business Intelligence for Govt. Agencies
Přeloženo strojem