Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Každá seance trvá 2 hodiny
Den-1: Seance -1: Obchodní přehled proč Big Data Business Intelligence ve vládě
- Případové studie z NIH, DoE
- Adaptace Big Data ve vládních agenturách a jak se přizpůsobují budoucí operacím na základě prediktivní analýzy Big Data
- Rozsáhlé oblasti aplikace v DoD, NSA, IRS, USDA atd.
- Integrování Big Data s legacy daty
- Základní znalost povolujících technologií v prediktivní analýze
- Integrace dat a vizualizace na řídicím panelu
- Správa podvodů
- Generování pravidel pro detekci podvodů
- Detekce a profilace hrozeb
- Analýza nákladů a přínosů implementace Big Data
Den-1: Seance-2 : Úvod do Big Data-1
- Hlavní charakteristiky Big Data - objem, variety, rychlost a důvěrnost. MPP architektura pro objem.
- Datové skladovy - statická schéma, pomalu se měnící soubor dat
- MPP databáze jako Greenplum, Exadata, Teradata, Netezza, Vertica atd.
- Řešení založená na Hadoopu - bez podmínek na strukturu souboru dat.
- Typický vzor: HDFS, MapReduce (zpracování), získání dat z HDFS
- Zpracování dávkami - vhodné pro analytické/neninteraktivní účely
- Objem: CEP streamování dat
- Typická volba - produkty CEP (např. Infostreams, Apama, MarkLogic atd.)
- Méně připravené na produkční použití - Storm/S4
- NoSQL databáze - (sloupcová a key-value): Nejlépe vhodné jako analytický doplněk k datovému skladu/databázi
Den-1: Seance -3 : Úvod do Big Data-2
NoSQL řešení
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchický) - GT.m, Cache
- KV Store (Seřazený) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Různé typy dat: Úvod do problémů čištění dat v Big Data
- RDBMS - statická struktura/schéma, nepodporuje agilní a průzkumné prostředí.
- NoSQL - semi strukturovaná, dostatečně strukturovaná k ukládání dat bez přesného schématu před uložením
- Problémy s čištěním dat
Den-1: Seance-4 : Úvod do Big Data-3: Hadoop
- Kdy vybrat Hadoop?
- STRUKTUROVANÁ - Podnikové datové skladovy/databáze mohou ukládat obrovské objemy dat (za cenu), ale vynucují strukturu (nevhodné pro aktivní průzkum)
- SEMI STRUKTUROVANÁ data - těžké zpracovat s tradičními řešeními (DW/DB)
- Ukládání dat = obrovský úsilí a statické i po implementaci
- Pro variety & objem dat, zpracovávaných na low-cost hardwaru - HADOOP
- Low-cost HW potřebný k vytvoření clusteru Hadoop
Úvod do MapReduce/HDFS
- MapReduce - distribuované zpracování na více serverech
- HDFS - ukládání dat místně pro výpočetní proces (s redundantností)
- Data - mohou být nestrukturované/bez schématu (na rozdíl od RDBMS)
- Vývojářská odpovědnost za význam dat
- Programování MapReduce = práce s Javou (výhody/nedostatky), ruční načítání dat do HDFS
Den-2: Seance-1: Ekosystém Big Data - Vytvoření ETL pro Big Data: univerzum nástrojů Big Data - který použít a kdy?
- Hadoop vs. ostatní NoSQL řešení
- Pro interaktivní, náhodný přístup k datům
- Hbase (sloupcová databáze) na vrcholu Hadoopu
- Náhodný přístup k datům, ale s omezeními (max 1 PB)
- Nesnadné pro ad-hoc analýzu, dobré pro logging, počítání, časové řady
- Sqoop - Import dat z databází do Hive nebo HDFS (JDBC/ODBC přístup)
- Flume - Streamování dat (např. logovacích dat) do HDFS
Den-2: Seance-2: Systém správy Big Data
- Hýbající se části, výpočetní uzly startují/spadají: ZooKeeper - pro konfiguraci/koordinaci/nazvování služeb
- Složitá datová přípojka/pracovní postup: Oozie - správa pracovního postupu, závislostí, sekvencí
- Nasazení, konfigurace, správa clusteru, upgrade atd. (admin systému): Ambari
- V cloudu: Whirr
Den-2: Seance-3: Prediktivní analýza v Business Intelligence -1: Základní techniky a machine learning:
- Úvod do machine learningu
- Učení klasifikačních technik
- Bayesovská predikce - příprava trénovací souboru
- Support Vector Machine (SVM)
- KNN p-Tree Algebra & vertikální těžba dat
- Neuronové sítě
- Big Data a problém velkých proměnných - Random Forest (RF)
- Automatizace přes více modelů - Multi-model ensemble RF
- Automatizace prostřednictvím Soft10-M
- Nástroj pro textovou analýzu - Treeminer
- Agile učení
- Agent-based learning
- Distribuované učení
- Úvod do open source nástrojů pro prediktivní analýzu: R, Rapidminer, Mahout
Den-2: Seance-4 Prediktivní ekosystém -2: Běžné problémy prediktivní analýzy ve vládě
- Insight analytika
- Vizualizační analytika
- Strukturovaná prediktivní analytika
- Nestrukturovaná prediktivní analytika
- Profilace hrozeb/podvodů/poskytovatelů služeb
- Doporučovací systém
- Detekce vzorů
- Zjišťování pravidel/scenářů - selhání, podvod, optimalizace
- Detekce kořenových příčin
- Analýza názorů (sentiment analysis)
- CRM analytika
- Sítěová analytika
- Textová analýza
- Technologie asistované revize (TAR)
- Analýza podvodů
- Reálně časová analytika
Den-3: Seance-1: Reálně časová a škálovatelná analýza nad Hadoopem
- Proč obecné algoritmy analytických metod selhávají v Hadoopu/HDFS
- Apache Hama - pro hromadně synchronní distribuované zpracování
- Apache SPARK - pro clusterové výpočty reálného času
- CMU Graphics Lab2 - grafický asynchronní přístup k distribuovanému zpracování
- Přístup KNN p-Algebra od Treeminer pro snížení nákladů na hardwarovou operaci
Den-3: Seance-2: Nástroje pro eDiscovery a forenziku
- eDiscovery nad Big Data vs. Legacy data - srovnání nákladů a výkonu
- Prediktivní kódování a technologie asistované revize (TAR)
- Živá demo produktu TAR (vMiner) pro rychlejší zjišťování
- Rychlejší indexace prostřednictvím HDFS - rychlost dat
- NLP nebo zpracování přirozeného jazyka - různé techniky a open source produkty
- eDiscovery v cizích jazycích - technologie pro zpracování cizích jazyků
Den-3: Seance-3: Big Data BI pro kybernetickou bezpečnost - Chápání celkového pohledu na rychlé sběry dat až po identifikaci hrozeb
- Základy analýzy bezpečnosti - útočná povrch, bezpečnostní špatné konfigurace, obrana hostitelských systémů
- Síťová infrastruktura/velké datové trubky/ETL pro reálnou časovou analýzu
- Preskriptivní vs prediktivní - pevná pravidla vs automatické zjišťování hrozeb z metadata
Den-3: Seance-4: Big Data v USDA: Aplikace v zemědělství
- Úvod do IoT (Internet of Things) pro zemědělství - senzorová Big Data a kontrola
- Úvod do satelitního snímání a jeho aplikace v zemědělství
- Integrace senzorových a obrazových dat pro úrodnost půdy, doporučení ke klíčovému zpracování a prognózy
- Pojištění v zemědělství a Big Data
- Prognóza ztrát úrod
Den-4: Seance-1: Prevence podvodů BI ze Big Data ve vládě - Analýza podvodů:
- Základní klasifikace analýzy podvodů - pravidla vs prediktivní analytika
- Supervizované vs nesupervizované machine learning pro detekci vzorů podvodů
- Podvody poskytovatelů služeb/přeplacení za projekty
- Medicare a Medicaid - techniky detekce podvodů při zpracování nároků
- Podvody v oplacení cestovních nákladů
- IRS podvody s náhradami z daně
- Budou předány případové studie a živé demo tam, kde jsou data k dispozici.
Den-4: Seance-2: Analýza sociálních médií - sběr a analýza informací
- API ETL Big Data pro extrakci dat z sociálních médií
- Text, obrázek, metadata a video
- Analýza názorů (sentiment analysis) z feedu sociálních médií
- Kontextová a nekontextová filtrace dat z sociálních médií
- Dashboard sociálních médií pro integraci různých sociálních médií
- Automatické profilování uživatelských účtů na sociálních médiích
- Budou předány živá demo každé analýzy prostřednictvím nástroje Treeminer.
Den-4: Seance-3: Big Data analytika v zpracování obrázků a videí
- Techniky ukládání obrázků ve Big Data - řešení pro ukládání dat překračujících petabytes
- LTFS a LTO
- GPFS-LTFS (vrstvené řešení pro ukládání velkých datových souborů)
- Základy analýzy obrázků
- Poznávání objektů
- Segmentace obrázků
- Sledování pohybu
- Rekonstrukce 3D obrazu
Den-4: Seance-4: Aplikace Big Data v NIH:
- Vznikající oblasti bioinformatiky
- Meta-genomika a problémy s těžbou Big Data
- Prediktivní analýza Big Data pro farmakogenomiku, metabolomiku a proteomiku
- Big Data v procesu downstream genomiky
- Aplikace prediktivní analýzy Big Data ve veřejné zdravotnictví
Dashboard Big Data pro rychlý přístup k různým datům a jejich vizualizaci:
- Integrace stávající aplikace s dashboardem Big Data
- Správa Big Data
- Případová studie dashboardu Big Data: Tableau a Pentaho
- Použití aplikace Big Data k poskytování lokálních služeb ve vládě
- Sledovací systém a správa
Den-5: Seance-1: Jak ospravedlnit implementaci Big Data BI v organizaci:
- Definování ROI (návratu z investice) pro implementaci Big Data
- Případové studie ušetření času analytiků při sběru a přípravě dat - nárůst produktivity
- Případové studie zisku příjmů díky úsporám na licencovaných databázích
- Zisk příjmů díky lokálním službám
- Úspory díky prevenci podvodů
- Integrovaný spreadsheetový přístup k výpočtu přibližných nákladů vs. zisku/poušetření díky implementaci Big Data.
Den-5: Seance-2: Krok za krokem postup pro nahrazení legacy systému Big Data systémem:
- Chápání praktického plánu migrace Big Data
- Jaké jsou důležité informace potřebné před architekturální implementací Big Data
- Různé způsoby výpočtu objemu, rychlosti, variety a důvěrnosti dat
- Jak odhadnout nárůst dat
- Případové studie
Den-5: Seance-4: Revize výrobků poskytovatelů Big Data. Q&A session:
- Accenture
- APTEAN (dříve CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dříve 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (součást EMC)
Požadavky
- Základní znalost provozu a datových systémů vlády v dané oblasti
- Základní znalost SQL/Oracle nebo relační databáze
- Základní znalost statistiky (na úrovni tabulkových procesorů)
35 hodiny
Reference (1)
Schopnost školitele sladit kurz s požadavky organizace jinak než jen poskytnout kurz za účelem jeho předání.
Masilonyane - Revenue Services Lesotho
Kurz - Big Data Business Intelligence for Govt. Agencies
Přeloženo strojem