Návrh Školení

Úvod do analýzy dat a big data

  • Co dělá Big Data „velkým“?
    • Rychlost, objem, variabilita, pravdivost (VVVV)
  • Omezení tradičního zpracování dat
  • Distribuované zpracování
  • Statistická analýza
  • Druhy analýzy strojového učení
  • Data visualization (vizualizace dat)

Roli a odpovědnosti v big data

  • Správci
  • Vývojáři
  • Analýti dat

Jazyky používané pro analýzu dat

  • R Jazyk
    • Proč R pro analýzu dat?
    • Manipulace s daty, výpočty a grafická prezentace
  • Python
    • Proč Python pro analýzu dat?
    • Manipulace, zpracování, čištění a analýza dat

Přístupy k analýze dat

  • Statistická analýza
    • Analyza časových řad
    • Predikce s modely korelace a regrese
    • Inferenční statistika (odhad)
    • Deskriptivní statistika v velkých datových souborech (např. výpočet průměru)
  • Strojové učení
    • Dohledávané vs. nedohledávané učení
    • Klasifikace a shlukování
    • Odhad nákladů specifických metod
    • Filtrování
  • Zpracování přirozeného jazyka
    • Zpracování textu
    • Chápání významu textu
    • Automatická generace textu
    • Sentimentální analýza / tématická analýza
  • Počítačové vidění
    • Získání, zpracování, analýza a chápání obrazů
    • Rekonstrukce, interpretace a chápání 3D scén
    • Využití dat obrazu k rozhodování

Infrastruktura big data

  • Úložiště dat
    • Vztahové databáze (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Nevztahové databáze (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Pochopení nuancí
      • Hierarchické databáze
      • Objektově orientované databáze
      • Dokumentově orientované databáze
      • Graficky orientované databáze
      • Jiné
  • Distribuované zpracování
    • Hadoop
      • HDFS jako distribuovaný souborový systém
      • MapReduce pro distribuované zpracování
    • Spark
      • Celkový rámec v paměti pro cluster computing při velkých datových souborech
      • Strukturovaná streamování
      • Spark SQL
      • Bibliotéky strojového učení: MLlib
      • Grafické zpracování s GraphX
  • Škálovatelnost
    • Veřejné cloudu
      • AWS, Google, Aliyun atd.
    • Soukromé cloudu
      • OpenStack, Cloud Foundry atd.
    • Automatická škálovatelnost

Výběr správného řešení pro problém

Budoucnost big data

Souhrn a další kroky

Požadavky

  • Základní znalost matematiky
  • Základní znalost programování
  • Základní znalost databází

Cílová skupina

  • Vývojáři / programátoři
  • Konzultanti IT
 35 hodiny

Počet účastníků


Cena za účastníka

Reference (7)

Nadcházející kurzy

Související kategorie