Návrh Školení

Úvod do datové vědy pro analýzu velkých dat

  • Přehled datové vědy
  • Přehled velkých dat (Big Data)
  • Data Structures (Datové struktury)
  • Motivace a složitosti velkých dat
  • Ekosystém velkých dat a nový přístup k analýze
  • Klíčové technologie v oblasti velkých dat
  • Proces těžby dat (Data Mining) a problémy
    • Těžba asociace
    • Klasterování dat
    • Detekce odlehlých hodnot
    • Klasifikace dat

Úvod do životního cyklu analýzy dat

  • Objevování (Discovery)
  • Příprava dat
  • Plánování modelů
  • Vytváření modelů
  • Prezentace/komunikace výsledků
  • Použití (Operationalization)
  • Cvičení: Případová studie

Od tohoto bodu se na příkladech a cvičeních v R a souvisejících technologiích velkých dat bude věnovat většina tréninkového času (80%).

Začínáme s R

  • Nainstalování R a Rstudio
  • Vlastnosti jazyka R
  • Objekty v R
  • Data v R
  • Manipulace s daty
  • Problémy velkých dat
  • Cvičení

Začínáme s Hadoopem

  • Nainstalování Hadoopu
  • Pochopení režimů Hadoopu
  • HDFS (Hadoop Distributed File System)
  • Architektura MapReduce
  • Přehled projektů souvisejících s Hadoopem
  • Psaní programů v Hadoop MapReduce
  • Cvičení

Integrace R a Hadoopu pomocí RHadoopu

  • Komponenty RHadoopu
  • Nainstalování RHadoopu a připojení k Hadoopu
  • Architektura RHadoopu
  • Použití R pro streamování v Hadoopu
  • Řešení problémů analýzy dat pomocí RHadoopu
  • Cvičení

Předzpracování a příprava dat

  • Kroky při přípravě dat
  • Vyťažení znaků (Feature extraction)
  • Očištění dat
  • Integrace a transformace dat
  • Kvalitativní redukce – výběr vzorku, výběr podmnožiny znaků,
  • Redukce dimenzionality
  • Diskretizace a binning
  • Cvičení a případová studie

Pozorovací metody analýzy dat v R

  • Popisné statistiky
  • Pozorovací analýza dat (Exploratory data analysis)
  • Vizualizace – počáteční kroky
  • Vizualizace jedné proměnné
  • Kontrola vztahů mezi více proměnnými
  • Statistické metody pro hodnocení
  • Testování hypotéz
  • Cvičení a případová studie

Vizualizace dat

  • Základní vizualizace v R
  • Balíčky pro vizualizaci dat ggplot2, lattice, plotly, lattice
  • Formátování grafů v R
  • Pokročilé grafy
  • Cvičení

Regrésní analýza (odhadování budoucích hodnot)

  • Lineární regrese
  • Případy použití
  • Popis modelu
  • Diagnostics (Diagnostics)
  • Problémy s lineární regresí
  • Metody zmenšování, hřebenová regrese, Lasso
  • Generalizace a nelinearity
  • Regrésní spliny
  • Místní polynomiální regrese
  • Přidané modely (Generalized additive models)
  • Regrésní analýza s RHadoopem
  • Cvičení a případová studie

Klasifikace

  • Problémy související s klasifikací
  • Přehled Bayesova principu
  • Naivní Bayesovská klasifikace (Naïve Bayes)
  • Logistická regrese
  • K-nejbližších sousedů (K-nearest neighbors)
  • Algoritmus rozhodovacích stromů (Decision trees algorithm)
  • Neuronové sítě
  • Vektorové podpory stroje (Support vector machines)
  • Diagnostics třídících modelů
  • Porovnání metod klasifikace
  • Škálovatelné algoritmy pro klasifikaci
  • Cvičení a případová studie

Oceňování výkonu modelů a jejich výběr

  • Vychylení, variance a složitost modelu
  • Přesnost vs. interpretovatelnost
  • Hodnocení klasifikátorů
  • Měřítka výkonu modelu/algorithmu
  • Metoda zadržení (Hold-out method of validation)
  • Křížové ověřování (Cross-validation)
  • Nastavování algoritmů strojového učení s balíčkem caret
  • Vizualizace výkonu modelu pomocí křivých ROC a Lift

Spojité metody (Ensemble Methods)

  • Balení (Bagging)
  • Náhodné lesy (Random Forests)
  • Předvádění (Boosting)
  • Gradientové předvádění (Gradient boosting)
  • Cvičení a případová studie

Vektorové podpory stroje pro klasifikaci a regresi

  • Klasifikátory s maximálním rozdílem (Maximal Margin classifiers)
    • Vektorové podpory klasifikátory (Support vector classifiers)
    • Vektorové podpory stroje (Support vector machines)
    • SVM pro problémy klasifikace
    • SVM pro problémy regrese
  • Cvičení a případová studie

Identifikace neznámých skupin v datovém souboru

  • Výběr znaků pro klasterování (Feature Selection for Clustering)
  • Algoritmy založené na reprezentacích: k-means, k-medoids
  • Hierarchické algoritmy: aglomerativní a disjunkční metody
  • Pravděpodobnostní base algoritmy: EM (Expectation-Maximization)
  • Denzitní algoritmy: DBSCAN, DENCLUE
  • Ověřování klastů (Cluster validation)
  • Pokročilé koncepty klasterování
  • Klasterování s RHadoopem
  • Cvičení a případová studie

Zjišťování vztahů pomocí analýzy odkazů (Link Analysis)

  • Koncepty analýzy odkazů
  • Metryky pro analýzu sítí
  • Algoritmus PageRanku
  • Hodnocení tématické hledání pomocí hyperlinks (Hyperlink-Induced Topic Search)
  • Predikce odkazů (Link Prediction)
  • Cvičení a případová studie

Těžba asociace (Association Pattern Mining)

  • Model těžby častých vzorů (Frequent Pattern Mining Model)
  • Problémy škálovatelnosti v těžbě častých vzorů
  • Bruteforce algoritmy
  • Algoritmus Apriori
  • Přístup FP growth
  • Hodnocení kandidátních pravidel (Evaluation of Candidate Rules)
  • Aplikace asociativních pravidel (Applications of Association Rules)
  • Ověřování a testování
  • Diagnostics
  • Těžba asociací s R a Hadoopem
  • Cvičení a případová studie

Vytváření doporučovacích systémů (Constructing recommendation engines)

  • Pochopení doporučovacích systémů
  • Dataminingové techniky používané v doporučovacích systémech
  • Doporučovací systémy s balíčkem recommenderlab
  • Hodnocení doporučovacích systémů
  • Doporučování s RHadoopem
  • Cvičení: Vytváření doporučovacího systému

Analýza textu (Text analysis)

  • Kroky analýzy textu
  • Sběr surových textů
  • Túrová reprezentace (Bag of words)
  • Frekvenční hodnocení – inverzní frekvence dokumentu (Term Frequency –Inverse Document Frequency)
  • Určování sentimentů
  • Cvičení a případová studie
 35 hodiny

Počet účastníků


Cena za účastníka

Reference (2)

Nadcházející kurzy

Související kategorie