Návrh Školení

Úvod do strojového učení

  • Druhy strojového učení – nadzorované vs. nenadzorované
  • Přechod od statistického učení k strojovému učení
  • Pracovní postup datové těžby: obchodní porozumění, příprava dat, modelování, nasazení
  • Výběr správného algoritmu pro úlohu
  • Přepoučení a kompromis mezi předpojením a variací (bias-variance tradeoff)

Úvod do Pythonu a knihoven strojového učení

  • Proč používat programovací jazyky pro ML
  • Výběr mezi R a Pythonem
  • Základní kurz Pythonu a Jupyter Notebooks
  • Python knihovny: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testování a hodnocení algoritmů strojového učení

  • Generalizace, přepoučení a ověřování modelu
  • Hodnoticí strategie: holdout, křížová validace, bootstrapping
  • Metrice pro regresi: ME, MSE, RMSE, MAPE
  • Metrice pro klasifikaci: přesnost (accuracy), matice záměn (confusion matrix), nezvážené třídy (unbalanced classes)
  • Vizualizace výkonnosti modelu: profitová křivka, ROC křivka, lift křivka
  • Výběr modelu a síťové hledání pro jemné nastavení (grid search for tuning)

Příprava dat

  • Import a úložiště dat v Pythonu
  • Explorační analýza a shrnovací statistiky
  • Zpracování chybějících hodnot a odlehlých pozorování (outliers)
  • Standardizace, normalizace a transformace
  • Překódování kvalitativních dat a datové přetváření s pandas

Klasifikační algoritmy

  • Binární vs. více třídová klasifikace (binary vs multiclass classification)
  • Logistická regrese a diskriminační funkce
  • Naïve Bayes, k nejbližších sousedů (k-nearest neighbors)
  • Rozhodovací stromy: CART, náhodné lesy (Random Forests), bagging, boosting, XGBoost
  • Podporovací vektory a jádra (Support Vector Machines and kernels)
  • Techniky ensemble učení

Regrese a numerická predikce

  • Méně čtverečků (least squares) a výběr proměnných
  • Regularizační metody: L1, L2
  • Polynomiální regrese a nelinární modely
  • Regresní stromy a spliny (splines)

Nenadzorované učení

  • Klastičné techniky: k-means, k-medoids, hierarchické klastičení, SOMs
  • Redukce dimenzionality: PCA, faktorová analýza, SVD
  • Multidimenzionální škálování (multidimensional scaling)

Těžba textu (Text Mining)

  • Předzpracování a tokenizace textu
  • Pytle slov, stemming a lemmatization
  • Sentiment analýza a frekvence slov
  • Vizualizace textových dat pomocí word clouds (oblačků slov)

Doporučovací systémy

  • Uživatelská a položková spolufiltrace (user-based and item-based collaborative filtering)
  • Návrh a hodnocení doporučovacích motorů (recommendation engines)

Těžba asociativních vzorců

  • Časté množiny položek a algoritmus Apriori
  • Analyza košíku nákupu a lift ratio

Vyčleňování odlehlých pozorování (Outlier Detection)

  • Analýza extrémních hodnot
  • Metody založené na vzdálenosti a hustotě
  • Vyčleňování odlehlých pozorování ve vysoko-rozměrových datech

Případová studie strojového učení

  • Porozumění obchodnímu problému
  • Příprava dat a inženýrství vlastností (feature engineering)
  • Výběr modelu a jemné nastavení parametrů (parameter tuning)
  • Hodnocení a prezentace zjistění
  • Nasazení

Závěr a další kroky

Požadavky

  • Základní znalost statistiky a lineární algebry
  • Oboznámení se základy analýzy dat nebo koncepty business intelligence
  • Doporučuje se mít nějaké zkušenosti s programováním (ideálně Pythonem nebo R)
  • Zájem o naučení se aplikovanému strojovému učení pro data-orientované projekty

Cílová skupina

  • Data analytici a vědci
  • Statistici a výzkumní pracovníci
  • Vývojáři a IT profesionálové, kteří se zkoumají nástroje pro strojové učení
  • Kdokoliv zapojený do projektů datové vědy nebo prediktivní analýzy
 21 hodiny

Počet účastníků


Cena za účastníka

Reference (3)

Nadcházející kurzy

Související kategorie