Návrh Školení

Úvod do strojového učení

  • Typy strojového učení – dozorováno vs. nedozorováno
  • Od statistického učení k strojovému učení
  • Pracovní postup datové těžby: pochopení podnikání, příprava dat, modelování, nasazení
  • Volba správného algoritmu pro daný úkol
  • Přetrenování a obchod mezi chybou a rozptylem (bias-variance tradeoff)

Přehled Pythonu a knihoven strojového učení

  • Proč používat programovací jazyky pro ML
  • Volba mezi R a Pythonem
  • Úvod do Pythonu a Jupyter Notebooks
  • Knihovny Pythonu: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testování a hodnocení algoritmů strojového učení

  • Generalizace, přetrenování a ověření modelu
  • Strategie hodnocení: oddílení (holdout), k-tiková validace (cross-validation), bootstrapování (bootstrapping)
  • Metriky pro regresi: ME, MSE, RMSE, MAPE
  • Metriky pro klasifikaci: přesnost (accuracy), matice záměn (confusion matrix), nerovnoměrné třídy (unbalanced classes)
  • Vizualizace výkonu modelu: profit curve, ROC curve, lift curve
  • Volba modelu a podběh pro nastavení parametrů (grid search for tuning)

Příprava dat

  • Import a úložiště dat v Pythonu
  • Explorační analýza a shrnutí statistiky (summary statistics)
  • Zpracování chybějících hodnot a odlehlých bodů (outliers)
  • Standardizace, normalizace a transformace dat
  • Recodifikace kvalitativních dat a manipulace s daty pomocí pandasu (data wrangling with pandas)

Klasifikační algoritmy

  • Binární vs. více třídová klasifikace (binary vs multiclass classification)
  • Logistická regrese a diskriminační funkce
  • Naïve Bayes, k-nearest neighbors (k-nejbližších sousedů)
  • Rozhodové stromy: CART, Random Forests, Bagging, Boosting, XGBoost
  • Support Vector Machines a jádra (kernels)
  • Techniky ensemblového učení (ensemble learning techniques)

Regrese a číselné predikce (numerical prediction)

  • Metoda nejmenších čtverců a výběr proměnných (variable selection)
  • Regularizační metody: L1, L2
  • Polynomiální regrese a nelineární modely
  • Regresní stromy a spliny (splines)

Neuronové sítě

  • Úvod do neuronových sítí a hlubokého učení (deep learning)
  • Aktivační funkce, vrstvy a backpropagation
  • Multilayer Perceptrons (MLP)
  • Použití TensorFlow nebo PyTorch pro základní modelování neuronových sítí
  • Neuronové sítě pro klasifikaci a regresi

Prognózování prodeje a prediktivní analýza (predictive analytics)

  • Time series vs. regrese založené na prognózách (regression-based forecasting)
  • Zpracování sezónních a trendových dat (handling seasonal and trend-based data)
  • Vytvoření modelu pro prognózování prodeje pomocí technik strojového učení (ML techniques)
  • Hodnocení přesnosti prognózy a nejistoty (forecast accuracy and uncertainty)
  • Biznisová interpretace a komunikace výsledků (business interpretation and communication of results)

Nedozorováno učení (Unsupervised Learning)

  • Klastičné techniky: k-means, k-medoids, hierarchické klastiční algoritmy, SOMs (Self-Organizing Maps)
  • Redukce dimenzionality: PCA, faktorová analýza, SVD (Singular Value Decomposition)
  • Multidimenzionální škálování (multidimensional scaling)

Textová analýza (Text Mining)

  • Předzpracování textu a tokenizace (text preprocessing and tokenization)
  • Bag-of-words, stemming a lemmatizace (stemming and lemmatization)
  • Analýza sentimentu a frekvence slov (sentiment analysis and word frequency)
  • Vizualizace textových dat pomocí word clouds (word clouds visualization)

Doporučovací systémy (Recommendation Systems)

  • Uživatelská a položková spolufiltrování (user-based and item-based collaborative filtering)
  • Návrh a hodnocení doporučovacích motorů (designing and evaluating recommendation engines)

Dobyvání asociativních vzorců (Association Pattern Mining)

  • Frekventní množiny a algoritmus Apriori (frequent itemsets and Apriori algorithm)
  • Analýza košíku zákazníka a lift ratio (market basket analysis and lift ratio)

Detekce odlehlých hodnot (Outlier Detection)

  • Analýza extrémních hodnot (extreme value analysis)
  • Metody založené na vzdálenosti a hustotě (distance-based and density-based methods)
  • Detekce odlehlých hodnot ve vysoko-dimenzionálních datech (high-dimensional data)

Pracovní příklad ze světa strojového učení (Machine Learning Case Study)

  • Pochopení biznisového problému (understanding the business problem)
  • Předzpracování dat a vytváření charakteristik (data preprocessing and feature engineering)
  • Volba modelu a optimalizace parametrů (model selection and parameter tuning)
  • Hodnocení a prezentace výsledků (evaluation and presentation of findings)
  • Nasazení (deployment)

Shrnutí a další kroky (Summary and Next Steps)

Požadavky

  • Základní znalost konceptů strojového učení, jako jsou dozorované a nedozorované učení.
  • Ostatnost s programováním v Pythonu (proměnné, smyčky, funkce).
  • Nějaké zkušenosti s práci s daty pomocí knihoven jako pandas nebo NumPy jsou užitečné, ale nejsou požadovány.
  • Neočekávají se žádné předchozí zkušenosti s pokročilým modelováním nebo neuronovými sítěmi.

Cílová skupina

  • Data scientisci
  • Business analytici
  • Softwaroví inženýři a techničtí pracovníci pracující s daty.
 28 hodiny

Počet účastníků


Price per participant

Reference (2)

Upcoming Courses

Související kategorie