Návrh Školení
Úvod do strojového učení
- Typy strojového učení – dozorováno vs. nedozorováno
- Od statistického učení k strojovému učení
- Pracovní postup datové těžby: pochopení podnikání, příprava dat, modelování, nasazení
- Volba správného algoritmu pro daný úkol
- Přetrenování a obchod mezi chybou a rozptylem (bias-variance tradeoff)
Přehled Pythonu a knihoven strojového učení
- Proč používat programovací jazyky pro ML
- Volba mezi R a Pythonem
- Úvod do Pythonu a Jupyter Notebooks
- Knihovny Pythonu: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testování a hodnocení algoritmů strojového učení
- Generalizace, přetrenování a ověření modelu
- Strategie hodnocení: oddílení (holdout), k-tiková validace (cross-validation), bootstrapování (bootstrapping)
- Metriky pro regresi: ME, MSE, RMSE, MAPE
- Metriky pro klasifikaci: přesnost (accuracy), matice záměn (confusion matrix), nerovnoměrné třídy (unbalanced classes)
- Vizualizace výkonu modelu: profit curve, ROC curve, lift curve
- Volba modelu a podběh pro nastavení parametrů (grid search for tuning)
Příprava dat
- Import a úložiště dat v Pythonu
- Explorační analýza a shrnutí statistiky (summary statistics)
- Zpracování chybějících hodnot a odlehlých bodů (outliers)
- Standardizace, normalizace a transformace dat
- Recodifikace kvalitativních dat a manipulace s daty pomocí pandasu (data wrangling with pandas)
Klasifikační algoritmy
- Binární vs. více třídová klasifikace (binary vs multiclass classification)
- Logistická regrese a diskriminační funkce
- Naïve Bayes, k-nearest neighbors (k-nejbližších sousedů)
- Rozhodové stromy: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines a jádra (kernels)
- Techniky ensemblového učení (ensemble learning techniques)
Regrese a číselné predikce (numerical prediction)
- Metoda nejmenších čtverců a výběr proměnných (variable selection)
- Regularizační metody: L1, L2
- Polynomiální regrese a nelineární modely
- Regresní stromy a spliny (splines)
Neuronové sítě
- Úvod do neuronových sítí a hlubokého učení (deep learning)
- Aktivační funkce, vrstvy a backpropagation
- Multilayer Perceptrons (MLP)
- Použití TensorFlow nebo PyTorch pro základní modelování neuronových sítí
- Neuronové sítě pro klasifikaci a regresi
Prognózování prodeje a prediktivní analýza (predictive analytics)
- Time series vs. regrese založené na prognózách (regression-based forecasting)
- Zpracování sezónních a trendových dat (handling seasonal and trend-based data)
- Vytvoření modelu pro prognózování prodeje pomocí technik strojového učení (ML techniques)
- Hodnocení přesnosti prognózy a nejistoty (forecast accuracy and uncertainty)
- Biznisová interpretace a komunikace výsledků (business interpretation and communication of results)
Nedozorováno učení (Unsupervised Learning)
- Klastičné techniky: k-means, k-medoids, hierarchické klastiční algoritmy, SOMs (Self-Organizing Maps)
- Redukce dimenzionality: PCA, faktorová analýza, SVD (Singular Value Decomposition)
- Multidimenzionální škálování (multidimensional scaling)
Textová analýza (Text Mining)
- Předzpracování textu a tokenizace (text preprocessing and tokenization)
- Bag-of-words, stemming a lemmatizace (stemming and lemmatization)
- Analýza sentimentu a frekvence slov (sentiment analysis and word frequency)
- Vizualizace textových dat pomocí word clouds (word clouds visualization)
Doporučovací systémy (Recommendation Systems)
- Uživatelská a položková spolufiltrování (user-based and item-based collaborative filtering)
- Návrh a hodnocení doporučovacích motorů (designing and evaluating recommendation engines)
Dobyvání asociativních vzorců (Association Pattern Mining)
- Frekventní množiny a algoritmus Apriori (frequent itemsets and Apriori algorithm)
- Analýza košíku zákazníka a lift ratio (market basket analysis and lift ratio)
Detekce odlehlých hodnot (Outlier Detection)
- Analýza extrémních hodnot (extreme value analysis)
- Metody založené na vzdálenosti a hustotě (distance-based and density-based methods)
- Detekce odlehlých hodnot ve vysoko-dimenzionálních datech (high-dimensional data)
Pracovní příklad ze světa strojového učení (Machine Learning Case Study)
- Pochopení biznisového problému (understanding the business problem)
- Předzpracování dat a vytváření charakteristik (data preprocessing and feature engineering)
- Volba modelu a optimalizace parametrů (model selection and parameter tuning)
- Hodnocení a prezentace výsledků (evaluation and presentation of findings)
- Nasazení (deployment)
Shrnutí a další kroky (Summary and Next Steps)
Požadavky
- Základní znalost konceptů strojového učení, jako jsou dozorované a nedozorované učení.
- Ostatnost s programováním v Pythonu (proměnné, smyčky, funkce).
- Nějaké zkušenosti s práci s daty pomocí knihoven jako pandas nebo NumPy jsou užitečné, ale nejsou požadovány.
- Neočekávají se žádné předchozí zkušenosti s pokročilým modelováním nebo neuronovými sítěmi.
Cílová skupina
- Data scientisci
- Business analytici
- Softwaroví inženýři a techničtí pracovníci pracující s daty.
Reference (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Kurz - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.