Návrh Školení
Úvod do strojového učení
- Typy strojového učení – dozorováno vs. nedozorováno
- Od statistického učení k strojovému učení
- Pracovní postup datové těžby: pochopení podnikání, příprava dat, modelování, nasazení
- Volba správného algoritmu pro daný úkol
- Přetrenování a obchod mezi chybou a rozptylem (bias-variance tradeoff)
Přehled Pythonu a knihoven strojového učení
- Proč používat programovací jazyky pro ML
- Volba mezi R a Pythonem
- Úvod do Pythonu a Jupyter Notebooks
- Knihovny Pythonu: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testování a hodnocení algoritmů strojového učení
- Generalizace, přetrenování a ověření modelu
- Strategie hodnocení: oddílení (holdout), k-tiková validace (cross-validation), bootstrapování (bootstrapping)
- Metriky pro regresi: ME, MSE, RMSE, MAPE
- Metriky pro klasifikaci: přesnost (accuracy), matice záměn (confusion matrix), nerovnoměrné třídy (unbalanced classes)
- Vizualizace výkonu modelu: profit curve, ROC curve, lift curve
- Volba modelu a podběh pro nastavení parametrů (grid search for tuning)
Příprava dat
- Import a úložiště dat v Pythonu
- Explorační analýza a shrnutí statistiky (summary statistics)
- Zpracování chybějících hodnot a odlehlých bodů (outliers)
- Standardizace, normalizace a transformace dat
- Recodifikace kvalitativních dat a manipulace s daty pomocí pandasu (data wrangling with pandas)
Klasifikační algoritmy
- Binární vs. více třídová klasifikace (binary vs multiclass classification)
- Logistická regrese a diskriminační funkce
- Naïve Bayes, k-nearest neighbors (k-nejbližších sousedů)
- Rozhodové stromy: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines a jádra (kernels)
- Techniky ensemblového učení (ensemble learning techniques)
Regrese a číselné predikce (numerical prediction)
- Metoda nejmenších čtverců a výběr proměnných (variable selection)
- Regularizační metody: L1, L2
- Polynomiální regrese a nelineární modely
- Regresní stromy a spliny (splines)
Neuronové sítě
- Úvod do neuronových sítí a hlubokého učení (deep learning)
- Aktivační funkce, vrstvy a backpropagation
- Multilayer Perceptrons (MLP)
- Použití TensorFlow nebo PyTorch pro základní modelování neuronových sítí
- Neuronové sítě pro klasifikaci a regresi
Prognózování prodeje a prediktivní analýza (predictive analytics)
- Time series vs. regrese založené na prognózách (regression-based forecasting)
- Zpracování sezónních a trendových dat (handling seasonal and trend-based data)
- Vytvoření modelu pro prognózování prodeje pomocí technik strojového učení (ML techniques)
- Hodnocení přesnosti prognózy a nejistoty (forecast accuracy and uncertainty)
- Biznisová interpretace a komunikace výsledků (business interpretation and communication of results)
Nedozorováno učení (Unsupervised Learning)
- Klastičné techniky: k-means, k-medoids, hierarchické klastiční algoritmy, SOMs (Self-Organizing Maps)
- Redukce dimenzionality: PCA, faktorová analýza, SVD (Singular Value Decomposition)
- Multidimenzionální škálování (multidimensional scaling)
Textová analýza (Text Mining)
- Předzpracování textu a tokenizace (text preprocessing and tokenization)
- Bag-of-words, stemming a lemmatizace (stemming and lemmatization)
- Analýza sentimentu a frekvence slov (sentiment analysis and word frequency)
- Vizualizace textových dat pomocí word clouds (word clouds visualization)
Doporučovací systémy (Recommendation Systems)
- Uživatelská a položková spolufiltrování (user-based and item-based collaborative filtering)
- Návrh a hodnocení doporučovacích motorů (designing and evaluating recommendation engines)
Dobyvání asociativních vzorců (Association Pattern Mining)
- Frekventní množiny a algoritmus Apriori (frequent itemsets and Apriori algorithm)
- Analýza košíku zákazníka a lift ratio (market basket analysis and lift ratio)
Detekce odlehlých hodnot (Outlier Detection)
- Analýza extrémních hodnot (extreme value analysis)
- Metody založené na vzdálenosti a hustotě (distance-based and density-based methods)
- Detekce odlehlých hodnot ve vysoko-dimenzionálních datech (high-dimensional data)
Pracovní příklad ze světa strojového učení (Machine Learning Case Study)
- Pochopení biznisového problému (understanding the business problem)
- Předzpracování dat a vytváření charakteristik (data preprocessing and feature engineering)
- Volba modelu a optimalizace parametrů (model selection and parameter tuning)
- Hodnocení a prezentace výsledků (evaluation and presentation of findings)
- Nasazení (deployment)
Shrnutí a další kroky (Summary and Next Steps)
Požadavky
- Základní znalost konceptů strojového učení, jako jsou dozorované a nedozorované učení.
- Ostatnost s programováním v Pythonu (proměnné, smyčky, funkce).
- Nějaké zkušenosti s práci s daty pomocí knihoven jako pandas nebo NumPy jsou užitečné, ale nejsou požadovány.
- Neočekávají se žádné předchozí zkušenosti s pokročilým modelováním nebo neuronovými sítěmi.
Cílová skupina
- Data scientisci
- Business analytici
- Softwaroví inženýři a techničtí pracovníci pracující s daty.
Reference (2)
ML ekosystém neobsahuje pouze MLflow, ale také Optuna, Hyperopt, Docker a Docker Compose
Guillaume GAUTIER - OLEA MEDICAL
Kurz - MLflow
Přeloženo strojem
Rád jsem se zúčastnil školení Kubeflow, které proběhlo vzdáleně. Toto školení mi umožnilo prohloubit znalosti o službách AWS, K8s a všech devOps nástrojích kolem Kubeflow, což jsou nezbytné základy pro správný přístup k tématu. Rád bych poděkoval Marcinovi Malawskimu za jeho trpělivost a profesionální přístup při školení a poradách o osvědčených postupech. Malawski se k tématu přibližuje z různých úhlů, používá různé nástroje pro nasazení jako Ansible, EKS kubectl a Terraform. Teď jsem naprosto přesvědčen, že vstupuji do správného oboru aplikace.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Kurz - Kubeflow
Přeloženo strojem