Návrh Školení
Machine Learning Úvod
- Druhy strojového učení – nadzorované vs nenadzorované
- Z statistického učení k strojovému učení
- Pracovní proud datového miningu: porozumění podnikání, příprava dat, modelování, nasazení
- Výběr správného algoritmu pro úkol
- Přeprogramování a kompromis mezi biasem a variací
Python a přehled knihoven ML
- Proč používat programovací jazyky pro ML
- Výběr mezi R a Python
- Krátký kurz Python a Jupyter Notebooks
- Knihovny Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testování a hodnocení algoritmů ML
- Generalizace, přeprogramování a validace modelu
- Hodnotící strategie: holdout, křížová validace, bootstraping
- Metry pro regresi: ME, MSE, RMSE, MAPE
- Metry pro klasifikaci: přesnost, matice záměn, nevyvážené třídy
- Visualizace výkonu modelu: zisková křivka, ROC křivka, lift křivka
- Výběr modelu a grid search pro nastavení parametrů
Příprava dat
- Import a ukládání dat v Python
- Explorativní analýza a shrnutné statistiky
- Zvládání chybějících hodnot a odstupňovaných měření
- Standardizace, normalizace a transformace
- Překódování kvalitativních dat a zpracování dat s pandas
Klasifikační algoritmy
- Dvojzáporná vs vícehodnotová klasifikace
- Logistická regrese a diskriminační funkce
- Naivní Bayes, k-najbližší sousedé
- Decision trees: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines a jádra
- Kombinovaná učení techniky
Regrese a číselné predikce
- Najmenší čtverce a výběr proměnných
- Regularizační metody: L1, L2
- Polinomická regrese a nelineární modely
- Regresní stromy a splajny
Neural Networks
- Vstup do neuronových sítí a hluboké učení
- Aktivační funkce, vrstvy a backpropagation
- Multilayer perceptrony (MLP)
- Použití TensorFlow nebo PyTorch pro základní modelování neuronových sítí
- Neuronové sítě pro klasifikaci a regresi
Predikce prodeje Forecasting a Predictive Analytics
- Casové řady vs prediktivní modely založené na regresi
- Zpracování sezónních a trendových dat
- Vytvoření modelu pro predikci prodeje pomocí technik ML
- Hodnocení přesnosti a nejistoty predikce
- Business interpretace a komunikace výsledků
Unsupervised Learning
- Techniky shlukování: k-means, k-medoids, hierarchické shlukování, SOMs
- Snižování dimenzionality: PCA, faktorová analýza, SVD
- Multidimenzionální měření vzdálenosti
Text Mining
- Předzpracování textu a tokenizace
- Bag-of-words, stemming a lemmatization
- Sentiment analysis a frekvence slov
- Vizuální zobrazení textových dat pomocí word clouds
Doporučovací systémy
- User-based a item-based kolineární filtrace
- Návrh a hodnocení doporučovacích motorů
Analýza vzorců vztahů
- Casté položky a algoritmus Apriori
- Analýza košíků a lift ratio
Detection odstupňovaných měření
- Analyzování extrémních hodnot
- Vzdálenostní a hustotní metody
- Detection odstupňovaných měření v vysokorozměrných datech
Machine Learning Případový studium
- Pochopení podnikatelského problému
- Příprava dat a inženýrství funkcí
- Výběr modelu a přizpůsobení parametrů
- Hodnocení a prezentace výsledků
- Nasazení
Souhrn a další kroky
Požadavky
- Základní znalosti konceptů strojového učení, jako jsou nadzorované a nenadzorované učení
- Poznání s Python programováním (proměnné, cykly, funkce)
- Zkušenosti s právem na data pomocí knihoven jako je pandas nebo NumPy mohou pomoci, ale nejsou požadovány
- Není očekáván žádný předchozí zážitek s pokročilým modelováním nebo neuronovými sítěmi
Cílová skupina
- Analysté dat
- Business analýzové
- Software inženýři a technické odborníci pracující s daty
Reference (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Kurz - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.