Návrh Školení
Úvod do strojového učení
- Druhy strojového učení – nadzorované vs. nenadzorované
- Přechod od statistického učení k strojovému učení
- Pracovní postup datové těžby: obchodní porozumění, příprava dat, modelování, nasazení
- Výběr správného algoritmu pro úlohu
- Přepoučení a kompromis mezi předpojením a variací (bias-variance tradeoff)
Úvod do Pythonu a knihoven strojového učení
- Proč používat programovací jazyky pro ML
- Výběr mezi R a Pythonem
- Základní kurz Pythonu a Jupyter Notebooks
- Python knihovny: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testování a hodnocení algoritmů strojového učení
- Generalizace, přepoučení a ověřování modelu
- Hodnoticí strategie: holdout, křížová validace, bootstrapping
- Metrice pro regresi: ME, MSE, RMSE, MAPE
- Metrice pro klasifikaci: přesnost (accuracy), matice záměn (confusion matrix), nezvážené třídy (unbalanced classes)
- Vizualizace výkonnosti modelu: profitová křivka, ROC křivka, lift křivka
- Výběr modelu a síťové hledání pro jemné nastavení (grid search for tuning)
Příprava dat
- Import a úložiště dat v Pythonu
- Explorační analýza a shrnovací statistiky
- Zpracování chybějících hodnot a odlehlých pozorování (outliers)
- Standardizace, normalizace a transformace
- Překódování kvalitativních dat a datové přetváření s pandas
Klasifikační algoritmy
- Binární vs. více třídová klasifikace (binary vs multiclass classification)
- Logistická regrese a diskriminační funkce
- Naïve Bayes, k nejbližších sousedů (k-nearest neighbors)
- Rozhodovací stromy: CART, náhodné lesy (Random Forests), bagging, boosting, XGBoost
- Podporovací vektory a jádra (Support Vector Machines and kernels)
- Techniky ensemble učení
Regrese a numerická predikce
- Méně čtverečků (least squares) a výběr proměnných
- Regularizační metody: L1, L2
- Polynomiální regrese a nelinární modely
- Regresní stromy a spliny (splines)
Nenadzorované učení
- Klastičné techniky: k-means, k-medoids, hierarchické klastičení, SOMs
- Redukce dimenzionality: PCA, faktorová analýza, SVD
- Multidimenzionální škálování (multidimensional scaling)
Těžba textu (Text Mining)
- Předzpracování a tokenizace textu
- Pytle slov, stemming a lemmatization
- Sentiment analýza a frekvence slov
- Vizualizace textových dat pomocí word clouds (oblačků slov)
Doporučovací systémy
- Uživatelská a položková spolufiltrace (user-based and item-based collaborative filtering)
- Návrh a hodnocení doporučovacích motorů (recommendation engines)
Těžba asociativních vzorců
- Časté množiny položek a algoritmus Apriori
- Analyza košíku nákupu a lift ratio
Vyčleňování odlehlých pozorování (Outlier Detection)
- Analýza extrémních hodnot
- Metody založené na vzdálenosti a hustotě
- Vyčleňování odlehlých pozorování ve vysoko-rozměrových datech
Případová studie strojového učení
- Porozumění obchodnímu problému
- Příprava dat a inženýrství vlastností (feature engineering)
- Výběr modelu a jemné nastavení parametrů (parameter tuning)
- Hodnocení a prezentace zjistění
- Nasazení
Závěr a další kroky
Požadavky
- Základní znalost statistiky a lineární algebry
- Oboznámení se základy analýzy dat nebo koncepty business intelligence
- Doporučuje se mít nějaké zkušenosti s programováním (ideálně Pythonem nebo R)
- Zájem o naučení se aplikovanému strojovému učení pro data-orientované projekty
Cílová skupina
- Data analytici a vědci
- Statistici a výzkumní pracovníci
- Vývojáři a IT profesionálové, kteří se zkoumají nástroje pro strojové učení
- Kdokoliv zapojený do projektů datové vědy nebo prediktivní analýzy
Reference (3)
I i když jsem musel vynechat jeden den kvůli zákaznickým jednáním, cítím, že mám mnohem jasnější představu o procesech a technikách používaných v strojovém učení a kdy bych jednotlivé přístupy uplatňoval. Náš úkol nyní je procvičit si to, co jsme se naučili, a začít to aplikovat na naše oblasti problémů.
Richard Blewett - Rock Solid Knowledge Ltd
Kurz - Machine Learning – Data science
Přeloženo strojem
Mělo mi za líbezné, že školení bylo zaměřené na příklady a programování. Předpokládal jsem, že je nemožné zabalit tolik obsahu do třídního školení, ale mýlil jsem se. Školení pokrývalo mnoho témat a všechno bylo provedeno velmi podrobně (zejména ladění parametrů modelu - nečekal jsem, že na to bude čas, a byl jsem velmi příjemně překvapen).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Kurz - Machine Learning – Data science
Přeloženo strojem
Ukazuje mnoho metod s předem připravenými skripty - velmi dobře připravené materiály a snadné zpětné sledování.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Kurz - Machine Learning – Data science
Přeloženo strojem