Návrh Školení
Machine Learning Úvod
- Druhy strojového učení – nadzorované vs nenadzorované
- Od statistického učení k strojovému učení
- Pracovní proud datové výpady: porozumění podnikání, příprava dat, modelování, nasazení
- Vybrání správného algoritmu pro úkol
- Přeuvěr a obchod s biasem-variance
Python a Přehled knihoven ML
- Proč používat programovací jazyky pro ML
- Výběr mezi R a Python
- Krátké představení Python a Jupyter Notebooků
- Bibliotéky Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testování a hodnocení ML algoritmů
- Generalizace, přeuvěr a validace modelu
- Hodnotící strategie: holdout, křížová validace, bootstraping
- Metry pro regresi: ME, MSE, RMSE, MAPE
- Metry pro klasifikaci: přesnost, matice záměny, nevyvážené třídy
- Vizualizace výkonu modelu: zisková křivka, ROC křivka, lift křivka
- Výběr modelu a grid search pro nastavení parametrů
Příprava dat
- Import dat a jejich úložiště v Python
- Explorativní analýza a sestavování statistik
- Zvládání chybějících hodnot a odstupňovaných měření
- Standardizace, normalizace a transformace dat
- Překódování kvalitativních dat a zpracování dat s pandas
Klasifikační algoritmy
- Dvojzáporná vs víceúrovňová klasifikace
- Logistická regrese a diskriminační funkce
- Naivní Bayes, k-najbližší sousedé
- Vyvěšení rozhodovacích stromů: CART, Random Forests, Bagging, Boosting, XGBoost
- Podporové vektory a jádra
- Techniky ensemblového učení
Regrese a číselné predikce
- Najmenší čtverce a výběr proměnných
- Metody regularizace: L1, L2
- Polinomická regrese a nelineární modely
- Regresní stromy a splajny
Unsupervised Learning
- Klasterizační techniky: k-means, k-medoids, hierarchické klustrování, SOMs
- Snížení dimenzionality: PCA, faktorová analýza, SVD
- Vícerozměrné měření vzdálenosti
Tekstová analýza
- Předzpracování textu a tokenizace
- Bag-of-words, stemming a lemmatization
- Analýza sentimentu a frekvence slov
- Vizualizace textových dat pomocí slovních molů
Systémy doporučení
- Uživatelovská a položková společenská filtrace
- Návrh a hodnocení systémů doporučení
Výpočet častých vzorců
- Chtěné množiny prvků a algoritmus Apriori
- Analyza košíků nákupů a lift poměr
Detekce výpadkových hodnot
- Analyzování extrémních hodnot
- Vzdálenostní a hustotní metody
- Detekce výpadků ve vysokorozměrných datech
Machine Learning Případové studie
- Pochopení podnikatelského problému
- Příprava dat a inženýrství funkcí
- Výběr modelu a nastavení parametrů
- Hodnocení a prezentace výsledků
- Nasazení
Souhrn a další kroky
Požadavky
- Základní znalost statistiky a lineární algebry
- Přehled o analýze dat nebo konceptech business intelligence
- Nějaké zkušenosti s programováním (přednostně v Python nebo R) se doporučují
- Zájem o učení aplikovanému strojovému učení pro datově orientované projekty
Cílová skupina
- Analysté a věci data
- Statistici a profesionálové výzkumu
- Vývojáři a IT odborníci zkoumající nástroje strojového učení
- Kdekoli, kdo se účastní projektů v oblasti datové vědy nebo prediktivní analýzy
Reference (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
Kurz - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Kurz - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback