Návrh Školení

Machine Learning Úvod

  • Druhy strojového učení – nadzorované vs nenadzorované
  • Od statistického učení k strojovému učení
  • Pracovní proud datové výpady: porozumění podnikání, příprava dat, modelování, nasazení
  • Vybrání správného algoritmu pro úkol
  • Přeuvěr a obchod s biasem-variance

Python a Přehled knihoven ML

  • Proč používat programovací jazyky pro ML
  • Výběr mezi R a Python
  • Krátké představení Python a Jupyter Notebooků
  • Bibliotéky Python: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testování a hodnocení ML algoritmů

  • Generalizace, přeuvěr a validace modelu
  • Hodnotící strategie: holdout, křížová validace, bootstraping
  • Metry pro regresi: ME, MSE, RMSE, MAPE
  • Metry pro klasifikaci: přesnost, matice záměny, nevyvážené třídy
  • Vizualizace výkonu modelu: zisková křivka, ROC křivka, lift křivka
  • Výběr modelu a grid search pro nastavení parametrů

Příprava dat

  • Import dat a jejich úložiště v Python
  • Explorativní analýza a sestavování statistik
  • Zvládání chybějících hodnot a odstupňovaných měření
  • Standardizace, normalizace a transformace dat
  • Překódování kvalitativních dat a zpracování dat s pandas

Klasifikační algoritmy

  • Dvojzáporná vs víceúrovňová klasifikace
  • Logistická regrese a diskriminační funkce
  • Naivní Bayes, k-najbližší sousedé
  • Vyvěšení rozhodovacích stromů: CART, Random Forests, Bagging, Boosting, XGBoost
  • Podporové vektory a jádra
  • Techniky ensemblového učení

Regrese a číselné predikce

  • Najmenší čtverce a výběr proměnných
  • Metody regularizace: L1, L2
  • Polinomická regrese a nelineární modely
  • Regresní stromy a splajny

Unsupervised Learning

  • Klasterizační techniky: k-means, k-medoids, hierarchické klustrování, SOMs
  • Snížení dimenzionality: PCA, faktorová analýza, SVD
  • Vícerozměrné měření vzdálenosti

Tekstová analýza

  • Předzpracování textu a tokenizace
  • Bag-of-words, stemming a lemmatization
  • Analýza sentimentu a frekvence slov
  • Vizualizace textových dat pomocí slovních molů

Systémy doporučení

  • Uživatelovská a položková společenská filtrace
  • Návrh a hodnocení systémů doporučení

Výpočet častých vzorců

  • Chtěné množiny prvků a algoritmus Apriori
  • Analyza košíků nákupů a lift poměr

Detekce výpadkových hodnot

  • Analyzování extrémních hodnot
  • Vzdálenostní a hustotní metody
  • Detekce výpadků ve vysokorozměrných datech

Machine Learning Případové studie

  • Pochopení podnikatelského problému
  • Příprava dat a inženýrství funkcí
  • Výběr modelu a nastavení parametrů
  • Hodnocení a prezentace výsledků
  • Nasazení

Souhrn a další kroky

Požadavky

  • Základní znalost statistiky a lineární algebry
  • Přehled o analýze dat nebo konceptech business intelligence
  • Nějaké zkušenosti s programováním (přednostně v Python nebo R) se doporučují
  • Zájem o učení aplikovanému strojovému učení pro datově orientované projekty

Cílová skupina

  • Analysté a věci data
  • Statistici a profesionálové výzkumu
  • Vývojáři a IT odborníci zkoumající nástroje strojového učení
  • Kdekoli, kdo se účastní projektů v oblasti datové vědy nebo prediktivní analýzy
 21 hodiny

Počet účastníků


Price per participant

Reference (3)

Upcoming Courses

Související kategorie