Děkujeme za vaši dotaz! Jeden z našich pracovníků vás brzy kontaktuje.
Děkujeme za rezervaci! Jeden z našich pracovníků vás brzy kontaktuje.
Návrh Školení
Úvod do datové vědy pro analýzu velkých dat
- Přehled datové vědy
- Přehled velkých dat (Big Data)
- Data Structures (Datové struktury)
- Motivace a složitosti velkých dat
- Ekosystém velkých dat a nový přístup k analýze
- Klíčové technologie v oblasti velkých dat
- Proces těžby dat (Data Mining) a problémy
- Těžba asociace
- Klasterování dat
- Detekce odlehlých hodnot
- Klasifikace dat
Úvod do životního cyklu analýzy dat
- Objevování (Discovery)
- Příprava dat
- Plánování modelů
- Vytváření modelů
- Prezentace/komunikace výsledků
- Použití (Operationalization)
- Cvičení: Případová studie
Od tohoto bodu se na příkladech a cvičeních v R a souvisejících technologiích velkých dat bude věnovat většina tréninkového času (80%).
Začínáme s R
- Nainstalování R a Rstudio
- Vlastnosti jazyka R
- Objekty v R
- Data v R
- Manipulace s daty
- Problémy velkých dat
- Cvičení
Začínáme s Hadoopem
- Nainstalování Hadoopu
- Pochopení režimů Hadoopu
- HDFS (Hadoop Distributed File System)
- Architektura MapReduce
- Přehled projektů souvisejících s Hadoopem
- Psaní programů v Hadoop MapReduce
- Cvičení
Integrace R a Hadoopu pomocí RHadoopu
- Komponenty RHadoopu
- Nainstalování RHadoopu a připojení k Hadoopu
- Architektura RHadoopu
- Použití R pro streamování v Hadoopu
- Řešení problémů analýzy dat pomocí RHadoopu
- Cvičení
Předzpracování a příprava dat
- Kroky při přípravě dat
- Vyťažení znaků (Feature extraction)
- Očištění dat
- Integrace a transformace dat
- Kvalitativní redukce – výběr vzorku, výběr podmnožiny znaků,
- Redukce dimenzionality
- Diskretizace a binning
- Cvičení a případová studie
Pozorovací metody analýzy dat v R
- Popisné statistiky
- Pozorovací analýza dat (Exploratory data analysis)
- Vizualizace – počáteční kroky
- Vizualizace jedné proměnné
- Kontrola vztahů mezi více proměnnými
- Statistické metody pro hodnocení
- Testování hypotéz
- Cvičení a případová studie
Vizualizace dat
- Základní vizualizace v R
- Balíčky pro vizualizaci dat ggplot2, lattice, plotly, lattice
- Formátování grafů v R
- Pokročilé grafy
- Cvičení
Regrésní analýza (odhadování budoucích hodnot)
- Lineární regrese
- Případy použití
- Popis modelu
- Diagnostics (Diagnostics)
- Problémy s lineární regresí
- Metody zmenšování, hřebenová regrese, Lasso
- Generalizace a nelinearity
- Regrésní spliny
- Místní polynomiální regrese
- Přidané modely (Generalized additive models)
- Regrésní analýza s RHadoopem
- Cvičení a případová studie
Klasifikace
- Problémy související s klasifikací
- Přehled Bayesova principu
- Naivní Bayesovská klasifikace (Naïve Bayes)
- Logistická regrese
- K-nejbližších sousedů (K-nearest neighbors)
- Algoritmus rozhodovacích stromů (Decision trees algorithm)
- Neuronové sítě
- Vektorové podpory stroje (Support vector machines)
- Diagnostics třídících modelů
- Porovnání metod klasifikace
- Škálovatelné algoritmy pro klasifikaci
- Cvičení a případová studie
Oceňování výkonu modelů a jejich výběr
- Vychylení, variance a složitost modelu
- Přesnost vs. interpretovatelnost
- Hodnocení klasifikátorů
- Měřítka výkonu modelu/algorithmu
- Metoda zadržení (Hold-out method of validation)
- Křížové ověřování (Cross-validation)
- Nastavování algoritmů strojového učení s balíčkem caret
- Vizualizace výkonu modelu pomocí křivých ROC a Lift
Spojité metody (Ensemble Methods)
- Balení (Bagging)
- Náhodné lesy (Random Forests)
- Předvádění (Boosting)
- Gradientové předvádění (Gradient boosting)
- Cvičení a případová studie
Vektorové podpory stroje pro klasifikaci a regresi
- Klasifikátory s maximálním rozdílem (Maximal Margin classifiers)
- Vektorové podpory klasifikátory (Support vector classifiers)
- Vektorové podpory stroje (Support vector machines)
- SVM pro problémy klasifikace
- SVM pro problémy regrese
- Cvičení a případová studie
Identifikace neznámých skupin v datovém souboru
- Výběr znaků pro klasterování (Feature Selection for Clustering)
- Algoritmy založené na reprezentacích: k-means, k-medoids
- Hierarchické algoritmy: aglomerativní a disjunkční metody
- Pravděpodobnostní base algoritmy: EM (Expectation-Maximization)
- Denzitní algoritmy: DBSCAN, DENCLUE
- Ověřování klastů (Cluster validation)
- Pokročilé koncepty klasterování
- Klasterování s RHadoopem
- Cvičení a případová studie
Zjišťování vztahů pomocí analýzy odkazů (Link Analysis)
- Koncepty analýzy odkazů
- Metryky pro analýzu sítí
- Algoritmus PageRanku
- Hodnocení tématické hledání pomocí hyperlinks (Hyperlink-Induced Topic Search)
- Predikce odkazů (Link Prediction)
- Cvičení a případová studie
Těžba asociace (Association Pattern Mining)
- Model těžby častých vzorů (Frequent Pattern Mining Model)
- Problémy škálovatelnosti v těžbě častých vzorů
- Bruteforce algoritmy
- Algoritmus Apriori
- Přístup FP growth
- Hodnocení kandidátních pravidel (Evaluation of Candidate Rules)
- Aplikace asociativních pravidel (Applications of Association Rules)
- Ověřování a testování
- Diagnostics
- Těžba asociací s R a Hadoopem
- Cvičení a případová studie
Vytváření doporučovacích systémů (Constructing recommendation engines)
- Pochopení doporučovacích systémů
- Dataminingové techniky používané v doporučovacích systémech
- Doporučovací systémy s balíčkem recommenderlab
- Hodnocení doporučovacích systémů
- Doporučování s RHadoopem
- Cvičení: Vytváření doporučovacího systému
Analýza textu (Text analysis)
- Kroky analýzy textu
- Sběr surových textů
- Túrová reprezentace (Bag of words)
- Frekvenční hodnocení – inverzní frekvence dokumentu (Term Frequency –Inverse Document Frequency)
- Určování sentimentů
- Cvičení a případová studie
35 hodiny
Reference (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurz - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.