Návrh Školení

Úvod do Data Science for Big Data Analytics

    Data Science Přehled Přehled velkých dat Datové struktury Ovladače a složitosti ekosystému velkých dat Big Data a nový přístup k analýze Klíčové technologie v procesu dolování velkých dat a problémy Asociace vzorové těžby dat Clustering odlehlých hodnot Detekce dat Klasifikace

Úvod do životního cyklu analýzy dat

    Discovery Příprava dat Plánování modelu Budování modelu Prezentace/Communication výsledků Operacionalizace Cvičení: Případová studie

Od tohoto okamžiku bude většina tréninkového času (80 %) věnována příkladům a cvičením v R a související technologii velkých dat.

Začínáme s R

    Instalace R a Rstudio Funkce objektů jazyka R v R Data v R Manipulace s daty Problémy s velkými daty Cvičení

Začínáme s Hadoop

    Instalace Hadoop Pochopení Hadoop režimů HDFS Architektura MapReduce Hadoop přehled souvisejících projektů Psaní programů v Hadoop Cvičení MapReduce

Integrace R a Hadoop s RHadoop

    Komponenty RHadoop Instalace RHadoop a připojení k Hadoop Architektura RHadoop Hadoop streamování s R Řešení problémů s analýzou dat pomocí RHadoop Cvičení

Předzpracování a příprava dat

    Kroky přípravy dat Extrakce prvků Čištění dat Integrace a transformace dat Redukce dat – vzorkování, výběr podmnožiny prvků, Redukce rozměrů Diskretizace a binning Cvičení a případová studie

Průzkumné metody analýzy dat v R

    Popisná statistika Průzkumná analýza dat Vizualizace – předběžné kroky Vizualizace jedné proměnné Zkoumání více proměnných Statistické metody pro hodnocení Testování hypotéz Cvičení a případová studie

Data Visualization s

    Základní vizualizace v R Balíčky pro vizualizaci dat ggplot2, lattice, plotly, lattice Formátování grafů v R Pokročilé grafy Cvičení

Regrese (odhad budoucích hodnot)

    Lineární regrese Případy použití Popis modelu Diagnostika Problémy s lineární regresí Metody smršťování, hřebenová regrese, laso Zobecnění a nelinearita Regresní splajny Lokální polynomiální regrese Zobecněné aditivní modely Regrese s RHadoop Cvičení a případová studie

Klasifikace

    Problémy související s klasifikací Bayesian refresher Naivní Bayes Logistická regrese K-nejbližší sousedé Algoritmus rozhodovacích stromů Neuronové sítě Podporované vektorové stroje Diagnostika klasifikátorů Porovnání klasifikačních metod Scalable klasifikační algoritmy Cvičení a případová studie

Posouzení výkonu a výběru modelu

    Zkreslení, odchylka a složitost modelu Přesnost vs. interpretovatelnost Hodnocení klasifikátorů Měření výkonu modelu/algoritmu Metoda vydržování ověřování Křížová validace Ladění algoritmů strojového učení pomocí balíčku stříšky Vizualizace výkonu modelu pomocí křivek Profit ROC a Lift

Ensemble Methods

    Bagging Random Forests Boosting Cvičení na posílení gradientu a případová studie

Podpora vektorových strojů pro klasifikaci a regresi

    Klasifikátory maximální marže Klasifikátory podpůrných vektorů Podporované vektorové stroje SVM pro klasifikační problémy SVM pro regresní problémy
Cvičení a případová studie
  • Identifikace neznámých seskupení v rámci datové sady
  • Výběr vlastností pro shlukování Reprezentativní algoritmy: k-means, k-medoids Hierarchické algoritmy: aglomerativní a dělící metody Pravděpodobnostní základní algoritmy: EM Algoritmy založené na hustotě: DBSCAN, DENCLUE Ověřování clusterů Pokročilé koncepty shlukování a R[5ses Clustering] Clustering

      Objevování spojení s analýzou odkazů

    Koncepty analýzy odkazů Metriky pro analýzu sítí Algoritmus Pagerank Hyperlink-Induced Topic Search Cvičení predikce odkazů a případová studie

      Sdružení Pattern Mining

    Model častého dolování vzorů Scalaproblémy se schopností při častém dolování vzorů Algoritmy hrubé síly Apriori algoritmus Přístup FP růstu Hodnocení pravidel kandidáta Aplikace pravidel asociace Validace a testování Diagnostika Pravidla asociace s cvičeními R a Hadoop a případová studie

      Konstrukce motorů doporučení

    Porozumění doporučovacím systémům Techniky dolování dat používané v doporučovacích systémech Systémy doporučování s balíčkem doporučujících laboratoří Hodnocení doporučovacích systémů Doporučení s RHadoop Cvičení: Sestavení motoru doporučení

      Analýza textu

    Kroky analýzy textu Sběr surového textu Pytlík slov Frekvence termínu – Inverzní frekvence dokumentu Určování pocitů Cvičení a případová studie

      35 hodiny

    Počet účastníků


    Začátek

    Konec


    Dates are subject to availability and take place between 09:30 and 16:30.

    Price per participant

    Reference (2)

    Související kurzy

    Související kategorie