Návrh Školení

Úvod

Pochopení Big Data

Přehled Spark

Přehled Python

Přehled PySpark

  • Distribuce dat pomocí systému Resilient Distributed Datasets Framework
  • Distribuce výpočtů pomocí operátorů Spark API

Nastavení Python pomocí Spark

Nastavení PySpark

Použití Amazon Web Services (AWS) Instancí EC2 pro Spark

Nastavení Databricks

Nastavení klastru AWS EMR

Naučit se základy Python Programming

  • Začínáme s Python
  • Používání notebooku Jupyter
  • Použití proměnných a jednoduchých datových typů
  • Práce se seznamy
  • Použití příkazů if
  • Použití uživatelských vstupů
  • Práce s smyčkami while
  • Implementační funkce
  • Práce s třídami
  • Práce se soubory a výjimkami
  • Práce s projekty, daty a rozhraními API

Seznámení se základy Spark DataFrame

  • Začínáme se Spark DataFrames
  • Implementace základních operací se Sparkem
  • Použití Groupby a Aggregate Operations
  • Práce s časovými razítky a daty

Práce na cvičení projektu Spark DataFrame

Porozumění Machine Learning s MLlib

Práce s MLlib, Spark a Python pro Machine Learning

Pochopení regresí

  • Učení teorie lineární regrese
  • Implementace kodexu hodnocení regrese
  • Práce na vzorovém cvičení lineární regrese
  • Naučte se teorii logistické regrese
  • Implementace kódu logistické regrese
  • Práce na vzorovém cvičení logistické regrese

Pochopení Random Forest a rozhodovacích stromů

  • Teorie metod učícího se stromu
  • Implementace rozhodovacích stromů a Random Forest kódů
  • Práce na vzorku Random Forest Klasifikační cvičení

Práce s K-means Clustering

  • Pochopení K-means Clustering Theory
  • Implementace K-means Clustering Code
  • Práce na vzorovém shlukovacím cvičení

Práce s Recommender Systems

Implementace zpracování přirozeného jazyka

  • Pochopení Natural Language Processing (NLP)
  • Přehled nástrojů NLP
  • Práce na ukázkovém cvičení NLP

Streamování se zapnutým Sparkem Python

  • Přehled Streamování se Sparkem
  • Ukázka Spark Streaming Cvičení

Závěrečné poznámky

Požadavky

  • Obecné znalosti programování

Publikum

  • Vývojáři
  • IT profesionálové
  • Data Scientists
 21 hodiny

Počet účastníků


Price per participant

Reference (6)

Upcoming Courses

Související kategorie